首页 > 后端开发 > Golang > 正文

怎样用Golang构建简单爬虫 实践net/http与goquery抓取网页

P粉602998670
发布: 2025-09-02 09:38:01
原创
868人浏览过

golang写爬虫可通过net/http发起请求并用goquery解析html实现。首先安装goquery库,使用http.get()或自定义client发送get请求获取页面内容,并设置必要的header如user-agent;接着用goquery.newdocumentfromreader()加载html文档,通过类似jquerycss选择器提取数据,如.find().text()或.attr()获取文本和属性值;最后可将结果封装进结构体以便后续处理。注意事项包括关闭响应体、处理相对url、控制请求频率及应对反爬机制等。

怎样用Golang构建简单爬虫 实践net/http与goquery抓取网页

用Golang写爬虫其实挺直接的,尤其是搭配标准库

net/http
登录后复制
和第三方库
goquery
登录后复制
,基本能完成大部分网页抓取任务。重点在于理解HTTP请求流程、HTML解析方式,以及如何高效地提取目标数据。

怎样用Golang构建简单爬虫 实践net/http与goquery抓取网页

准备工作:安装依赖

除了Go本身的基础环境外,你还需要安装

goquery
登录后复制
这个库,它提供了类似jQuery的语法来操作HTML文档。安装命令如下:

怎样用Golang构建简单爬虫 实践net/http与goquery抓取网页
go get github.com/PuerkitoBio/goquery
登录后复制

确保你的项目里引入了

net/http
登录后复制
github.com/PuerkitoBio/goquery
登录后复制
这两个包。

立即学习go语言免费学习笔记(深入)”;

发起HTTP请求:使用net/http获取页面内容

要抓取网页,首先得发起GET请求获取HTML内容。这部分可以用

net/http.Get()
登录后复制
快速实现,也可以自定义Client来控制超时、Header等细节。

怎样用Golang构建简单爬虫 实践net/http与goquery抓取网页

示例代码如下:

resp, err := http.Get("https://example.com")
if err != nil {
    log.Fatal(err)
}
defer resp.Body.Close()

// 检查状态码是否为200 OK
if resp.StatusCode != 200 {
    log.Fatalf("status code error: %d %s", resp.StatusCode, resp.Status)
}

// 接下来可以将resp.Body传给goquery解析
登录后复制

这里需要注意几点:

PhotoG
PhotoG

PhotoG是全球首个内容营销端对端智能体

PhotoG 121
查看详情 PhotoG
  • 一定要记得关闭Body,否则会泄露资源。
  • 有些网站会对User-Agent做限制,这时候需要手动设置Header:
client := &http.Client{}
req, _ := http.NewRequest("GET", "https://example.com", nil)
req.Header.Set("User-Agent", "Mozilla/5.0")
resp, _ := client.Do(req)
登录后复制

使用goquery解析HTML并提取数据

拿到HTML之后,就可以用

goquery.NewDocumentFromReader()
登录后复制
来加载文档并开始查询了。比如你想提取所有
<a>
登录后复制
标签中的链接:

doc, err := goquery.NewDocumentFromReader(resp.Body)
if err != nil {
    log.Fatal(err)
}

doc.Find("a").Each(func(i int, s *goquery.Selection) {
    href, _ := s.Attr("href")
    fmt.Println(href)
})
登录后复制

你可以根据CSS选择器来定位元素,比如:

  • 提取某个类名下的文本:
    .Find(".title").Text()
    登录后复制
  • 获取特定属性值:
    s.Attr("src")
    登录后复制

一个常见问题是处理相对路径的URL,这时候需要用

baseURL
登录后复制
来拼接完整地址,或者在提取时手动处理字符串。

简单封装结构化输出

如果你希望把抓取的数据结构化保存,可以定义一个struct,然后在遍历时填充字段。例如:

type Item struct {
    Title string
    Link  string
}

var items []Item

doc.Find(".item").Each(func(i int, s *goquery.Selection) {
    title := s.Find("h2").Text()
    link, _ := s.Find("a").Attr("href")
    items = append(items, Item{Title: title, Link: link})
})
登录后复制

这样就能方便地后续处理,比如导出为JSON或存入数据库。

结尾小贴士

构建简单爬虫其实不难,但要注意一些细节,比如User-Agent、错误处理、请求频率控制。如果只是做一次性抓取,上面的方法已经够用了。遇到反爬机制强的网站,可能需要加代理、模拟登录、甚至用Headless浏览器,那又是另一个话题了。

基本上就这些,动手试试吧!

以上就是怎样用Golang构建简单爬虫 实践net/http与goquery抓取网页的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号