用golang写爬虫可通过net/http发起请求并用goquery解析html实现。首先安装goquery库,使用http.get()或自定义client发送get请求获取页面内容,并设置必要的header如user-agent;接着用goquery.newdocumentfromreader()加载html文档,通过类似jquery的css选择器提取数据,如.find().text()或.attr()获取文本和属性值;最后可将结果封装进结构体以便后续处理。注意事项包括关闭响应体、处理相对url、控制请求频率及应对反爬机制等。

用Golang写爬虫其实挺直接的,尤其是搭配标准库
net/http
goquery

除了Go本身的基础环境外,你还需要安装
goquery

go get github.com/PuerkitoBio/goquery
确保你的项目里引入了
net/http
github.com/PuerkitoBio/goquery
立即学习“go语言免费学习笔记(深入)”;
要抓取网页,首先得发起GET请求获取HTML内容。这部分可以用
net/http.Get()

示例代码如下:
resp, err := http.Get("https://example.com")
if err != nil {
log.Fatal(err)
}
defer resp.Body.Close()
// 检查状态码是否为200 OK
if resp.StatusCode != 200 {
log.Fatalf("status code error: %d %s", resp.StatusCode, resp.Status)
}
// 接下来可以将resp.Body传给goquery解析这里需要注意几点:
client := &http.Client{}
req, _ := http.NewRequest("GET", "https://example.com", nil)
req.Header.Set("User-Agent", "Mozilla/5.0")
resp, _ := client.Do(req)拿到HTML之后,就可以用
goquery.NewDocumentFromReader()
<a>
doc, err := goquery.NewDocumentFromReader(resp.Body)
if err != nil {
log.Fatal(err)
}
doc.Find("a").Each(func(i int, s *goquery.Selection) {
href, _ := s.Attr("href")
fmt.Println(href)
})你可以根据CSS选择器来定位元素,比如:
.Find(".title").Text()s.Attr("src")一个常见问题是处理相对路径的URL,这时候需要用
baseURL
如果你希望把抓取的数据结构化保存,可以定义一个struct,然后在遍历时填充字段。例如:
type Item struct {
Title string
Link string
}
var items []Item
doc.Find(".item").Each(func(i int, s *goquery.Selection) {
title := s.Find("h2").Text()
link, _ := s.Find("a").Attr("href")
items = append(items, Item{Title: title, Link: link})
})这样就能方便地后续处理,比如导出为JSON或存入数据库。
构建简单爬虫其实不难,但要注意一些细节,比如User-Agent、错误处理、请求频率控制。如果只是做一次性抓取,上面的方法已经够用了。遇到反爬机制强的网站,可能需要加代理、模拟登录、甚至用Headless浏览器,那又是另一个话题了。
基本上就这些,动手试试吧!
以上就是怎样用Golang构建简单爬虫 实践net/http与goquery抓取网页的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号