Golang 如何编写一个爬虫抓取新闻数据_Golang 网络爬虫项目实践-Golang-PHP中文网

Golang 如何编写一个爬虫抓取新闻数据_Golang 网络爬虫项目实践

P粉602998670

发布： 2025-11-25 20:34:02

原创

587人浏览过

用Golang写爬虫需先用net/http发请求获取网页源码，再用goquery解析HTML并提取新闻标题、链接等信息，最后通过设置请求头、延时等策略应对反爬，实现数据采集。

golang 如何编写一个爬虫抓取新闻数据_golang 网络爬虫项目实践

用Golang写一个爬虫抓取新闻数据，核心是发送HTTP请求、解析HTML内容并提取目标信息。整个过程不复杂，只要按步骤来，很快就能看到效果。

发送请求获取网页源码

第一步是让程序能像浏览器一样打开新闻网站。Go语言自带的net/http包可以轻松实现这个功能。你只需要调用http.Get()方法，传入目标网址，就能拿到网页的原始数据。

实际操作时要注意几点：记得检查返回的状态码，确保请求成功；使用defer response.Body.Close()避免资源泄漏；设置合理的超时时间，防止程序卡死。下面是一个基础示例：

func fetch(url string) (string, error) {
    resp, err := http.Get(url)
    if err != nil {
        return "", err
    }
    defer resp.Body.Close()
    if resp.StatusCode != 200 {
        return "", fmt.Errorf("bad status: %s", resp.Status)
    }
    body, _ := io.ReadAll(resp.Body)
    return string(body), nil
}

解析HTML提取新闻内容

拿到网页源码后，下一步就是从一堆HTML标签里找出新闻标题、链接和发布时间这些有用的信息。Go标准库没有提供类似jQuery的选择器，所以推荐使用第三方库goquery，它的用法和jQuery非常相似，学习成本很低。

立即学习“go语言免费学习笔记（深入）”；

先通过go get github.com/PuerkitoBio/goquery安装这个库。然后你可以用CSS选择器精准定位到新闻列表的DOM元素。比如，很多新闻站的标题都放在<h2>或带有特定class的<a>标签里。代码大致如下：

Jenni AI

使用最先进的 AI 写作助手为您的写作增光添彩。

查看详情

doc, err := goquery.NewDocumentFromReader(strings.NewReader(html))
if err != nil {
    log.Fatal(err)
}
doc.Find(".news-list a").Each(func(i int, s *goquery.Selection) {
    title := s.Text()
    link, _ := s.Attr("href")
    fmt.Printf("标题: %s, 链接: %s\n", title, link)
})

这样就能遍历所有匹配的元素，把新闻数据一条条提取出来。