怎样用Golang实现一个简单的爬虫程序使用colly框架实战-Golang-PHP中文网

怎样用Golang实现一个简单的爬虫程序使用colly框架实战

P粉602998670

发布： 2025-07-01 09:57:02

原创

909人浏览过

实现一个简单的爬虫程序在golang中使用colly框架非常高效。1. 安装colly：执行go get github.com/gocolly/colly/v2完成安装；2. 创建采集器：使用colly.newcollector()创建采集器并用onhtml监听html元素提取内容，如抓取网页标题；3. 抓取多个链接：通过onhtml捕获a标签并递归访问子链接，可设置maxdepth限制爬取深度；4. 设置请求头与延迟：用onrequest设置user-agent模拟浏览器行为，并通过limit控制并发和请求间隔降低被封风险；5. 保存数据：将结果保存为json格式或存入数据库，满足后续分析需求。这些步骤展示了colly的基本用法，适合快速开发小型爬虫项目。

怎样用Golang实现一个简单的爬虫程序使用colly框架实战

实现一个简单的爬虫程序其实并不难，尤其是在 Golang 中使用 colly 这个框架，可以非常高效地完成网页抓取任务。Colly 是 Go 语言中最流行的爬虫库之一，简单易用、性能高，适合新手入门和快速开发。

安装 Colly

在开始写代码之前，首先需要安装 colly：

go get github.com/gocolly/colly/v2

登录后复制

这一步完成后，就可以在项目中导入并使用了。记得保持你的 Go 环境配置正确，否则可能会遇到依赖问题。

立即学习“go语言免费学习笔记（深入）”；

创建第一个爬虫：抓取网页标题

我们先从最基础的示例入手：抓取某个网页的 <title> 标签内容。

package main

import (
    "fmt"
    "github.com/gocolly/colly/v2"
)

func main() {
    // 创建一个新的 collector
    c := colly.NewCollector()

    // 在访问每个页面时触发
    c.OnHTML("title", func(e *colly.HTMLElement) {
        fmt.Println("页面标题是：", e.Text)
    })

    // 开始访问目标网址
    c.Visit("https://example.com")
}

登录后复制

这段代码的作用就是访问 example.com 并提取其中的标题。关键点在于：

使用 colly.NewCollector() 创建采集器。
使用 OnHTML 监听 HTML 元素，传入选择器（如 CSS 选择器）。
使用 Visit 发起请求。

你可以把 https://example.com 替换成任何你想爬取的网站试试看。

抓取多个链接：遍历页面中的所有超链接

很多时候我们不仅想抓取一个页面的内容，还想顺着链接继续爬下去。这时候可以用 OnHTML 来捕获 <a> 标签，并递归访问它们。

c.OnHTML("a[href]", func(e *colly.HTMLElement) {
    link := e.Attr("href")
    // 访问子链接
    c.Visit(link)
})

登录后复制

但要注意，这样会无限递归下去。通常我们会限制采集深度：

ViiTor实时翻译

AI实时多语言翻译专家！强大的语音识别、AR翻译功能。

116

查看详情

c := colly.NewCollector(
    colly.MaxDepth(2), // 只爬两层页面
)

登录后复制

这样就能避免爬到太多无关页面，控制资源消耗。

设置请求头与延迟：模拟浏览器行为

有些网站会对爬虫做限制，我们可以稍微“伪装”一下请求头，让服务器认为你是浏览器访问：

c.OnRequest(func(r *colly.Request) {
    r.Headers.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36")
})

登录后复制

另外，为了避免对服务器造成压力，也可以设置访问间隔：

c.Limit(&colly.LimitRule{
    DomainGlob:  "*",
    Parallelism: 2,
    Delay:       1 * time.Second,
})

登录后复制

这样每秒最多请求一次，同时并发不超过两个请求，可以有效降低被封 IP 的风险。

小技巧：保存数据到文件或数据库

爬下来的数据当然要保存起来。常见的做法是保存为 JSON 或 CSV 文件。

例如保存成 JSON：

type Result struct {
    Title string `json:"title"`
    URL   string `json:"url"`
}

var results []Result

c.OnHTML("title", func(e *colly.HTMLElement) {
    results = append(results, Result{
        Title: e.Text,
        URL:   e.Request.URL.String(),
    })
})

// 最后用 json.MarshalIndent 写入文件即可

登录后复制

如果你打算做更复杂的分析，还可以考虑将数据存入 SQLite、MySQL 或 MongoDB。

基本上就这些了。Colly 功能很强大，上面只是展示了最基本的一些用法。实际使用中还可以结合代理、分布式架构等来提升效率。不过对于大多数小规模爬虫需求来说，这些已经够用了。

以上就是怎样用Golang实现一个简单的爬虫程序使用colly框架实战的详细内容，更多请关注php中文网其它相关文章！