首页 > 后端开发 > Golang > 正文

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战

P粉602998670
发布: 2025-07-01 09:57:02
原创
909人浏览过

实现一个简单的爬虫程序在golang中使用colly框架非常高效。1. 安装colly:执行go get github.com/gocolly/colly/v2完成安装;2. 创建采集器:使用colly.newcollector()创建采集器并用onhtml监听html元素提取内容,如抓取网页标题;3. 抓取多个链接:通过onhtml捕获a标签并递归访问子链接,可设置maxdepth限制爬取深度;4. 设置请求头与延迟:用onrequest设置user-agent模拟浏览器行为,并通过limit控制并发和请求间隔降低被封风险;5. 保存数据:将结果保存为json格式或存入数据库,满足后续分析需求。这些步骤展示了colly的基本用法,适合快速开发小型爬虫项目。

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战

实现一个简单的爬虫程序其实并不难,尤其是在 Golang 中使用 colly 这个框架,可以非常高效地完成网页抓取任务。Colly 是 Go 语言中最流行的爬虫库之一,简单易用、性能高,适合新手入门和快速开发。

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战

安装 Colly

在开始写代码之前,首先需要安装 colly:

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战
go get github.com/gocolly/colly/v2
登录后复制

这一步完成后,就可以在项目中导入并使用了。记得保持你的 Go 环境配置正确,否则可能会遇到依赖问题。

立即学习go语言免费学习笔记(深入)”;


创建第一个爬虫:抓取网页标题

我们先从最基础的示例入手:抓取某个网页的 <title> 标签内容。

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战
package main

import (
    "fmt"
    "github.com/gocolly/colly/v2"
)

func main() {
    // 创建一个新的 collector
    c := colly.NewCollector()

    // 在访问每个页面时触发
    c.OnHTML("title", func(e *colly.HTMLElement) {
        fmt.Println("页面标题是:", e.Text)
    })

    // 开始访问目标网址
    c.Visit("https://example.com")
}
登录后复制

这段代码的作用就是访问 example.com 并提取其中的标题。关键点在于:

  • 使用 colly.NewCollector() 创建采集器。
  • 使用 OnHTML 监听 HTML 元素,传入选择器(如 CSS 选择器)。
  • 使用 Visit 发起请求。

你可以把 https://example.com 替换成任何你想爬取的网站试试看。


抓取多个链接:遍历页面中的所有超链接

很多时候我们不仅想抓取一个页面的内容,还想顺着链接继续爬下去。这时候可以用 OnHTML 来捕获 <a> 标签,并递归访问它们。

c.OnHTML("a[href]", func(e *colly.HTMLElement) {
    link := e.Attr("href")
    // 访问子链接
    c.Visit(link)
})
登录后复制

但要注意,这样会无限递归下去。通常我们会限制采集深度:

ViiTor实时翻译
ViiTor实时翻译

AI实时多语言翻译专家!强大的语音识别、AR翻译功能。

ViiTor实时翻译 116
查看详情 ViiTor实时翻译
c := colly.NewCollector(
    colly.MaxDepth(2), // 只爬两层页面
)
登录后复制

这样就能避免爬到太多无关页面,控制资源消耗。


设置请求头与延迟:模拟浏览器行为

有些网站会对爬虫做限制,我们可以稍微“伪装”一下请求头,让服务器认为你是浏览器访问:

c.OnRequest(func(r *colly.Request) {
    r.Headers.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36")
})
登录后复制

另外,为了避免对服务器造成压力,也可以设置访问间隔:

c.Limit(&colly.LimitRule{
    DomainGlob:  "*",
    Parallelism: 2,
    Delay:       1 * time.Second,
})
登录后复制

这样每秒最多请求一次,同时并发不超过两个请求,可以有效降低被封 IP 的风险。


小技巧:保存数据到文件或数据库

爬下来的数据当然要保存起来。常见的做法是保存为 JSON 或 CSV 文件。

例如保存成 JSON:

type Result struct {
    Title string `json:"title"`
    URL   string `json:"url"`
}

var results []Result

c.OnHTML("title", func(e *colly.HTMLElement) {
    results = append(results, Result{
        Title: e.Text,
        URL:   e.Request.URL.String(),
    })
})

// 最后用 json.MarshalIndent 写入文件即可
登录后复制

如果你打算做更复杂的分析,还可以考虑将数据存入 SQLite、MySQL 或 MongoDB。


基本上就这些了。Colly 功能很强大,上面只是展示了最基本的一些用法。实际使用中还可以结合代理、分布式架构等来提升效率。不过对于大多数小规模爬虫需求来说,这些已经够用了。

以上就是怎样用Golang实现一个简单的爬虫程序 使用colly框架实战的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号