javascript - 怎么识别自动化的Web爬虫(比如采用selenium或者phantomjs)?
阿神
阿神 2017-04-11 11:34:30
[JavaScript讨论组]

最近我们实验室和一个公司合作,他家的产品一个功能模块就是反爬虫,测试网址入口为这里:http://119.254.209.77/ 。 该网页左侧的URL采用JS动态生成,我们团队花了好一段时间才把加密的JS给解密了。我采用Python+Selenium+Firefox进行抓取返回的页面为空,它左侧的URL都被保护了,并且能识别使用selenium驱动的爬虫。我想问问这个技术该怎么应对?因为昨晚我看到携程一个研发经理也分享了一些反爬虫的经验,其中有一条就是针对Phantomjs等自动化工具的,但他说暂时不公开技术细节。有没有大神可以给我一点启发啊,透露一下原理?感激不尽。

阿神
阿神

闭关修行中......

全部回复(3)
大家讲道理

你可以考虑 在HTTP请求中的HTTP头这里做做文章

PHPz

http头中的refer注意修改,另外你也可以使用动态IP或者使用Tor网络

阿神

针对爬虫有很多办法啦。。。。。

简单点说,就是有很多事情,人会做,但是爬虫不会做。

比如说,你到了一个页面上,有移动鼠标。这个页面上就有监听鼠标移动的脚本。你可以查看一下是不是在这里做了文章。

又看了你的评论。

不太理解为什么你在selenium驱动的firefox里面,不能手动打开。。。。。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号