最近我们实验室和一个公司合作,他家的产品一个功能模块就是反爬虫,测试网址入口为这里:http://119.254.209.77/ 。 该网页左侧的URL采用JS动态生成,我们团队花了好一段时间才把加密的JS给解密了。我采用Python+Selenium+Firefox进行抓取返回的页面为空,它左侧的URL都被保护了,并且能识别使用selenium驱动的爬虫。我想问问这个技术该怎么应对?因为昨晚我看到携程一个研发经理也分享了一些反爬虫的经验,其中有一条就是针对Phantomjs等自动化工具的,但他说暂时不公开技术细节。有没有大神可以给我一点启发啊,透露一下原理?感激不尽。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
你可以考虑 在HTTP请求中的HTTP头这里做做文章
http头中的refer注意修改,另外你也可以使用动态IP或者使用Tor网络
针对爬虫有很多办法啦。。。。。
简单点说,就是有很多事情,人会做,但是爬虫不会做。
比如说,你到了一个页面上,有移动鼠标。这个页面上就有监听鼠标移动的脚本。你可以查看一下是不是在这里做了文章。
又看了你的评论。
不太理解为什么你在selenium驱动的firefox里面,不能手动打开。。。。。