html - xpath怎样不包括某个节点?
PHPz
PHPz 2017-04-18 09:37:42
[Python讨论组]

公司有30多个网站,因为G20怕被篡改。
写了个scrapy爬下30多个网站的内容,然后保存json对比。
其中两个网站有访问人数统计,所以每次访问得到的数字都不一样,所以不能判断是否被篡改。
想到的方法是去除掉那两个网站的统计


但是用Xpath始终没有成功。。

xxx xxx xx xx 联系我们 | 帮助中心

xxxx

xxxxx 访问量:283444

xxxx

使用Xpath //body/*[not(contains(p/@class, 'Copyright'))]
另外也试了好多种方法。都不行
还有一个问题是,因为有两个页面,所以我不能只去除Copyright这个p还有一个叫m-content也要去除。。
请问如何操作。。

PHPz
PHPz

学习是最好的投资!

全部回复(3)
巴扎黑

正则应该可以吧?试过没?

ringa_lee
  1. 好像contains里面只能匹配标签属性或者文字的吧

  2. xpath方括号里可以用and并列匹配条件的

怪我咯

xpath是做的匹配和不匹配,你整个拉下来然后再匹配出不需要的部分然后去掉

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号