python - 怎样爬取被 下一页覆盖/JS渲染 的网页内容?
PHPz
PHPz 2017-05-18 10:55:01
[Python讨论组]

我想提取网页:http://www.igxe.cn/h1z1/43385... 上该物品的当前售价和对应商品的ITEM_ID

我使用的是PYTHON2.7配合requests进行操作的,代码如下:

import requests
import sys
headers = {'User-Agent': 'Mozilla/5.0 (Linux; U; Android 4.0.3; zh-cn; M032 Build/IML74K) AppleWebKit/533.1 (KHTML, like Gecko)Version/4.0 MQQBrowser/4.1 Mobile Safari/533.1'}
r = requests.get('http://www.igxe.cn/h1z1/433850/product-567592', headers = headers,stream=True)
print r.request.headers['User-Agent']
print r.text
reload(sys)
sys.setdefaultencoding('utf-8')
f = open('/workspace/test.txt', 'w')
f.write (r.text)
f.close

得到的该代码文件包含了网页上绝大部分信息,唯独就是没有我需要的售价信息以及物品ID,但是该段信息却可以通过浏览器的审查元素获得,代码片段如下:

这段代码片段通过审查元素可以轻松获得,但是源代码上却没有,所以十分困惑该如何获取。
在源代码中找到了如下片段,不知道是不是AJAX有关的信息获取的方式:

PHPz
PHPz

学习是最好的投资!

全部回复(1)
给我你的怀抱
# coding: utf-8

import requests

headers = {'X-Requested-With':'XMLHttpRequest'}

url = 'http://www.igxe.cn/h1z1/433850/get_list_tmp/567592/0/1/1/1?steamid='
r = requests.get(url, headers=headers)
print r.text

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号