javascript - [新手]python爬虫爬取中证指数官网数据-PHP中文网问答

微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

javascript - [新手]python爬虫爬取中证指数官网数据

PHP中文网 2017-04-11 12:31:50

[JavaScript讨论组]

784

想用python爬虫获取中证指数官网上的几个主要指数的每日估值更新，但是下载下来的页面内容却没有想要的数据。想要的数据前面有个JavaScript标签，是不是光靠python没办法获取这个数据？求大神解惑指点。

中证指数有限公司
这是目标页面。

例如想要获取上证指数的静态市盈率，当前是16.27。

获取到的页面代码只能看到标签，没有获取到这个标签里面的值。

不知道这个应该怎么处理，还请各位大神指点，谢谢。

代码：

import requests
from bs4 import BeautifulSoup
import os

headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1(KHTML,LIKE Gecko) Chrome/22.0.1207.1 Safari/537.1"}
all_url = 'http://www.csindex.com.cn/sseportal/csiportal/zs/jbxx/daily_index_info.jsp'
start_html = requests.get(all_url, headers = headers)
print(start_html.text)

PHP中文网

认证高级PHP讲师

全部回复(3)

怪我咯2017-04-11 12:33:50 3楼

去爬这个页面http://www.csindex.com.cn/sse...

下面是代码：

#coding=utf-8

import requests
from itertools import groupby

url = 'http://www.csindex.com.cn/sseportal/ps/zhs/hqjt/csi/show_zsgz.js'
r = requests.get(url)

text = r.text.replace('"', '').replace('var zsgz','').split('\r\n')
content = [_.split('=') for _ in text if _ and not _.startswith('00')]

rows = []
for _, lst in groupby(content, key=lambda x: int(x[0]) / 10):
    row = tuple([v for k, v in lst])
    rows.append(row)

print rows