python - BeautifulSoup获取的tag不完整。
伊谢尔伦
伊谢尔伦 2017-04-18 09:35:24
[Python讨论组]

1.问题描述
通过urllib2.urlopen().read()打印出的html源码中tbody有多对tr标签,但是使用soup.findAll("tbody")获取的tr标签就只有两对,而且内容不全,希望大神帮助。

2. 源代码:

# -*- coding: UTF-8 –*-
import urllib2
from bs4 import BeautifulSoup

Url = 'http://guojijuzhuqufh.fang.com/chengjiao/'

response = urllib2.urlopen(Url)
text = response.read().decode('gbk')
soup = BeautifulSoup(text, "lxml")
tbodyList = soup.findAll("tbody")

for li in tbodyList:
    print li

3. 网页部分源代码

> 
>                             
>                                 
>                                 
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                     
>                                 
>                                 
> 
>                                 
>                                 
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
>                                         
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                             
>                                         
>                                     
> 
>                                 
>                                 
> 
>                             

4.运行结果

C:\Python27\python.exe D:/Users/Brill/PycharmProjects/FangSpider/FTXData/test.py
Process finished with exit code 0

5. 结果截图

伊谢尔伦
伊谢尔伦

小伙看你根骨奇佳,潜力无限,来学PHP伐。

全部回复(1)
ringa_lee

原因是因为这个html的文件是不规范的html 导致不同的html parser对他的结果不一样 可以考虑换parser

soup = BeautifulSoup(text, 'html.parser')

结果是成功的

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

成交日期成交价单价户型建筑面积楼层朝向服务经纪人来源
2016-07-26197万19777元/㎡2室2厅100㎡高层/32层南向计谋房天下成交
2016-05-27200万20078元/㎡2室2厅100㎡高层/32层西南向杜小波房天下成交
2016-05-10286万22236元/㎡3室2厅129㎡高层/31层南向计谋房天下成交
2016-04-04182万18336元/㎡2室2厅99㎡高层/32层--李方宏房天下成交
2016-03-20185万18587元/㎡2室1厅100㎡低层/32层--张巧芊房天下成交
2016-02-28335万18376元/㎡4室2厅182㎡高层/32层南北向陈三元房天下成交
2016-01-04328万19197元/㎡4室2厅171㎡中层/32层南北向刘媛媛房天下成交
2015-12-09168.5万16962元/㎡2室2厅99㎡高层/32层--陈三元房天下成交
2015-08-10186万15067元/㎡3室2厅123㎡高层/32层--谭文龙房天下成交
2015-07-10215万16716元/㎡3室2厅129㎡中层/32层东西向左亚凤房天下成交
成交日期 成交价 单价 户型 建筑面积 楼层 朝向 服务经纪人 来源
2016-07-26 197万 19777元/㎡ 2室2厅 100㎡ 高层/32层 南向 计谋 房天下成交
2016-05-27 200万 20078元/㎡ 2室2厅 100㎡ 高层/32层 西南向 杜小波