python - BeautifulSoup如何解析HTML的问题
迷茫
迷茫 2017-04-18 09:27:13
[Python讨论组]
#-*- coding:utf-8 -*-
from bs4 import BeautifulSoup
html_doc = """



    
    New Document


    

学校名 北京大学 联系人 路人甲 联系电话 13800138000
城市 北京 状态 正常 加入时间 0000-00-00
学生
(总数 / 正常)
5961 / 4761 学生B部
(总数 / 正常)
5961 / 4761 学生C部
(总数 / 正常)
0 / 0

""" soup = BeautifulSoup(html_doc, 'lxml') print(soup.prettify())

思路
这种是可以转换为json?
还是直接正则过滤出数字?

我需要5961 / 4761 分开输出
转换为str格式
5961
4761

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(2)
黄舟

直接正则好了,简单粗暴:

pattern = re.compile(r'<td>(\d+) / (\d+)</td>')
m = pattern.findall(html_doc)
for item in m:
    print(item[0])
    print(item[1])
ringa_lee

不是json,它解析HTML文档,并且类似浏览器一样构建了一个节点树,所以你可以使用CSS Selector语法,利用find_all/find 函数获得tag节点,然后在你要获取数据的节点上调用 get_text(),返回的应该是一个str,然后调用 split("/")。
个人思路。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号