我想在一个网页里抓取金额,格式是这样的:12,123 5,431,867连续三位数字用逗号隔开。
我的表达式是:(\d{1,3}(,\d{3})*) 。。
在线测试工具里通过了,但是在python re模块的findall()却返回了tuple,于是乎看了http://blog.csdn.net/cashey1991/article/details/8875213
明白了道理,请问我该用re里的什么方法把一个网页里所有的金额抓取下来并存在一个list里?
附:如果直接用beautifulsoup的soup.findall(text=regex),会把包含这个regex的整个text返回。比如
asda
wqeqwe
123,432
,会把整个都返回了。。。。Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
我猜你的需求是这样的
当然看见你说bs4的时候, 我知道肯定有除了比这个更好的方法...(下次讲清楚需求)