我正在尝试学习如何从此网址提取数据: https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview
但是,问题是当我尝试切换页面时,URL 不会改变,因此我不确定如何枚举或循环它。由于网页有 3000 个销售数据点,正在尝试寻找更好的方法。
这是我的起始代码,它非常简单,但我将不胜感激任何可以提供的帮助或任何提示。我想我可能需要换成另一个包,但我不确定哪个可能是 beautifulsoup?
导入请求 url =“https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview” html = requests.get(url).content df_list = pd.read_html(html,标题 = 1)[0] df_list = df_list.drop([0,1,2]) #删除不需要的行
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
要从更多页面获取数据,您可以使用以下示例:
导入请求 将 pandas 导入为 pd 从 bs4 导入 BeautifulSoup 数据 = { "folder": "拍卖结果", “登录ID”:“00”, "页数": "1", "orderBy": "AdvNum", "orderDir": "asc", "justFirstCertOnGroups": "1", "doSearch": "真", "itemIDList": "", "itemSetIDList": "", “兴趣”: ””, “优质的”: ””, "itemSetDID": "", } url =“https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview” 所有数据 = [] for data["pageNum"] in range(1, 3): #
SEQ NUM
纳税年度
通知
地块 ID
面部数量
中标
卖给
标题>
96
000094
2020
00031-18-001-000
905.98 美元
81.00 美元
00005517
97
000095
2020
00031-18-002-000
750.13 美元
75.00 美元
00005517
98
000096
2020
00031-18-003-000
750.13 美元
75.00 美元
00005517
99
000097
2020
00031-18-004-000
750.13 美元
75.00 美元
00005517
100
000098
2020
00031-18-007-000
750.13 美元
76.00 美元
00005517
101
000099
2020
00031-18-008-000
905.98 美元
84.00 美元
00005517
102
000100
2020
00031-19-001-000
1,999.83 美元
171.00 美元
00005517
103
000101
2020
00031-19-004-000
1,486.49 美元
131.00 美元
00005517
104
000102
2020
00031-19-006-000
1,063.44 美元
96.00 美元
00005517
105
000103
2020
00031-20-001-000
1,468.47 美元
126.00 美元
00005517
表> 打印: