从动态网页抓取数据：TfL自行车数据抓取教程-Python教程-PHP中文网

从动态网页抓取数据：TfL自行车数据抓取教程

花韻仙語

发布： 2025-08-15 17:44:01

原创

326人浏览过

从动态网页抓取数据：tfl自行车数据抓取教程

本文介绍了如何从使用 JavaScript 动态加载数据的网页中抓取数据，以伦敦交通局 (TfL) 自行车数据为例。我们将演示如何通过分析浏览器的开发者工具来查找 API 请求，并使用 Python 和 BeautifulSoup 库解析 XML 响应，提取所需的数据文件 URL。本教程适用于初学者，并提供清晰的代码示例和步骤说明。

动态网页数据抓取：寻找隐藏的API

许多现代网站使用 JavaScript 动态加载数据。这意味着当你访问网页时，最初看到的可能只是一个框架，而实际的数据是在后台通过 API 请求加载的。直接使用 requests 和 BeautifulSoup 抓取网页内容通常只能获取到初始的 HTML 代码，而无法获取到动态加载的数据。

在这种情况下，我们需要分析网页的网络请求，找到加载数据的 API 接口。常用的方法是使用浏览器的开发者工具。

步骤如下：

打开目标网页（例如：https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577d）。
打开浏览器的开发者工具（通常按 F12 键）。
切换到 "Network"（网络）选项卡。
刷新网页，观察网络请求。
筛选 "XHR" 或 "Fetch/XHR" 请求，查找包含数据的文件。

通过分析 TfL 自行车数据的网页，我们可以发现一个名为 https://s3-eu-west-1.amazonaws.com/cycling.data.tfl.gov.uk/?list-type=2&max-keys=1500 的 API 请求，它返回一个 XML 文件，其中包含了所有数据文件的 URL。

使用 BeautifulSoup 解析 XML 数据

找到 API 接口后，我们可以使用 requests 获取 XML 数据，然后使用 BeautifulSoup 解析 XML，提取所需的数据文件 URL。

Alkaid.art

专门为Phtoshop打造的AIGC绘画插件

153

查看详情

以下是一个示例代码：

import requests
from bs4 import BeautifulSoup

soup=BeautifulSoup(requests.get('https://s3-eu-west-1.amazonaws.com/cycling.data.tfl.gov.uk/?list-type=2&max-keys=1500').text, 'xml')
for c in soup.select('contents key'):
    if c.text.startswith('usage-stats') and c.text.endswith('.csv'):
        print('https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577d'+c.text)

登录后复制

代码解释：

import requests: 导入 requests 库，用于发送 HTTP 请求。
from bs4 import BeautifulSoup: 导入 BeautifulSoup 库，用于解析 HTML 和 XML。
requests.get('https://s3-eu-west-1.amazonaws.com/cycling.data.tfl.gov.uk/?list-type=2&max-keys=1500').text: 发送 GET 请求到 API 接口，获取 XML 数据。
BeautifulSoup(..., 'xml'): 使用 BeautifulSoup 解析 XML 数据。注意这里需要指定解析器为 'xml'。
soup.select('contents key'): 使用 CSS 选择器 contents key 找到所有包含文件名的 XML 标签。
if c.text.startswith('usage-stats') and c.text.endswith('.csv'): 过滤文件名，只保留以 'usage-stats' 开头且以 '.csv' 结尾的文件。
print('https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577d'+c.text): 打印完整的 URL。

运行结果：

https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/01aJourneyDataExtract10Jan16-23Jan16.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/01b Journey Data Extract 24Jan16-06Feb16.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/01bJourneyDataExtract24Jan16-06Feb16.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/02aJourneyDataExtract07Fe16-20Feb2016.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/02bJourneyDataExtract21Feb16-05Mar2016.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/03JourneyDataExtract06Mar2016-31Mar2016.csv
...

登录后复制