使用Selenium自动化展开动态下拉菜单并高效提取子分类链接-Python教程-PHP中文网

使用Selenium自动化展开动态下拉菜单并高效提取子分类链接

霞舞

发布： 2025-11-15 13:13:02

原创

154人浏览过

使用Selenium自动化展开动态下拉菜单并高效提取子分类链接

本教程详细阐述如何利用selenium处理动态网页中的下拉菜单，通过识别并迭代点击展开图标，实现所有子菜单的完全展开。随后，指导读者如何从展开后的页面结构中精准提取所需的子分类链接，并提供完整的python代码示例及实用的注意事项，旨在提升网页数据抓取的效率和准确性。

使用Selenium自动化展开动态下拉菜单并高效提取子分类链接

在进行网页数据抓取时，经常会遇到动态加载或隐藏在下拉菜单中的内容。这些内容需要通过用户交互（如点击）才能显示。本教程将以一个具体案例为基础，详细讲解如何使用Python和Selenium库来自动化展开网页中的所有动态下拉菜单，并从中提取所需的子分类链接。

1. 环境准备与WebDriver初始化

首先，确保你已安装Python和Selenium库，并且已配置好Chrome WebDriver。

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep # 引入sleep模块，用于在必要时等待页面加载

# 定义目标URL
URL = "https://albiononline2d.com/en/item"

# 初始化Chrome WebDriver
# 如果WebDriver不在系统PATH中，需要指定路径，例如：
# from selenium.webdriver.chrome.service import Service
# service = Service(executable_path='/path/to/chromedriver')
# driver = webdriver.Chrome(service=service)

driver = webdriver.Chrome()

# 设置隐式等待，在查找元素时，如果元素未立即出现，WebDriver会等待指定时间
driver.implicitly_wait(5) # 增加隐式等待时间，以适应更复杂的加载情况

# 导航到目标网页
driver.get(URL)

# 初始化ActionChains，虽然在此特定解决方案中未直接使用，但在处理复杂交互时非常有用
action = webdriver.ActionChains(driver)

登录后复制

说明：

萌动AI

CreateAI旗下AI动漫视频生成平台

438

查看详情

implicitly_wait(5)：设置了一个全局的隐式等待时间。这意味着当Selenium尝试查找一个元素但未能立即找到时，它会等待最多5秒钟，直到元素出现。这对于处理页面加载延迟非常有用。
ActionChains：用于执行一系列复杂的低级交互，如鼠标悬停、拖放等。在本案例中，我们主要通过直接点击元素来展开下拉菜单，所以其作用不大，但保留作为通用实践。

2. 识别并展开所有动态下拉菜单

目标网页的下拉菜单通过点击一个“加号”图标（ion-plus-round）来展开。这些图标在展开后会消失或变为“减号”图标。为了确保所有下拉菜单都被展开，我们需要一个迭代的策略。

# 查找所有表示下拉菜单展开的“加号”图标
# 这些图标具有特定的CSS类：'icon expand-icon ion-plus-round'
# 使用CSS选择器定位这些元素
pluses = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

# 循环点击所有“加号”图标，直到所有下拉菜单展开
# 这里的策略是：每次循环都重新查找所有“加号”图标，并点击第一个
# 这是因为每次点击后，页面上的“加号”图标列表会动态更新（被点击的会消失或变化）
for i in range(len(pluses)):
    # 每次迭代重新查找当前页面上所有未展开的“加号”图标
    # 这样做可以确保我们总能点击到当前可见的、需要展开的第一个图标
    current_pluses = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

    # 如果没有找到任何“加号”图标，说明所有菜单都已展开，可以跳出循环
    if not current_pluses:
        break

    # 点击当前找到的第一个“加号”图标
    current_pluses[0].click()

    # 增加短暂的等待，确保页面有时间响应点击事件并更新DOM
    # 对于某些加载较慢的页面，这可以提高稳定性
    sleep(0.5)

登录后复制

说明：

driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')：使用CSS选择器来定位所有带有特定类名的<span>元素。CSS选择器是一种强大且灵活的元素定位方式。
循环中的current_pluses = driver.find_elements(...)：这是解决动态元素列表的关键。每次点击后，页面的DOM结构会发生变化，原始的pluses列表可能不再有效（Stale Element Reference Exception）。通过在每次迭代时重新查找元素，我们确保始终操作的是当前最新的、有效的元素。
current_pluses[0].click()：每次点击列表中的第一个“加号”图标。由于每次点击都会减少页面上“加号”图标的数量，这个操作会依次展开所有未展开的菜单。
sleep(0.5)：虽然implicitly_wait处理了元素查找的等待，但有时页面更新DOM需要额外的时间，或者有动画效果，一个短暂的硬性等待可以增加脚本的稳定性。

3. 提取子分类链接

在所有下拉菜单展开后，整个页面的结构已经稳定，我们可以开始提取子分类的href链接。

# 找到包含所有分类和子分类链接的父容器
# 根据页面结构，这个容器是第一个class为'list-group'的元素
item_categories_container = driver.find_elements(By.CLASS_NAME, 'list-group')[0]

# 在这个容器内查找所有的<a>标签（即所有链接）
all_links = item_categories_container.find_elements(By.TAG_NAME, 'a')

# 过滤并存储子分类链接
subcat_links = []
for link_element in all_links:
    href = link_element.get_attribute('href')
    # 判断链接是否包含“subcat”字符串，以识别子分类链接
    if href and 'subcat' in href:
        subcat_links.append(href)

# 打印提取到的子分类链接
print("提取到的子分类链接:")
for link in subcat_links:
    print(link)

# 关闭浏览器
driver.quit()

登录后复制

说明：

driver.find_elements(By.CLASS_NAME, 'list-group')[0]：定位到主要的列表组容器。通常情况下，如果页面上有多个相同类名的元素，需要根据实际情况选择正确的索引。
item_categories_container.find_elements(By.TAG_NAME, 'a')：在指定的父容器内部查找所有<a>标签。这是一个重要的优化，可以限制查找范围，提高效率和准确性。
link_element.get_attribute('href')：获取<a>标签的href属性值，即链接地址。
if href and 'subcat' in href:：通过检查href属性中是否包含特定字符串（如“subcat”）来筛选出所需的子分类链接。这是一个常见的筛选策略，可以根据实际链接结构进行调整。

4. 完整代码示例

将以上所有步骤整合，得到一个完整的自动化脚本：

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep

# 定义目标URL
URL = "https://albiononline2d.com/en/item"

# 初始化Chrome WebDriver
driver = webdriver.Chrome()
driver.implicitly_wait(5) # 设置隐式等待时间
driver.get(URL)

# ----------------------------------------------------------------------
# 步骤1: 识别并展开所有动态下拉菜单
# ----------------------------------------------------------------------
# 查找所有表示下拉菜单展开的“加号”图标
pluses = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

# 循环点击所有“加号”图标
for i in range(len(pluses)):
    current_pluses = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')
    if not current_pluses:
        break
    current_pluses[0].click()
    sleep(0.5) # 短暂等待，确保DOM更新

# ----------------------------------------------------------------------
#

登录后复制

以上就是使用Selenium自动化展开动态下拉菜单并高效提取子分类链接的详细内容，更多请关注php中文网其它相关文章！