使用Python从网页中提取标题-Python教程-PHP中文网

使用Python从网页中提取标题

WBOY

发布： 2023-08-31 12:45:05

转载

2635人浏览过

使用python从网页中提取标题

在 Python 中，我们可以使用网页抓取从网页中提取标题。网络抓取是从网站或网页提取数据的过程。在本文中，我们将使用 Python 中的 Requests 和 BeautifulSoup 库废弃网页的标题。

从网页中提取标题

方法一：使用Request和Beautiful Soup库

我们可以使用Python的request和Beautiful Soup库来从网页中提取标题。 requests 库用于向网站发送 HTTP 请求并获取其响应。然后我们使用响应对象来提取网页的 HTML 内容。

示例

在下面的示例中，我们提取维基百科主页的标题。我们使用请求库将 GET 请求发送到维基百科页面 URL，并将响应对象存储在响应变量中。

然后，我们可以使用 Beautiful Soup 对象来解析响应对象中收到的 HTML 内容，并使用 soup.title 属性提取网页的标题标签。然后我们可以提取字符串属性并将其存储在 title 变量中。

立即学习“Python免费学习笔记（深入）”；

import requests
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')
title = soup.title.string

print(title)

登录后复制

输出

Wikipedia

登录后复制

方法二：使用urllib和BeautifulSoup提取标题

urllib 和 BeautifulSoup 方法用于通过打开 URL 并使用 urllib 库检索网页的 HTML 内容来从网页中提取标题。使用 HTML 内容创建一个 BeautifulSoup 对象，并且可以使用 'soup.title' 属性提取网页的标题标签。

示例

在下面的示例中，我们使用 urllib 库打开 URL 并检索网页的 HTML 内容。然后，我们使用 'html.parser' 解析器使用网页的 HTML 内容创建一个 BeautifulSoup 对象。

然后我们可以使用 'soup.title' 属性提取网页的标题标签。最后，我们使用“string”属性提取标题标签的字符串内容并将其存储在“title”变量中。然后我们将网页的标题打印到控制台。

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
html_page = urlopen(url)
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)

登录后复制

输出

Wikipedia

登录后复制

方法3：使用selenium和BeautifulSoup提取标题

selenium和BeautifulSoup方法用于通过使用selenium库打开URL并检索网页的HTML内容来从网页中提取标题。创建 Chrome Webdriver 并用于导航到网页。使用 webdriver 的“page_source”属性检索网页的 HTML 内容。使用 HTML 内容创建一个 BeautifulSoup 对象，并且可以使用 'soup.title' 属性提取网页的标题标签。

青鸟内测（手机app封装、托管系统）

注意：请在linux环境下测试或生产使用青鸟内测是一个移动应用分发系统，支持安卓苹果应用上传与下载，并且还能快捷封装网址为应用。应用内测分发：一键上传APP应用包，自动生成下载链接和二维码，方便用户内测下载。应用封装：一键即可生成app，无需写代码，可视化编辑、直接拖拽组件制作页面的高效平台。工具箱：安卓证书生成、提取UDID、Plist文件在线制作、IOS封装、APP图标在线制作APP分发：

查看详情

示例

在下面的示例中，我们使用 selenium 库打开 URL 并检索网页的 HTML 内容。我们创建一个 Chrome Webdriver 并使用它来导航到网页。然后，我们使用网络驱动程序的“page_source”属性检索网页的 HTML 内容。

我们使用“html.parser”解析器使用网页的 HTML 内容创建一个 BeautifulSoup 对象。然后我们可以使用“soup.title”属性提取网页的标题标签。最后，我们使用“string”属性提取标题标签的字符串内容并将其存储在“title”变量中。然后我们将网页的标题打印到控制台。

from selenium import webdriver
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
driver = webdriver.Chrome()
driver.get(url)

html_page = driver.page_source
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)

driver.quit()

登录后复制

输出

Wikipedia

登录后复制

方法四：使用正则表达式提取标题

正则表达式方法用于通过使用请求库向 URL 发送 GET 请求并存储响应对象来从网页中提取标题。然后，网页的 HTML 内容被解码并存储在变量中。定义正则表达式模式来匹配网页的标题标签。正则表达式模式的“搜索”方法用于查找该模式在网页的 HTML 内容中的第一个匹配项。通过group(1)方法可以提取第一个匹配到的组的字符串内容，从而得到网页的标题。

示例

在下面的示例中，我们使用正则表达式来提取网页的标题。我们使用 requests 库向 URL 发送 GET 请求，并将响应对象存储在“response”变量中。

然后，我们使用“utf-8”编码解码网页的 HTML 内容，并将其存储在“html_content”变量中。我们定义一个正则表达式模式来匹配网页的标题标签。

我们使用正则表达式模式的“搜索”方法来查找该模式在网页的 HTML 内容中的第一个匹配项。我们使用“group(1)”方法提取第一个匹配组的字符串内容并将其存储在“title”变量中。然后我们将网页的标题打印到控制台。

import requests

url = 'https://www.wikipedia.org/'
response = requests.get(url)
html_content = response.content.decode('utf-8')

title_pattern = re.compile('(.+?)')
match = title_pattern.search(html_content)
title = match.group(1)

print(title)

登录后复制

输出

Wikipedia

登录后复制

结论

在本文中，我们讨论了使用 requests 和 Python 中的 Beautiful Soup 库从网页中提取标题的过程。请求库用于向网站 URL 发送 HTTP 请求并获取 HTML 内容作为响应。然后使用 Beautiful Soup 库解析 HTML 内容并从 HTML 内容中提取所需的标题。

以上就是使用Python从网页中提取标题的详细内容，更多请关注php中文网其它相关文章！