微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 后端开发 > Python教程 > 正文

Python之爬取其他网页

零到壹度

发布： 2018-03-30 10:38:35

原创

2625人浏览过

本文主要为大家分享一篇Python之爬取其他网页的请求方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧，希望能帮助到大家。

简单的说就是寻找网页中的超链接‘href’，之后将相对网址转变为绝对网址，在用for循环访问他

import requestsfrom bs4 import BeautifulSoup#将字符串转换为Python对象import pandas as pd
url = 'http://www.runoob.com/html/html-tutorial.html'r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中l=[x.text for x in soup.findAll('h2')]#提取次标题中所有的文字df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件，列名为URLx=soup.findAll('a')[1]#查看第二个元素x.has_attr('href')#判断是都有href字符x.attrs['href']#获得超链接 attrs函数返回字典links = [i for i in soup.findAll('a')if i.has_attr('href')and i.attrs['href'][0:5]== '/html']#用if来做一个筛选relative_urls= set([i.attrs['href'] for i in links])
absolute_urls={'http://www.runoob.com'+i for i in relative_urls}
absolute_urls.discard(url)#删除当前所在的urlfor i in absolute_urls:
    ri= requests.get(i)
    soupi =BeautifulSoup(ri.text.encode(ri.encoding),'lxml')
    li=[x.text for x in soupi.findAll('h2')]
    dfi = pd.DataFrame(l,columns =[i])
    df = df.join(dfi,how='outer')
df

登录后复制

相关推荐：

Python爬取简单网页

python爬虫之爬取腾讯新闻

网易天音

网易天音

网易出品！一站式音乐创作工具！零基础写歌！

网易天音

76

网易天音

python爬取淘宝商品信息

立即学习“Python免费学习笔记（深入）”；

以上就是Python之爬取其他网页的详细内容，更多请关注php中文网其它相关文章！

相关标签：

python

python速学教程(入门到精通)

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

来源：php中文网

上一篇：实例解析Python如何实现爬取京东手机图片下一篇：如何完整写一个爬虫框架

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

跟我学PS第八天02：光效素材的抠图方法

2018-08-28 15:02:42
跟我学PS第八天01：如何抠取文件中的印章

2018-08-25 10:55:46
跟我学PS第七天02：如何抠出复杂树林

2018-08-20 16:25:41
跟我学PS第七天01：如何将彩图抠出线稿效果

2018-08-18 11:26:54
跟我学PS第六天02：模糊工具

2018-08-14 16:35:58
跟我学PS第六天01：修复画笔工具

2018-07-28 15:36:43
跟我学PS第五天02：移动工具的使用方法和应用

2018-07-27 16:59:00
跟我学PS第五天01：使用裁剪工具

2018-07-27 15:22:47
跟我学PS第四天02：练习Photoshop中的套索工具

2018-07-23 17:56:00
跟我学PS第四天01：如何给照片加边框效果

2018-07-23 16:21:38

最新问题

Python代码如何实现多线程编程 Python代码使用Threading模块的技巧 Python多线程通过threading模块实现，适用于I/O密集型任务以提升效率，但受GIL限制无法真正并行执行CPU密集型任务。核心方法包括创建Thread对象并传入目标函数或继承Thread类重写run()方法。为避免数据竞争，需使用Lock等同步机制保护共享资源；为防死锁，应统一锁的获取顺序。推荐使用queue模块的线程安全队列，避免滥用守护线程，合理选择并发模型如multiprocessing或asyncio以应对不同场景。

2025-11-14 00:01:24

945

python如何转移数据库里的数据答案：使用Python迁移数据库需连接源和目标库，读取数据并写入目标库。常用工具包括SQLAlchemy和pandas，支持同构或异构数据库迁移。通过pd.read_sql读取数据，df.to_sql写入，大数据量可分批处理以降低内存压力。

2025-11-13 23:51:07

351

python使用f格式化字符串 f字符串是Python3.6+推荐的字符串格式化方式，通过在字符串前加f并使用{}嵌入变量或表达式，支持表达式计算、函数调用和丰富格式控制，如数字精度、进制转换、千位分隔符等，还可用于多行字符串，简洁高效。

2025-11-13 23:51:07

350

Python命令行如何运行文件答案是运行Python文件需确保Python已安装并配置环境变量，使用cd命令进入文件所在目录后通过python或python3命令执行文件，如pythonhello.py，并根据提示处理常见问题。

2025-11-13 23:42:06

549

python中如何用for循环求负数和_python中for循环筛选负数并求和的详细步骤首先用for循环遍历列表，再通过if判断筛选负数并累加求和。具体步骤：准备包含正负数的列表；初始化total=0；遍历列表，若元素

2025-11-13 23:37:02

114

PythonMatplotlib怎么画图_PythonMatplotlib绘图方法与实例 Matplotlib通过plt模块提供类似MATLAB的绘图接口，基本流程包括导入库、准备数据、调用绘图函数、设置标签和显示图像；支持折线图、散点图、柱状图、直方图等多种图形，可用subplots创建多子图布局，并通过savefig保存高清图像，最后需调用show显示图表。

2025-11-13 23:33:07

218

pythonfor循环怎样对小于某值的数字求和_pythonfor循环筛选小于某值数字并求和的详细教程答案是15，通过for循环遍历列表numbers，判断每个元素是否小于阈值10，若满足条件则累加到total，最终输出小于10的数字之和为15。

2025-11-13 23:29:14

597

Python调用API接口如何限制调用频率_Python控制API接口调用频率避免被封的方法使用time.sleep、ratelimit装饰器、APScheduler调度、令牌桶算法或asyncio信号量可有效控制Python中API调用频率，避免限流。

2025-11-13 23:24:06

223

如何通过批处理文件配置Python环境变量_Windows批处理设置Python环境变量方法答案：通过编写批处理文件可临时配置Python环境变量。1.确认Python安装路径，如C:\Users\YourName\AppData\Local\Programs\Python\Python39；2.创建set_python_env.bat文件，设置PYTHON_HOME和PATH变量，并验证python--version；3.该方式仅在当前命令行会话有效，适合多版本切换或便携环境；4.可创建多个bat文件管理不同Python版本，路径正确即可一键启用指定环境。

2025-11-13 23:11:02

847

Python包怎么创建_Python包的创建方法与结构组织说明首先创建标准目录结构并添加__init__.py文件，接着编写setup.py和pyproject.toml配置元数据，最后通过build工具构建并本地安装包进行验证。

2025-11-13 22:59:13

333

相关专题

更多>

热门推荐

python速学教程(入门到精通)

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部