微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 后端开发 > Python教程 > 正文

python处理抓取中文编码和判断编码

高洛峰

发布： 2016-10-19 11:45:20

原创

1523人浏览过

在开发自用爬虫过程中，有的网页是utf-8，有的是gb2312,有的是gbk，如果不加处理，采集到的都是乱码，解决的方法是将html处理成统一的utf-8编码

版本python2.7

#coding:utf-8
import chardet
#抓取网页html
line = "http://www.pythontab.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
encoding_dict = chardet.detect(html_1)
print encoding
web_encoding = encoding_dict['encoding']
#处理，整个html就不会是乱码。
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':
html = html_1
else :
html = html_1.decode('gbk','ignore').encode('utf-8')

登录后复制

文心快码

文心快码

文心快码（Comate）是百度推出的一款AI辅助编程工具

文心快码

35

文心快码

大家都在看：

Python列表原地去重：使用while循环高效处理IndexError 解决Python readability 包导入冲突的教程解决Windows 7上rtmidi Python库安装失败的问题 Python中处理嵌套字典缺失键的优雅方法：从None到SQL NULL Python迭代器怎么实现_Python迭代器的原理与实现方法

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：Python- yield 用法详解下一篇：Python中的转义字符

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

实现一个 Java 版的 Redis

1970-01-01 08:00:00
Asp.net使用SignalR实现发送图片

1970-01-01 08:00:00
HTML5:使用Canvas实时处理Video

1970-01-01 08:00:00
最简单的微信小程序Demo

1970-01-01 08:00:00
Python构造自定义方法来美化字典结构输出

1970-01-01 08:00:00
html设置加粗、倾斜、下划线、删除线等字体效果示例介绍

1970-01-01 08:00:00
微信小程序：如何实现tabs选项卡效果示例

1970-01-01 08:00:00
微信小程序开发教程-App()和Page()函数概述

1970-01-01 08:00:00
python中pandas.DataFrame（创建、索引、增添与删除）的简单操作方法介绍

1970-01-01 08:00:00
详解python redis使用方法

1970-01-01 08:00:00

最新问题

python匿名函数lambda的注意点 lambda适合简单表达式，不可含语句、多行逻辑或复杂结构；注意闭包绑定问题，避免调试困难和可读性差，复杂场景应用def函数替代。

2025-11-16 10:33:33

250

Python列表原地去重：使用while循环高效处理IndexError 本文旨在探讨在Python中如何不借助额外列表，通过原地修改的方式移除列表中的重复元素。我们将深入分析在迭代过程中修改列表长度时常见的IndexError，并提供一套基于while循环的解决方案，详细讲解如何通过精细的索引管理（特别是移除元素后的索引回溯）来避免错误，最终实现高效且正确的列表去重操作。

2025-11-16 09:55:17

703

解决Python readability 包导入冲突的教程当在Python项目中同时使用readability-lxml和py-readability-metrics这两个库时，由于它们都尝试以readability模块名进行导入，会导致命名冲突。本文将深入探讨这一问题的原因，解释为何简单的导入别名无效，并提供两种解决方案：手动重命名包目录以实现清晰导入，以及在特殊场景下利用importlib动态加载模块以绕过标准导入机制。

2025-11-16 09:49:01

739

解决Windows 7上rtmidi Python库安装失败的问题本文旨在帮助解决在Windows7系统上使用Python3.8安装rtmidi库时遇到的"MicrosoftVisualC++14.0orgreaterisrequired"错误。通过升级Python版本至3.11并使用pip进行安装，可以有效解决该问题，确保rtmidi库的成功安装和使用。

2025-11-16 09:09:15

750

Python3怎么安装中文版_Python3中文界面设置与汉化安装方法首先需明确，Python3本身无中文安装版，但可通过使用支持中文的IDE或编辑器实现界面汉化。具体步骤为：1.从官网下载Python3安装包，安装时勾选“AddPythontoPATH”；2.推荐安装Thonny或PyCharm等IDE，在设置中选择中文语言选项；3.若使用VSCode，可安装中文语言包插件并设置显示语言为zh-cn，重启后界面即转为中文。整个过程不影响代码执行环境。

2025-11-16 08:59:02

891

Python中处理嵌套字典缺失键的优雅方法：从None到SQL NULL 本文探讨了在Python中处理嵌套字典时，如何优雅地应对键缺失问题，尤其是在为数据库操作准备数据时，将缺失值转换为SQL的NULL。我们将深入分析collections.defaultdict和链式.get()方法，通过代码示例展示它们的实现细节、适用场景及优缺点，帮助开发者避免繁琐的try/except块，提高代码的健壮性和可读性。

2025-11-16 08:57:18

310

Pygame中实现角色投掷与重力下落的精确模拟本教程详细阐述了如何在Pygame项目中精确模拟角色投掷和重力下落的物理行为。通过优化投掷机制，确保角色以恒定速度抛出，并引入加速下落的重力模型，解决了角色无法自然下落的问题。文章提供了清晰的代码示例和关键实现细节，帮助开发者创建更真实的物理交互效果。

2025-11-16 08:40:23

230

Python迭代器怎么实现_Python迭代器的原理与实现方法 Python迭代器通过实现__iter__()和__next__()方法遵循迭代器协议，可被for循环或next()调用直至抛出StopIteration；2.迭代器按需生成数据，节省内存，适合处理大数据流；3.for循环内部自动调用iter()获取迭代器并持续调用next()直到遍历结束；4.可通过定义类实现__iter__和__next__方法创建自定义迭代器，如Counter类从1计数到n；5.生成器提供更简洁方式，使用yield关键字在函数中暂停执行并返回值，自动成为迭代器。

2025-11-16 08:15:12

776

Python入门如何操作时间日期_Python入门时间处理的基本功掌握Python时间日期操作需使用datetime模块，首先通过fromdatetimeimportdatetime获取当前时间current_time=datetime.now()并打印；其次利用strftime("%Y-%m-%d%H:%M:%S")将时间对象格式化为指定字符串；再通过strptime(time_string,"%Y-%m-%d")将符合格式的字符串解析为datetime对象；接着对两个datetime对象做减法得timedelta，可访问days或调用total_secon

2025-11-16 00:57:29

363

Python多线程在物联网中的应用 Python多线程设备并发控制技巧多线程可提升物联网系统并发效率，适用于设备轮询、消息监听、数据聚合与指令分发；通过ThreadPoolExecutor管理线程池，控制并发数以避免资源浪费；使用threading.Lock保护共享资源如设备状态字典，防止数据竞争；结合queue.Queue实现采集、上传等线程间安全通信，解耦功能模块，提升系统稳定性与扩展性。

2025-11-15 23:53:02

529

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部