Python3.5.2 Requests爬取网页中文部分返回乱码?
没有题主想的那么复杂啦。import reimport requestsfrom bs4 import BeautifulSoup as bsurl = \u0026#39;http://bj.ganji.com/wu/\u0026#39;html = requests.get(url).content.decode(\u0026#39;utf-8\u0026#39;)
这样就可以显示中文了,你要爬取的网页它的编码是`utf-8`。另附上结果一张:
■网友
代码分析Python requests库中文编码问题
Python HTTP库requests中文页面乱码解决方案!
在Python2中可以直接调用 requests.utils.get_unicode_from_response。
【Python3.5.2 Requests爬取网页中文部分返回乱码?】 在Python3中requests.utils.get_encodings_from_content有Bug。可以使用 apparent_encoding 设置 encoding 属性,它使用 chardet 模块检测字符编码,消耗比较大。
最后,requests.utils.get_encodings_from_content 和 get_unicode_from_response 将在3.0版被移到 requests-toolbelt 项目的 requests_toolbelt.utils.deprecated模块中。在Python3中使用 \u0026gt;0.7.1 的版本(刚刚提交Bug修改,尚未发布)。
■网友
r.encoding = "GBK"多看文档,多去google
■网友
竟是这般专业,不再是那个左手端着冰可乐右手撸管的小方了
推荐阅读
- 在网站上爬取大量纯文本信息,用啥语言比较好
- 为啥Python3.5.2无法执行“只计算普通的除法”命令
- 咋爬取豆丁、百度文库这样的网站资源
- python 爬取b站网页的编码问题
- 关于python爬取天天基金历史净值数据问题 (具体请看问题说明)
- 有没有数据采集工具,可以爬取手机APP上的数据
- 用python做爬虫爬取京东商品评论, 出现了返回空白获取网页重复的情况咋解决
- 爬取新浪新闻的评论
- 在爬取链家等房地产网站, 小区页码到了100页后就重复以前的小区数据,怎样破 ?
- python中 requests 跟 urllib 写爬虫那个好?