Requests 使用的是 urllib3,因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。现代、国际化、人性化。
最近在使用Requests的过程中发现一个问题,就是抓去某些中文网页的时候,出现乱码,打印encoding是ISO-8859-1。为什么会这样呢?通过查看源码,我发现默认的编码识别比较简单,直接从响应头文件的Content-Type里获取,如果存在charset,则可以正确识别,如果不存在charset但是存在text就认为是ISO-8859-1,见utils.py。
1 | def get_encoding_from_headers(headers): |
其实Requests提供了从内容获取编码,只是在默认中没有使用,见utils.py:
1 | def get_encodings_from_content(content): |
还提供了使用chardet的编码检测,见models.py:
1 |
|
如何修复这个问题呢?先来看一下示例:
1 | 'http://cn.python-requests.org/en/latest/') > r = requests.get( |
通过了解,可以这么用一个monkey patch解决这个问题:
import requests
def monkey_patch():
prop = requests.models.Response.content
def content(self):
_content = prop.fget(self)
if self.encoding == 'ISO-8859-1':
encodings = requests.utils.get_encodings_from_content(_content)
if encodings:
self.encoding = encodings[0]
else:
self.encoding = self.apparent_encoding
_content = _content.decode(self.encoding, 'replace').encode('utf8', 'replace')
self._content = _content
return _content
requests.models.Response.content = property(content)
monkey_patch()
原文:http://liguangming.com/python-requests-ge-encoding-from-headers