スクレイピングで文字化けを防ぐ方法
下記が使用するライブラリ(chardet)です。
chardetは文字コードを検出するライブラリで検出して取得したデータにdecodeをすると文字化けを解消できます。
sampleは日経のページです。
import urllib3 import chardet url = "http://www.nikkei.com/" http = urllib3.PoolManager() r = http.request('GET', 'http://www.nikkei.com/') r.data guess = chardet.detect(r.data) unicode_data = r.data.decode(guess['encoding'])