pycharm控制台中文乱码,目标网页编码gb2312编码

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

网上还很说是先转成gb2312转换unicode成再转成utf-8。

html = response.read().decode("gb2312").encode("utf-8")

运行出错
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 723269-723270: illegal multibyte sequence
去掉
decode("gb2312").encode("utf-8"
html = response.read()
在linux终端运行python index.py显示网页正常

然后排查pycharmIDE控制台编码问题

修改ctrl+alt+s Editor--File Encoding Global Encoding 设置成GBK,显示正常。
猜测:控制台的编码需要跟win保持一致



更多相关文章

  1. python python 入门学习之网页数据爬虫cnbeta文章保存
  2. 用 Python requests库 爬取网页数据
  3. python爬网页,做k线图
  4. 【python 编程】网页中文过滤分词及词频统计
  5. Python MOOC简单获取网页内容并以html格式保存在本地
  6. 【Python】python3实现网页爬虫下载图片
  7. python进阶——利用网页爬虫写天气预报采集器
  8. java根据URL获取网页编码
  9. 使用Java在网页中的许多可能选择中选择一个

随机推荐

  1. Android Eclipse JNI 调用 .so文件加载
  2. [Android L]关于Android L的Service启动
  3. android 编译源码 错误解决2
  4. Android 签名类型
  5. Google Maps Android API V2 版本更新导
  6. Android ListView优化
  7. android ui 布局性能优化
  8. Android 客户端发送邮件(JMail方式)
  9. Android打开摄像头拍照,并显示出来
  10. 详解Android中的Activity生命周期