通过BS4抓取的数据竟然抓到了这样的字符串

text = u'\xe9\x95\xbf\xe5\x9f\x8e'


奇怪吧,这是一个utf8编码的汉字,但是前面却出现了u,成了unicode码,导致无法正确解码

首先是要把这个unicode原样转成str,也就是需要得到

text = '\xe9\x95\xbf\xe5\x9f\x8e'

这里使用


text = text.encode('unicode-escape')

现在text的值为

text = '\\xe9\\x95\\xbf\\xe5\\x9f\\x8e'

咦,转过来了,但是,反斜杠也被原样转了。

接下来使用


text = text.decode('string_escape')

现在text的值为

text = '\xe9\x95\xbf\xe5\x9f\x8e'

耶,需求实现


完整代码


text = u'\xe9\x95\xbf\xe5\x9f\x8e'
text = text.encode('unicode-escape').decode('string_escape')

print text.decode('utf8')

长城


更多相关文章

  1. SQL Server表中某些字段含有水平制表符、换行符、回车符、反斜杠

随机推荐

  1. 在截击中从响应中获得头球
  2. Android实战技巧之十一:Android Studio和G
  3. [深入理解Android卷一全文-第六章]深入理
  4. 按下子活动后退按钮后,Android主要活动的
  5. Android Robotium如何管理测试用例的执行
  6. Android程序老是报错
  7. Java与C互相调用实例详解
  8. 王家林最受欢迎的一站式云计算大数据和移
  9. ffmpeg从视频中提取帧时间戳
  10. Android Web-View:将本地Javascript文件注