流畅的python读书笔记-第四章 编码问题

发布时间:2019-08-05 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了流畅的python读书笔记-第四章 编码问题脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

处理文本的最佳实践是“Unicode 三明治”


  1. 要尽早把输入(例如读取文件时)的字节序列解码成字符串。
  2. 这种三明治中的“肉片”是程序的业务逻辑,在这里只能处理字符串对象。
  3. 在其他处理过程中,一定不能编码或解码。
  4. 对输出来说,则要尽量晚地把字符串编码成字节序列。

案例

例如,在 Django 中,
视图应该输出 Unicode 字符串;
Django 会负责把响应编码成字节序列,而且默认使用 UTF-8 编码。

流畅的python读书笔记-第四章 编码问题

编码建议 显示指明编码

编码默认值的最佳建议是:别依赖默认值
明确指定encodeing

二进制模式

除非想判断编码,否则不要在二进制模式中打开文本文件;
即便如此,也应该使用 Chardet,而不是重新发明轮子

总结

Unicode 三明治

  • 尽早 字节序列解码成字符串
  • 三明治中的“肉片”是程序的业务逻辑,在这里只能处理字符串对象
  • 尽量晚地把字符串编码成字节序列

显示编码

别再二进制中打开文本,判断编码应该使用 Chardet

脚本宝典总结

以上是脚本宝典为你收集整理的流畅的python读书笔记-第四章 编码问题全部内容,希望文章能够帮你解决流畅的python读书笔记-第四章 编码问题所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。