无化(fei)肥(hua)Unicode简介

发布时间:2019-08-07 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了无化(fei)肥(hua)Unicode简介脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

概述

ASCII用7位即可搞定。0-32是控制字符,32-127是其它字符。这个对于当时美帝和英帝的LAN是够用的。可是后来。。。大家互联了。

Unicode包括所有语言的所有字符。每个字符被赋予一个独一无二的 code point。但是 Unicode 是个抽象概念。存储,传输的过程就需要映射到脑可以搞定的空间:字节。UTF(unicode transformation format)就是干这个的。

UTF-8

UTF-8是现在最常用的编码方法(encoding scheme)。它充分的体现了人类的智慧,以及 PRemature optimization 的不必要 -- 人类总能想出办法来填坑的。

牛在哪里?

  1. 以前ASCII编码的英文自动就是UTF-8编码

  2. c语言用0来结束字符串对UTF-8仍然有效。

  3. 无需BOM (byte order mask)

如何做到的?
基本上把 code point 映射到下面的表就可以了。

BITs  Last CP       Byte 1      Byte 2      Byte 3      Byte 4      Byte 5      Byte 6
 7    U+007F        0xxxxxxx
11    U+07FF        110xxxxx    10xxxxxx
16    U+FFFF        1110xxxx    10xxxxxx    10xxxxxx
21    U+1FFFFF      11110xxx    10xxxxxx    10xxxxxx    10xxxxxx
26    U+3FFFFFF     111110xx    10xxxxxx    10xxxxxx    10xxxxxx    10xxxxxx
31    U+7FFFFFFF    1111110x    10xxxxxx    10xxxxxx    10xxxxxx    10xxxxxx    10xxxxxx

所以7位以下的前面加0用一个字节即可。11位的分俩字节,前面各加110和10。等等等等。上表也表示了一个UTF-8编码的字符可以是1个字节,也可以多达6个字节。

发明人是 Ken Thompson 和 Rob Pike。所以大牛就是大牛。这个是造福全人类的东东。

其它

还有 UTF-16 和 UTF-32 这些其(hen)它(lan)的编码格式。这里说不废话就不废话了。

脚本宝典总结

以上是脚本宝典为你收集整理的无化(fei)肥(hua)Unicode简介全部内容,希望文章能够帮你解决无化(fei)肥(hua)Unicode简介所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。