细说Unicode(三) Unicode 番外之附加字符_ES2015(es6)

上一篇: 精益 React 学习指南（Lean Rea... 下一篇:浅析KOA（2）

细说Unicode(三) Unicode 番外之附加字符

发布时间：2019-08-19 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了细说Unicode(三) Unicode 番外之附加字符，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

在各种论坛上，经常会看到一些奇怪的字符，它们的内容会超出显示范围，
举个例子：

      
      
      
      
      
'Z͑ͫ̓ͪ̂ͫ̽͏̴̙̤̞͉͚̯̞̠͍A̴̵̜̰͔ͫ͗͢L̠ͨͧͩ͘G̴̻͈͍͔̹̑͗̎̅͛́Ǫ̵̹̻̝̳͂̌̌͘!͖̬̰̙̗̿̋ͥͥ̂ͣ̐́́͜͞'
常见的还有一些有泰文字符组成的。这里就不举例子了。这些看似乱文的字符是怎么形成的呢？
其实它们并不是乱文，尝试输出上面那个例子的字符长度

      
      
      
      
      
'Z͑ͫ̓ͪ̂ͫ̽͏̴̙̤̞͉͚̯̞̠͍A̴̵̜̰͔ͫ͗͢L̠ͨͧͩ͘G̴̻͈͍͔̹̑͗̎̅͛́Ǫ̵̹̻̝̳͂̌̌͘!͖̬̰̙̗̿̋ͥͥ̂ͣ̐́́͜͞'.length; //75
发现竟然包含了75个字符！我们用Array.From输出这些字符：

      
      
      
      
      
Array.from('Z͑ͫ̓ͪ̂ͫ̽͏̴̙̤̞͉͚̯̞̠͍A̴̵̜̰͔ͫ͗͢L̠ͨͧͩ͘G̴̻͈͍͔̹̑͗̎̅͛́Ǫ̵̹̻̝̳͂̌̌͘!͖̬̰̙̗̿̋ͥͥ̂ͣ̐́́͜͞');
//["Z", "͑", "ͫ", "̓", "ͪ", "̂", "ͫ", "̽", "͏", "̴", "̙", "̤", "̞", "͉", "͚", "̯", "̞", "̠", "͍", "A", "ͫ", "͗", "̴", "͢", "̵", "̜", "̰", "͔", "L", "ͨ", "ͧ", "ͩ", "͘", "̠", "G", "̑", "͗", "̎", "̅", "͛", "́", "̴", "̻", "͈", "͍", "͔", "̹", "O", "͂", "̌", "̌", "͘", "̨", "̵", "̹", "̻", "̝", "̳", "!", "̿", "̋", "ͥ", "ͥ", "̂", "ͣ", "̐", "́", "́", "͞", "͜", "͖", "̬", "̰", "̙", "̗"]
再查看其中某个字符的Unicode码点：

      
      
      
      
      
Array.from('Z͑ͫ̓ͪ̂ͫ̽͏̴̙̤̞͉͚̯̞̠͍A̴̵̜̰͔ͫ͗͢L̠ͨͧͩ͘G̴̻͈͍͔̹̑͗̎̅͛́Ǫ̵̹̻̝̳͂̌̌͘!͖̬̰̙̗̿̋ͥͥ̂ͣ̐́́͜͞')[10].codePointAt(0);//793,即16进制的0x0319
根据Unicode映射表查找出0x0319对应的字符，发现U+0300~U+036F称为结合附加符号，那么结合附加符号又是什么？

附加符号，是添加在字母上面的符号，以更改字母的发音或者以区分拼写相似词语。例如汉语拼音字母“ü”上面的两个小点，或“á”、“à”字母上面的标调符。变音符号可以放在字母的上方或下方，也可以放在其他的位置。当多个附加符号叠加的时候，就形成了看起来像乱码的符号。
而在泰文中，字符的组成也是由一些元音符号和声调符号组成的

所以多个元音符号或声调符号叠加时也会有类似的效果。这里就不再做阐述。
在网页开发中，特别是评论区，如果遇到太多的"插楼"字符，就会对其他用户造成阅读障碍，影响阅读体验，那怎么避免这种情况呢。这里提供两种方法。
第一种是对字符串文字区域设置最大高度，超出的部分自动隐藏。

      
      
      
      
      
p {
    height: 20px;
    overflow: hidden;
}
另一种方式就是对这种特殊字符做过滤操作。将附加字符进行过滤，这种方法在某种程度上会误杀一些需要正常显示的附加符号。但一般也不会影响整体功能，利大于弊。

      
      
      
      
      
VAR regexSymbolWIThCombiningMarks = /([-u02FFu0370-u1DBFu1E00-u20CFu2100-uD7FFuDC00-uFE1FuFE30-uFFFF]|[uD800-uDBFF][uDC00-uDFFF]|[uD800-uDBFF])([u0300-u036Fu1DC0-u1DFFu20D0-u20FFuFE20-uFE2F]+)/g;

function getSymbolsIgnoringCombiningMarks(string) {
    // 删除附加符号:
    var stripPEd = string.replace(regexSymbolWithCombiningMarks, function($0, symbol, combiningMarks) {
        return symbol;
    });
    
    return stripped;
}

getSymbolsIgnoringCombiningMarks('Z͑ͫ̓ͪ̂ͫ̽͏̴̙̤̞͉͚̯̞̠͍A̴̵̜̰͔ͫ͗͢L̠ͨͧͩ͘G̴̻͈͍͔̹̑͗̎̅͛́Ǫ̵̹̻̝̳͂̌̌͘!͖̬̰̙̗̿̋ͥͥ̂ͣ̐́́͜͞'); //"ZALGO!"
讲到这里，我们对Unicode已经有了比较细致的了解。相信在开发中碰到问题也能找出根源所在了。
通过学习编码的历史，原理以及查询映射表，我们知道了乱码是怎么产生的，并且利用ES6或正则表达式，来解决绝大多数编码问题。
参考文章：
https://zh.wikipedia.org/wiki
https://mathiasbynens.be/note...

脚本宝典总结

以上是脚本宝典为你收集整理的细说Unicode(三) Unicode 番外之附加字符全部内容，希望文章能够帮你解决细说Unicode(三) Unicode 番外之附加字符所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

上一篇: 精益 React 学习指南（Lean Rea... 下一篇:浅析KOA（2）

猜你在找的ES2015(es6)相关文章

vuex 基本入门和使用（二） 2019-08-19
默认参数如何在JavaScript ES6中工作 2018-11-14
JavaScript ES6功能：好的部件 2018-11-14
如何使用ES6箭头函数使您的JavaScript更易于阅读 2018-11-14
如何使用ES6在JavaScript中有条件地构建对象 2018-11-14
关于如何使用Fetch API执行HTTP请求的实用ES6指南示例代码 2018-11-14
5个在ES6中修复的JavaScript“坏”的部分 2018-11-13
分享干货ECMAScript 2015（ES6）提示和技巧非常有用 2018-11-13
JavaScript ES6 - 写得少，做得更多 write less, do more 2018-11-13
什么时候（和为什么）你应该使用ES6箭头功能 - 何时不应该使用ES6箭头功能 2018-11-12

全站导航更多

最新ES2015(es6)教程

热门ES2015(es6)教程