万字长文讲解编码知识，看这文就够了！| 原力计划( 二 ) _编码

ASCII码表：http://www.asciitable.com
2、GB2312编码
前面可以看到ASCII码即使进行了扩展也能表示的字符也很少，尤其是当需要计算机显示存储中文的时候，就需要一种对中文进行编码的字符集，GB 2312就是解决中文编码的字符集，由国家标准委员会发布。那个时候当中国人们得到计算机时，已经没有可以利用的字节状态来表示汉字，况且有6000多个常用汉字需要保存，于是想到把那些ASCII码中127号之后的奇异符号们直接取消掉, 规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（称之为高字节）从0xA1用到0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。这种汉字方案叫做 “GB2312” 。GB2312 是对ASCII 的中文扩展。兼容ASCII 。

文章插图
这里的A GB2312码是0xA3C1，0xA3和0xC1都是高于127的，所以判断它是个全角字符，另外我们可以观察到所有的GB2312编码表中的GB2312码每个字节都是大于0xA0的，这个就是为了保证能区分是否为ASCII码，小于127的字节就按照ASCII码标准，碰到连续两个大于127字节就组合成一个GB2312码。
GB2312汉字编码字符集对照表：
http://tools.jb51.net/table/gb2312
3、GBK编码
但是中国的汉字太多了，我们很快就就发现有许多人的人名没有办法在这里打出来，不得不继续把 GB2312 没有用到的码位找出来用上。后来还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 “GBK” 标准，GBK 包括了GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。
4、GB18030编码
后来中国的少数民族也要用电脑了，GBK的两万多字也已经无法满足我们的需求了，还有更多可能你自己从来没见过的汉字需要编码。这时候显然只用2bytes表示一个字已经不够用了（2byte最多只有65536种组合，然而为了和ASCII兼容，最高位不能为0就已经直接淘汰了一半的组合，只剩下3万多种组合无法满足全部汉字要求）。因此GB18030多出来的汉字使用4byte编码。
当然，为了兼容GBK，这个四字节的前两位显然不能与GBK冲突（实操中发现后两位也并没有和GBK冲突）。通过多年的发展至此，GB18030编码的中文文件已经有七万多个汉字了。
GB18030包含三种长度的编码：单字节的ASCII、双字节的GBK（略带扩展）、以及用于填补所有Unicode码位的四字节UTF区块。所以我们说GB18030采用多字节编码，每个字符可以由 1 个、2 个或 4 个字节组成。
其实我们用到的99%以上的汉字，都在GB2312那一块区域内。在实际使用中，GBK编码已经可以满足大部分场景了，GB18030编码中所有汉字都是我们这辈子都不一定能见到的文字，所以平时经常会使用的就是GBK编码。
这里额外总结一下这四个兼容性关系是GB18030兼容GBK，GBK兼容GB2312，GB2312兼容ASCII 。所谓兼容，你可以简单理解为子集、不冲突的关系。
例如GB2312编码的文件中可以出现ASCII字符，GBK编码的文件中可以出现GB2312和ASCII字符，GB18030编码的文件可以出现GBK、GB2312、ASCII字符。
5、Unicode
友情建议：看Unicode一些概念解释和历史时，建议看维基百科，而且是英文版的，别用中文版，有些地方讲的模棱两可，容易陷入盲区。
Unicode（中文：万国码、国际码、统一码、单一码）（全称Universal Multiple-Octet Coded Character Set）它伴随着通用字符集（英语：Universal Character Set, UCS）的标准而发展。所以可以看出他是字符集。
（1）Unicode与 ISO 10646
全世界很多个国家都在为自己的文字编码，并且互不相通，不同的语言字符编码值相同却代表不同的符号（例如：韩文编码EUC-KR中“???”的编码值正好是汉字编码GBK中的“茄惫绢”）。
因此，同一份文档，拷贝至不同语言的机器，就可能成了乱码，于是人们就想：我们能不能定义一个超大的字符集，它可以容纳全世界所有的文字字符，再对它们统一进行编码，让每一个字符都对应一个不同的编码值，从而就不会再有乱码了。

万字长文讲解编码知识，看这文就够了！| 原力计划( 二 )

推荐阅读

雪花秀适合什么年龄段的人使用？

搞笑闽吴|说出一句流传千年的话，却死的不明不白挺遗憾，此人射术堪比黄忠

石竹的摆放技巧石竹怎么盆栽

洋哥爱生活|紫荆花开，红鸾再现，旧爱拉扯，情有余温，余生共相随，15天后

小了白了兔|凭此拿到近两万奖学金, 邻近毕业却后悔不已!，我在大学干团支书,

|还能盼来“吃猪自由”吗？，中国冻猪肉储备恐耗尽

脚气怎么治疗，推荐五个有效的方法

香蕉每次可以吃多少根

大家吃完火锅一般喝啥来降火中国好凉茶吗

【生肖小哥哥6514252305】不露锋芒，装傻能力一流，不容小觑，这几个星座“外傻内精”

恒大|恒大深夜发声：成立24年共借款20523笔，从未有利息晚付、本金逾期归还

录屏器下载在什么地方？好用的录屏器软件分享

中国设计中心|特斯拉中国设计中心正在招聘或推中国风电动车

属马@未来三个月，4属相迎来好运，大富大贵，家庭幸福美满，吉祥安康

最高可享12期免息海信阅读手机A5京东聚惠来袭

烹饪|晒晒我家一周的午餐，简单好吃不浪费，网友：一看就是北方人餐桌

鸡胸肉|自用抑菌液测评分享！不愧是宝藏国货，短短45天新甲蹭蹭冒！

出手|比九灵元圣还厉害的妖怪，他一出手三界就会动乱

李宇春|女人味穿搭都可以跟李宇春学了！穿短裙配高筒靴，撩人有范儿极了

瘦子增肌健身教练使用方法