汉字编码表查询?汉字国标码规定每个汉字用几个字节表示?( 二 )
② 字节:八位二进制位称为一个字节,英文为Byte,可用大写字母B表示,是计算机存储的基本单位 。一个字节的八位二进制数,其位编号自左至右为b7、b6、b5、b4、b3、b2、b1、b0 。在计算机中,往往用字节数来表示存储容量,容量可以以KB、MB、GB、TB为单位,它们相互之间的转换关系如下:
1KB=210B=1024B
1MB=210KB=1024KB
1GB=210MB=1024MB
1TB=210GB=1024GB
③ 字:计算机在存储、传送或操作时,作为一个整体单位进行操作的一组二进制,称为一个计算机字,简称字 。
④ 字长:每个字所包含的位数称为字长 。由于字长是计算机一次可处理的二进制数的位数,因此它与计算机处理数据的速率有关,是衡量计算机性能的一个重要因素 。
【汉字编码表查询?汉字国标码规定每个汉字用几个字节表示?】(2)字符的编码 。
① ASCII码 。
计算机只能识别二进制数,因此计算机中的数字、字母、符号也必须用二进制进行编码 。编码方法有多种,微型机中普遍采用的是ASCII码(美国标准信息交换码),ASCII码现已被国际标准化组织(ISO)接收为国际标准,称为ISO-646 。ASCII码有7位版本和8位版本两种,国际上通用的ASCII码是7位版本 。7位版本的ASCII码包含10个阿拉伯数字、52个英文大小写字母、32个标点符号和运算符及34个控制码,共128个字符,所以可用7位二进制数表示 。7位ASCII码字符如下图所示:
要确定一个数字、字母、符号或控制字符的ASCII码,可在表中先找出它的位置,然后确定它所对应的十进制值或二进制值 。例如小写字母“a”的ASCII码其十进制值是97,二进制值是1100001B(B表示二进制数),若转换成十六进制,其值是61H(H表示十六进制数) 。从表中可以看出,数字0~9的ASCII码是30H~39H(后缀H表示是十六进制数),大写字母A~Z的ASCII码是41H~5AH,小写字母a~z的ASCII码是61H~7AH 。字符大小的比较就是看它的ASCII码值的大小 。
表中,NUL、BEL、LF、FF、CR、DEL等是控制字符,NUL表示空,BEL是告警符,BS是退格符,LF是换行符,FF是换页符,CR是回车符,SP是空格符,DEL是删除符 。
② BCD码 。
用计算机处理数字时,要进行二进制与十进制的相互转换,这就要用二进制对十进制数进行编码,BCD(Binary Coded Decimal)码是二进制编码的十进制数 。最常用的BCD码就是8421BCD码,
它是用4位二进制数为一组表示一个十进制数字,4位二进制数从左到右其位权依次为8、4、2、1,它可以组合成16种状态,对0~9这10个数字的编码只取0000~1001这前10种状态,其余6种状态不用 。为了能对一个多位十进制数进行编码,需要有和十进制数的位数一样多的4位二进制组,按顺序分别进行编码 。表1-4表示8421BCD码与十进制数的对应关系 。
表1-4 BCD码与十进制数的对应关系
③ Unicode编码
ASCII码提供了128个字符,扩展的ASC码提供了256个字符,但用来表示世界各国的文字编码还显得不够,还需要表示更多的字符和意义,因此又出现了Unicode编码 。
Unicode是一种16位的编码,能够表示65000多个字符或符号 。目前世界上的各种语言一般所使用的字母或符号在34000个左右,所以Unicode编码可以用于任何一种语言 。Unicode编码与现在流行的ASCII码完全兼容,二者的前256个符号是一样的 。
(3)汉字的编码
汉字是一种象形文字,字数极多(现代汉字中仅常用字就有六七千个,总字数高达5万个以上),且字形复杂,每一个汉字都有“音、形、义”三要素,同音字、异体字也很多,这些都给汉字的计算机处理带来了很大的困难 。要在计算机中处理汉字,必须解决以下几个问题:首先,是汉字的输入,即如何把结构复杂的方块汉字输入到计算机中去,这是汉字处理的关键;其次,汉字在计算机内如何表示和存储,如何与西文兼容;最后,如何将汉字的处理结果从计算机内输出 。为此,必须将汉字代码化,
即对汉字进行编码 。对应于上述汉字处理过程中的输入、内部处理及输出这3个主要环节,每一个汉字的编码都包括输入码、交换码、内部码和字形码 。在计算机的汉字信息处理系统中,处理汉字时要进行如下的代码转换:输入码→交换码→内部码→字形码 。以上简述了对汉字进行计算机处理的基本思想和过程,下面具体介绍汉字的4种编码 。
① 输入码 。
为了利用计算机上现有的标准西文键盘来输入汉字,必须为汉字设计输入编码 。输入码也称为外码 。目前,已申请专利的汉字输入编码方案有六七百种之多,而且还不断有新的输入方法问世,以至于有“万码奔腾”之喻 。按照不同的设计思想,可把这些数量众多的输入码归纳为四大类:数字编码、拼音码、字形码和音形码 。其中,目前应用最广泛的是拼音码和字形码 。
推荐阅读
- 将 Gedit 作为代码编辑器的十项增强调整
- 劳动监察|多地开始清退编外人员,包括哪几类人?公安辅警会被清退吗?
- 穿衣搭配|多地开始清退编外人员,包括了哪几类人?公安辅警会被清退吗?
- 辅警|“年薪制”辅警招聘来了,1年15万,5年可入编,招录门槛也不高!
- 事业单位|备案制?聘用制?合同制?是正式编制吗?
- 物流|四川某高校招聘辅导员,编制岗位且人才需求量大,关键门槛并不高
- 辅警|多地开始清退编外人员,包括哪几类人?公安辅警会被清退吗?
- 2023 年要学习的三大编程语言
- 体验了首个接入GPT-4的代码编辑器,太炸裂了!
- 这两个强大的开源C#反编译逆向工具,探索C#桌面应用的秘密