UTF8并不算是一种电脑编
4个bytes来储存看看
由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费,而且也不利于互联网的传输(中文稍为合算一点^_^)
UTF8是以8bits即1Bytes为编码的最基本单位,當然也可以有基于16bits和32bits的形式分别称为UTF16和UTF32,但目前用得不多而UTF8则被广泛应用在文件储存和网络传输中。
3) 把字符的bits填充至x中字符顺序:低位→高位,UTF8顺序:最后一个octet的最末位x→第一个octet最高位x
4) 解码的原理一样
实例:(留意每个bit的颜色,粗体字为模板内容)
不知大家看懂了没有其实不懂也无所谓,反正又不用自己算程式可以完全代劳。
以UTF8格式储存的文件档首标识为EF BB BF
从上述编码原理中得出的结论是:
1.每个英攵字母、数字所占的空间为1 Byte;
2.泛欧语系、斯拉夫语字母占2 Bytes;
由此可见UTF8对英文来说是个非常诱人的方案,但对中文来说则不太合算无论用ANSI還是 Unicode/UCS2来编码都只用2 Bytes,但用UTF8则需要3 Bytes
以下是一些统计资料,显示用UTF8来储存文件每个字符所需的平均字节:
2.希腊文、俄文、阿拉伯文和希伯莱攵平均用1.7 Bytes;
3.其他大部份文字如中文、日文、韩文、Hindi(北印度语)用约3 Bytes;
4.用超过4 Bytes的都是些非常少用的文字符号
你对这个回答的评价是
你对这個回答的评价是?
下载百度知道APP抢鲜体验
使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。