0%

Java Char 编码

发表于 2018-03-31 更新于 2024-11-24 分类于 Java
本文字数： 728 阅读时长 ≈ 3 分钟

记录下自己对编码的理解和疑惑，什么是Unicode？UTF-8、UTF-16、ASCII又是什么？

编码与解码

编码：信息从一种数据形式到另一种数据形式的转换过程。信息在计算机中的存储与传输是以二进制的形式（010101）进行的，计算机中的存储单元为Byte，所以需要计算机处理的信息必须编码为Bytes。

解码：编码的逆向过程。计算机中为Bytes到字符信息的转换。

为什么要编码

计算机中的存储单元为Byte即8位的二进制形式，所能表达的字符范围为2⁸ = 256种，现存的字符远远多于256种，所以单个字节不足以存够如此多的字符。不同字符的表达是多样性的，不同地区使用不同的语言表达（字符编码），不同的语言自然有不同的字典解释（字符解码）。如何解码呢？byte c1=97代表什么字符？int c2= 26790 又该如何翻译呢？

解码翻译

ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16编码表中记录了不同字符的不同表达方式。是否存在不同字符的统一表达方式呢？即所有字符存在同一张编码表中。Unicode编码集保存着全世界的字符的编码点（CodePoint)，可以存储足够多的字符表示。Unicode的编码形式又分为UTF-8，UTF-16，UTF-32分别表示8位，16位，32位存储。采用哪种编码需要在传输大小、编码效率等问题进行折中选择。UTF-8是可变长度的编码规则，一般会采用UTF-8进行编码，

Unicode

Unicode的编码点以U+开始如U+0x0020的形式表示，能表示的编码点范围为0x0000 ~ 0x10FFFF。我们知道Java中的字符都是以Unicode的形式保存的，并且采用UTF-16的形式编码，所以说Java中的char占用16位即2个字节，16位所能存储的最大值为0xFFFF。那么对于U+10000~U+10FFFF部分的CodePoint（这一部分代表的字符被称为辅助字符supplementary character），Java中的UTF-16显然无法存储

UTF-8的编码规则

编码点	编码方式
U+0000 ~ U+007F	0xxxxxxx
U+0080 ~ U+07FF	110xxxxx 10xxxxxx
U+0800 ~ U+FFFF	1110xxxx 10xxxxxx 10xxxxxx
U+10000 ~ U+10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Java中的char类型

Java中的char类型采用UTF-16描述一个代码单元，对于超过0xFFFF的代码点的字符需要两个代码单元表示。刚好int类型(32位)可以存储所有的Unicode代码点。

简单事例

char bmp = '\u68a6';
System.out.println("BMP:"+bmp);
char[] chars = {'\uD800','\uDFC3'};
String supplementary = new String(chars);
System.out.println("Supplementary:"+supplementary);

BMP:梦
Supplementary:𐏃

I know Kung Fu. - Neo

The Matrix