ansi unicode_ansi unicode utf-8-Windows系列-PHP中文网

ansi unicode_ansi unicode utf-8

絕刀狂花

发布： 2025-08-30 08:38:23

原创

984人浏览过

大家好，又见面了，我是你们的朋友全栈君。

今天利用了一整天的时间，深入研究了ANSI编码和Unicode编码的差异，现将研究成果记录下来，供日后参考。

在Windows操作系统中，ANSI编码常见于记事本程序，默认保存的文本文件格式即为ANSI。这种编码在处理标准ASCII字符时使用单字节，而遇到非标准ASCII字符（如中文）时则使用双字节。相比之下，Unicode编码已被广泛应用于近年来的新技术中，包括可扩展置标语言（XML）、Java编程语言以及最新的操作系统。

接下来，通过实验方式探讨两者的区别：

首先，准备好UltraEdit软件，用于文本文件的比较；其次，辅助分析网络字节序的网站：https://www.php.cn/link/fc38d019366c0aa622caceb53f7f7a60。

开始实验，在一个空白文件夹中创建一个记事本文档“新建文本文档.txt”，并输入“宋体ABC(回车)”(不包含引号，最后在ABC后输入回车)，保存并关闭该文档。选中并复制此文件，粘贴在同一文件夹下，生成“复件新建文本文档.txt”。重新打开“新建文本文档.txt”，选择菜单中的“文件”->“另存为”，在对话框底部选择“编码”为Unicode，保存并替换原文件。

接着，启动UltraEdit，选择“文件”->“比较文件”(或按快捷键Alt+F11)，设置第一个比较文件为“新建文本文档.txt”，第二个为“复件新建文本文档.txt”。在“比较模式”中选择“文件”，“二方比较”，“要比较的第一个文件”为“二进制”，“编辑器平铺”选择“垂直平铺”，点击“比较”，程序会以16进制形式显示比较结果，如下图所示：

ansi unicode_ansi unicode utf-8 根据分析，其代表的意义如下图所示。

Unicode编码存储的文本文档：

ansi unicode_ansi unicode utf-8 ANSI编码存储的文本文档：

ansi unicode_ansi unicode utf-8 在使用Unicode对文本进行编码时，头两个字节总是FF FE，用以标识文档采用Unicode编码。接下来，我们关注内容编码部分。

中文作为非ASCII字符，至少需要两个字节来表示，因此是双字节字符。下图展示了在https://www.php.cn/link/fc38d019366c0aa622caceb53f7f7a60上查询到的“宋体”两个汉字的Unicode和ANSI编码的十六进制内容。

Unicode编码的“宋体”：

8款超赞的评分插件

查看详情

ansi unicode_ansi unicode utf-8 ANSI编码的“宋体”：

ansi unicode_ansi unicode utf-8 在Unicode编码中，“宋”这个汉字的编码为5B 8B，按照二进制规则，5B是高八位，8B是低八位。然而，Unicode编码的文本文件中，先存储的是8B这个低八位，然后是5B这个高八位。这反映了Windows在处理Unicode字符时采用小端序（先处理低八位，再处理高八位），与其他系统（如Mac OS）的处理方式不同。需要注意的是，本地字节序处理顺序仅与CPU架构有关，而非操作系统。之前误以为Mac OS与Windows不同是因为Mac机之前使用的是PPC处理器，采用大端对齐方式，而从Mac OS 10.4开始，支持Intel x86 CPU的系统变为小端对齐。此外，本文中提到的Unicode编码应为UTF-16编码，特此更正。

在ANSI编码中，“宋”的编码为CB CE，存储时按照高八位在前，低八位在后的顺序。

讨论了中文在Unicode和ANSI编码中的特点后，接下来看一下ASCII字符在这两种编码中的特点：

在Unicode编码中，所有字符均以两个字节存储（2011.6.22更正：在UTF-16编码格式中，并非所有字符都以两个字节存储。实际上，UTF-16以两个字节为基本编码单位，但如果一个字符超出这两个字节所能表示的范围，则会使用额外的两个字节进行编码）。ASCII字符仅需一个字节即可表示，另一个字节的内容则置为00。使用Unicode编码的缺点是，如果一篇文章全是英文，存储空间会增加约一倍（包括头部的FF FE标识），但其优势在于适用于同一文档中包含多种语言的文字，因此Unicode编码广泛应用于XML语言和多语言编程。

在第二组图中可以看到，Unicode编码的大写英文字母A的编码为00 41（由于Windows在处理Unicode字符时采用小端序，先处理低八位）。由于Unicode存储的任何字符都占用两个字节，因此在解码时以两个字节为单位读取。如果发现高八位不是00，则认为这两个字节表示一个非ASCII字符；反之，如果高八位为00，则认为该字符为ASCII字符，取出低八位并根据ASCII码表查找对应字符。由于取出的低八位表示的是一个ASCII字符，其字符空间为256，因此Unicode编码的ASCII字符属于扩展的ASCII字符集。

在第二组图的ANSI编码解释中可以看到，存储大写英文字母A仅用了一个字节，内容为41。将其转换为八位二进制后为01000001，最高位为0，ANSI编码在存储ASCII字符时采用传统的ASCII字符集，其字符数量为128，正好是2的7次方，因此最高位总是0。汉字“宋”的ANSI编码为CB CE，转换为二进制后为[11001011][11001110]，每个字节的最高位都是1。因此，在解码时，一次读取一个字节，检查其最高位是否为1，如果为1，则暂存该字节并读取下一个字节，新读取的字节最高位也应为1，然后将两个字节合并查找对应字符；如果第一次读到的字节最高位为0，则直接根据该字节内容查询传统的ASCII码表，找到对应字符。

最后，分析Windows中的回车换行特点。在准备实验文本文档时，输入完ABC后又输入了一个回车。但通过分析发现，文本存储时不仅存储了一个“回车”，还存储了一个“换行”，而且是先存储“回车”后存储“换行”（见ASCII码表：0D->回车；0A->换行）。这与Linux/Unix中的换行方式不同，后者仅用一个0D（回车）即可换行。如果将在Linux/Unix中编写的文本文档直接拷贝到Windows中打开（例如在Windows下查看百度首页的源代码），会看到这些文字几乎都是连着的，没有换行，因为该文档中没有显式地存储0A（换行符），尽管在Linux/Unix中看起来很正常。

发布者：全栈程序员栈长，转载请注明出处：https://www.php.cn/link/30875cf3491d376f2b9815c231b3e1a5

以上就是ansi unicode_ansi unicode utf-8的详细内容，更多请关注php中文网其它相关文章！