utf-8

更新时间:2022-12-20

概述

UTF-8是一种字符编码系统。它允许您将字符表示为ASCII文本,同时仍允许使用国际字符,例如中文字符。
截至2020年代中期,UTF-8是最受欢迎的编码系统之一。
UTF-8
要开始使用UTF-8,您需要首先熟悉基本的ASCII字符集。

什么是ASCII字符集?

ASCII使用7位码位来表示128个不同的字符。这些码位分为95个可打印字符,其中包括英文字母表的26个字母(A到Z,大写和小写)、10位数字(0到9)以及各种标点符号和其他符号。
还有33个不可打印的字符,其中包括回车符和换行符等控制字符,以及用于格式化文本等操作的各种其他字符。

UTF-8VSASCII–有什么区别?

UTF-8扩展了ASCII字符集以使用8位码位,最多允许256个不同的字符。
这意味着UTF-8可以表示所有可打印的ASCII字符,也可以表示不可打印的字符。
UTF-8还包括各种附加国际字符,例如中文字符和阿拉伯字符。

如何在网页中使用UTF-8–HTMLUTF-8示例

现在是简单的部分。你实际上不需要知道它是如何工作的(尽管我稍后会告诉你。您可以在HTML代码中配置UTF-8字符编码,代码部分中的单行HTML将:<head>
<!DOCTYPEhtml><html><head><metacharset="utf-8"></head></html>
说完这些,让我解释一下UTF-8的工作原理,以及为什么它是一个如此出色的编码方案

UTF-8编码的工作原理以及每个字符使用的存储空间

以UTF-8表示字符时,每个码位由一个或多个字节的序列表示。使用的字节数取决于字符表示的代码点。以下是使用范围的细分:
  • ASCII范围(0-127)中的码位由单个字节表示
  • (128-2047)范围内的代码点由两个字节表示
  • 范围(2048-65535)中的代码点由三个字节表示
  • 范围(65536-1114111)中的代码点由四个字节表示。(这似乎有很多可能的字符,但请记住,仅在中文中,就有100,000个字符。
UTF-8序列的第一个字节称为“前导字节”。前导字节提供有关序列中有多少字节以及字符的代码点值的信息。
单字节序列的前导字节始终在(0-127)范围内。双字节序列的前导字节在(194-223)范围内。三字节序列的前导字节在(224-239)范围内。四字节序列的前导字节在(240-247)范围内。
序列中的其余字节称为“尾随字节”。双字节序列的尾随字节在(128-191)范围内。三字节序列的尾随字节在(128-191)范围内。四字节序列的尾随字节在(128-191)范围内。
您可以通过查看前导字节和尾随字节来计算字符的代码点值。对于单字节序列,码位值等于前导字节的值。
对于双字节序列,码位值等于((前导字节-194)*64)+(尾随字节-128)。
对于三字节序列,码位值等于((前导字节-224)*4096)+((尾随字节1-128)*64)+(尾随字节2-128)。
对于四字节序列,码位值等于((前导字节-240)*262144)+((尾随字节1-128)*4096)+((尾随字节2-128)*64)+(尾随字节3-128)。

UTF-8是编码的合理选择

同样,UTF-8是一个超级高效的编码系统。它可以表示各种字符,同时仍与ASCII兼容。这使其成为国际化软件的合理选择。

下一篇

SBC是什么-企业为什么需要SB以及应用场景

通信百科

SBC是什么-企业为什么需要SB以及应用场景

sbc一种NAT穿透的方式。SBC可确保VoIP 安全,又可提供媒体代理服务器的套件。SBC架构于IMS网络之上,可作为IMS网络的SIP和RTSP的 Proxy Server,所有的SIP与RTSP讯息都会透过SBC来处理,SBC更具备N... ...

相关内容