Unicode记录

文章摘要

Bpple-GPT

Unicode记录

主要是摘抄记录一下这个Unicode,挺厉害的一个东西

Unicode 码位(Code Point)的命名规则遵循一套标准化的格式,其核心是 十六进制表示法U+前缀。以下详细解析这种命名方式的由来和规则:


  1. U+前缀
    • **"U" 表示 **Unicode,用于明确这是 Unicode 标准中的码位。
    • "+" 是固定符号,用于分隔前缀和码位值。
  2. 6C49(十六进制值):
    • **这是码位的具体数值,采用 **十六进制(Base-16)表示法。
    • 十六进制是计算机领域常用的表示法,因为它能更紧凑地表示二进制数据。
    • 示例:6C49 转换为十进制是 27721,表示该字符在 Unicode 空间中的唯一编号。

命名规则的由来

  1. Unicode 码位空间
    • **Unicode 码位范围是 **U+0000 到 U+10FFFF,共 1,114,112 个可能的码位。
    • 每个码位对应一个唯一的字符或符号。
  2. 十六进制的优势
    • **二进制(如 **110110001001001)可读性差。
    • **十进制(如 **27721)无法直观反映计算机存储结构。
    • **十六进制(如 **6C49)既能紧凑表示,又能直接映射到内存地址。
  3. 历史传承
    • **继承自 ASCII 编码的十六进制表示法(如 **0x41 表示 'A')。
    • 统一了不同编码体系的表示方式。

码位命名示例

字符 码位 解释
A U+0041 拉丁字母 'A',ASCII 编码延续
U+6C49 中文汉字 "汉"
😊 U+1F60A Emoji 笑脸
𝄞 U+1D11E 音乐符号 G 谱号

常见编码

  1. UTF-8 编码
    • **码位 **U+6C49 转换为 UTF-8 是 0xE6 0xB1 0x89
    • 编码规则:
      • 单字节:0xxxxxxx(ASCII 范围)
      • 多字节:110xxxxx 10xxxxxx 10xxxxxx(汉字等)
  2. UTF-16 编码
    • **码位 **U+6C49 在 UTF-16 中是 0x6C49
    • **如果码位超过 **U+FFFF,使用代理对(Surrogate Pair)。
  3. UTF-32 编码
    • **码位 **U+6C49 直接存储为 0x00006C49

转换实现

转换步骤(以 U+6C49 为例)

  1. 确定码位范围 ** 码位 U+6C49 的十六进制值是 6C49。 ** 范围:U+0800 - U+FFFF,因此使用 3 字节 编码。
  2. 将码位转换为二进制 ** 十六进制 6C49 转换为二进制: ** 6 C 4 9 ** 0110 1100 0100 1001 ** 完整二进制:01101100 01001001(16 位)。
  3. 填充 UTF-8 编码模板 ** 3 字节 UTF-8 模板: ** 1110xxxx 10xxxxxx 10xxxxxx ** 将码位的二进制按从右到左填充到模板中: ** 01101100 01001001 ** 第一个 10xxxxxx:填充后 8 位 01001001 → 1001001 → 10 + 01001001 = 1001001 → 0x89。 ** 第二个 10xxxxxx:填充后 6 位 011000 → 10 + 011000 = 10011000 → 0xB1。 ** **第三个 1110xxxx:填充后 4 位 0110 → 1110 + 0110 = 11100110 → 0xE6。
  4. 组合结果 ** 按顺序组合填充后的字节: ** 11100110 10110001 10001001 ** 转换为十六进制: ** 0xE6 0xB1 0x89

用键盘敲击出的不只是字符,更是一段段生活的剪影、一个个心底的梦想。希望我的文字能像一束光,在您阅读的瞬间,照亮某个角落,带来一丝温暖与共鸣。

BX33661

站长

不具版权性
不具时效性

文章内容不具时效性。若文章内容有错误之处,请您批评指正。


目录

欢迎来到Bpple的站点,为您导航全站动态

64 文章数
20 分类数
44 评论数
15标签数
最近评论
bpple

bpple


一切顺利

fetain

fetain


good luck

bx

bx


good luck

热门文章

Emoji收集

2024-11-01

542
Hello Halo

2024-10-30

524
本地部署LLM

2024-08-22

505
Uptime Kuma

2024-11-29

499
229

访问统计