Юнікод призначає унікальний номер кожному символу, забезпечуючи універсальне представлення та читання тексту; Розподіл блоків для китайської мови становить від U+4E00 до U+9FFF для загальних символів.
Юнікод призначає унікальний номер кожному символу, забезпечуючи універсальне представлення та читання тексту; Розподіл блоків для китайської мови становить від U+4E00 до U+9FFF для загальних символів.
Розмір блоку може варіюватися від мінімум 16 до максимум 65 536 кодових точок.
Діапазони символів Unicode
| 0020 — 007F | Основна лат | 2580-259F |
|---|---|---|
| 1E00 — 1EFF | Латинська розширена додаткова | 10100 — 1013F |
| 1F00 — 1FFF | Грецька розширена | 10300 — 1032F |
| 2000 — 206F | Загальна пунктуація | 10330 – 1034F |
| 2070 – 209F | Верхній і нижній індекси | 10380 – 1039F |
У Unicode 15.0 існує багатомовний набір символів із 149 813 символів, серед яких 98 682 (приблизно 2/3) є китайськими ієрогліфами, відсортованими за радикалами Kangxi.
UTF-8 також містить різноманітні додаткові міжнародні символи, такі як китайські ієрогліфи і арабські символи.
Стандарт Unicode визначає кодовий простір: послідовність цілих чисел, які називаються кодовими точками в діапазоні від 0 до 1114111, що позначається згідно стандарту як U+0000– U+10FFFF.