Перейти до вмісту

Нижні та верхні індекси Юнікоду

Матеріал з Вікіпедії — вільної енциклопедії.
Різниця між надрядковим/підрядковим і гліфами чисельника/знаменника. У багатьох популярних шрифтах символи «верхнього і нижнього індексу» Unicode насправді є гліфами чисельника та знаменника.

Юнікод має версії ряду символів із підрядковим і надрядковим індексами, включаючи повний набір арабських цифр[1]. Ці символи дозволяють будь-які поліноміальні, хімічні та деякі інші рівняння бути представлені у звичайному тексті без використання будь-якої форми розмітки, як-от HTML або TeX.

World Wide Web Consortium і Unicode Consortium дали рекомендації щодо вибору між використанням розмітки та використанням верхніх і нижніх індексів:

При використанні в математичному контексті (MathML) рекомендується послідовно використовувати розмітку стилю для верхніх і нижніх індексів…. Однак, коли верхній і нижній індекси повинні відображати семантичні відмінності, легше працювати з цими значеннями, закодованими в тексті, а не з розміткою, наприклад, у фонетичній або фонематичній транскрипції[2].

Використання

[ред. | ред. код]

Передбачуваним використанням[2] коли ці символи були додані до Unicode, було дозволити хімічні та алгебрачні формули та фонетику записувати без розмітки, але створювати справжні верхні та нижні індекси. Таким чином, «H₂O» (з використанням нижнього індексу символу 2) має бути ідентичним «H2O» (з розміткою нижнього індексу).

Насправді більшість шрифтів, які містять ці символи, ігнорують визначення Юнікоду та розробляють цифри для математичних гліфів чисельника та знаменника[3][4], які менші за звичайні символи, але вирівнюються відповідно з верхньою лінією та базовою лінією. При використанні з солідусом ці гліфи корисні для створення довільних діагональних дробів (подібно до гліфа ½). Створення дробів за допомогою надрядкових/підрядкових індексів існуючого програмного забезпечення вимагає багато символів і не виглядає як відтворений дріб (приклад: 1/2), тому дизайнери шрифтів запропонували цю альтернативу. Це також робить верхній індекс корисним для порядкових індикаторів[en], точніше відповідаючи символам ª та º. Однак це робить їх неправильними для звичайних верхніх і нижніх індексів, і формули відображаються правильно за допомогою розмітки, а не цих символів.

Юнікод мав створювати діагональні дроби за допомогою іншого механізму, але він дуже погано підтримується. ТСлеш дробу U+2044 візуально схожий на солід, але коли він використовується зі звичайними цифрами (а не верхніми та нижніми індексами), він призначений для того, щоб повідомити системі компонування, що дріб, такий як ¾, має бути відтворено[5] за допомогою автоматичної заміни гліфів[a] для цифр. Деякі браузери підтримують це[b], але не для всіх шрифтів. Вибір шрифтів наведено в таблиці нижче.

Порівняння кодувань простих дробів
Символ Шифт Результат
U+00BD ½ ВУЛЬГАРНА ФРАКЦІЯ ОДНА ПОЛОВИНА За замовчуванням ½
U+00B9 ¹ НАДРЯДКОВИЙ ОДИН, U+002F / СОЛІДУС, U+2082 ПІДРЯДКОВИЙ ДВА ¹/₂
U+00B9 ¹ НАДРЯДКОВИЙ ОДИН, U+2044 СЛЕШ ДРОБУ, U+2082 ПІДРЯДКОВИЙ ДВА ¹⁄₂
U+0031 1 ЦИФРА ОДИН,
U+2044 СЛЕШ ДРОБУ,
U+0032 2 ЦИФРА ДВА
1⁄2
Arial 1⁄2
Cambria 1⁄2
Consolas 1⁄2
Times New Roman 1⁄2
FiraGO 1⁄2
EB Garamond 1⁄2
Cantarell 1⁄2
Lato 1⁄2
Linux Libertine O 1⁄2
Nimbus Roman 1⁄2
Ubuntu 1⁄2
Yrsa 1⁄2

Блок верхніх і нижніх індексів

[ред. | ред. код]

Найпоширеніші цифри верхнього індексу (1, 2 і 3) були в ISO 8859-1 і тому були перенесені на ці позиції в діапазоні Latin-1 Unicode. Решта були розміщені у спеціальному розділі Юнікоду від U+2070 до U+209F. Дві таблиці нижче показують ці символи. Кожному верхньому або нижньому індексу передує звичайний x, щоб показати нижній/верхній індекс. Таблиця ліворуч містить фактичні символи Юнікоду; праворуч містить еквіваленти з використанням розмітки HTML для нижнього або верхнього індексу

.
Символи Юнікоду
0 1 2 3 4 5 6 7 8 9 A B C D E F
U+00Bx
U+207x x⁰ xⁱ x⁴ x⁵ x⁶ x⁷ x⁸ x⁹ x⁺ x⁻ x⁼ x⁽ x⁾ xⁿ
U+208x x₀ x₁ x₂ x₃ x₄ x₅ x₆ x₇ x₈ x₉ x₊ x₋ x₌ x₍ x₎
U+209x xₐ xₑ xₒ xₓ xₔ xₕ xₖ xₗ xₘ xₙ xₚ xₛ xₜ
Імітація за допомогою тегів <sup> або <sub>
0 1 2 3 4 5 6 7 8 9 A B C D E F
U+00Bx x2 x3 x1
U+207x x0 xi x4 x5 x6 x7 x8 x9 x+ x x= x( x) xn
U+208x x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 x+ x x= x( x)
U+209x xa xe xo xx xə xh xk xl xm xn xp xs xt
   Зарезервовано для майбутнього використання.
   Інші символи з Latin-1, не пов'язані з верхнім або підрядковим індексом.

Інші надрядкові та підрядкові символи

[ред. | ред. код]

Юнікод версії 13.0 також містить символи нижнього та верхнього індексу, які призначені для семантичного використання, у таких блоках:[1][6]

Верхній індекс
  • Додатковий блок Latin-1 Supplement містить порядкові показники[en] жіночого та чоловічого роду ª та º.
  • Блок Latin Extended-C містить один додатковий верхній індекс, ⱽ.
  • блок Latin Extended-D містить п’ять верхніх індексів: ꝰ ꟸ ꟹ ꟲ ꟳ.
  • блок Latin Extended-E містить п’ять верхніх індексів: ꭜ ꭝ ꭞ ꭟ ꭩ.
  • блок Latin Extended-F повністю складається з верхніх індексів.
  • У блоці Spacing Modifier Letters є літери та символи з верхнім індексом, які використовуються для фонетичної транскрипції: ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ˀ ˁ ˠ ˡ ˢ ˣ ˤ.
  • Блок Phonetic Extensions має кілька суперскриптованих букв і символів: Latin/IPA ᴬ ᴮ ᴯ ᴰ ᴱ ᴲ ᴳ ᴴ ᴵ ᴶ ᴸ ᴹ ᴺ ᴻ ᴼ ᴽ ᴾ ᵀ ᵁ ᵃ ᵄ ᵅ ᵆ ᵇ ᵈ ᵉ ᵊ ᵌ ᵏ ᵐ ᵐ ᵐ ᵈ ᵉ ᵋ ᵍ ᵏ ᵐ ᵐ ᵐ ᵐ ᵐ ᵐ ᵐ ᵐ ᵐ ᵑ ᵒ ᵓ ᵖ ᵗ ᵘ ᵚ ᵛ, грецька ᵝ ᵞ ᵟ ᵠ, кирилиця ᵸ, інші ᵎ ᵔ ᵕ ᵙ ᵜ. Вони призначені для позначення вторинної артикуляції.
  • блок Phonetic Extensions Supplement має ще кілька: Latin/IPA ᶛ ᶜ ᶝ ᶞ ᶟ ᶠ ᶡ ᶢ ᶣ ᶤ ᶥ ᶦ ᶧ ᶨ ᶩ ᶪ ᶫ ᶬ ᶭ ᶮ ᶯ ᶰ ᶱ ᶲ ᶳ ᶴ ᶵ ᶶ ᶷ ᶸ ᶹ ᶺ ᶻ ᶼ ᶽ ᶾ, грецька ᶿ.
  • блок Cyrillic Extended-B містить два кириличні верхні індекси: ꚜ ꚝ.
  • Блок Розширена кирилиця D[en] містить багато кириличних верхніх індексів (із підтримуючих шрифтів — Unifont Upper[7]): 𞀰 𞀱 𞀲 𞀳 𞀷 𞀵 𞀶 𞀷 𞀸 𞀹 𞀺 𞀻 𞀼 𞀽 𞀾 𞀿 𞁀 𞁁 𞁂 𞁃 𞁄 𞁅 𞁆 𞁇 𞁈 𞁉 𞁊 𞁋 𞁌 𞁍 𞁎 𞁏 𞁐 𞁫 𞁬 𞁭.
  • блок Georgian (Unicode block) містить одну літеру Мхедрулі з верхнім індексом: ჼ.
  • Блок Kanbun (Unicode block) містить символи анотації з верхнім індексом, які використовуються в японських копіях класичних китайських текстів: ㆒ ㆓ ㆔ ㆕ ㆖ ㆗ ㆘ ㆙ ㆚ ㆛ ㆜ ㆝ ㆞ ㆟.
  • Блок Tifinagh має одну надрядкову літеру: ⵯ.
  • блок Unified Canadian Aboriginal Syllabics та її розширення містять кілька літер, які здебільшого складаються лише з приголосних, для позначення коду складу, що називається фіналами, а також деякі символи, які вказують на середній склад, відомий як медіали:: Основний блок ᐜ ᐝ ᐞ ᐟ ᐠ ᐡ ᐢ ᐣ ᐤ ᐥ ᐦ ᐧ ᐨ ᐩ ᐪ ᑉ ᑊ ᑋ ᒃ ᒄ ᒡ ᒢ ᒻ ᒼ ᒽ ᒾ ᓐ ᓑ ᓒ ᓪ ᓫ ᔅ ᔆ ᔇ ᔈ ᔉ ᔊ ᔋ ᔥ ᔾ ᔿ ᕀ ᕁ ᕐ ᕑ ᕝ ᕪ ᕻ ᕯ ᕽ ᖅ ᖕ ᖖ ᖟ ᖦ ᖮ ᗮ ᘁ ᙆ ᙇ ᙚ ᙾ ᙿ; Розширений блок: ᣔ ᣕ ᣖ ᣗ ᣘ ᣙ ᣚ ᣛ ᣜ ᣝ ᣞ ᣟ ᣳ ᣴ ᣵ.
Комбінування верхнього індексу
  • Комбінований блок діакритичних знаків містить середньовічні діакритичні знаки верхнього індексу. Ці літери написані безпосередньо над іншими літерами, які зустрічаються в середньовічних германських рукописах, тому ці гліфи не містять пробілів, наприклад uͤ. Вони показані тут над заповнювачем із пунктирним колом ◌: ◌ͣ ◌ͤ ◌ͥ ◌ͦ ◌ͧ ◌ͨ ◌ͩ ◌ͪ ◌ͫ ◌ͬ ◌ͭ ◌ͮ ◌ͯ.
  • Комбінований розширений блок діакритичних знаків містить дві комбіновані літери для лінгвістичної транскрипції шотландської мови: ◌ᪿ ◌ᫀ.
  • Блок додатків із комбінованими діакритичними знаками містить додаткові середньовічні діакритичні знаки верхнього індексу, достатні для завершення базового малого регістру латинського алфавіту, за винятком j, q та y, кількох малих великих і лігатур (ae, ao, av), а також додаткові літери: ◌ᷓ ◌ᷔ ◌ᷕ ◌ᷖ ◌ᷗ ◌ᷘ ◌ᷙ ◌ᷚ ◌ᷛ ◌ᷜ ◌ᷝ ◌ᷞ ◌ᷟ ◌ᷠ ◌ᷡ ◌ᷢ ◌ᷣ ◌ᷤ ◌ᷥ ◌ᷦ ◌ᷧ ◌ᷨ ◌ᷩ ◌ᷪ ◌ᷫ ◌ᷬ ◌ᷭ ◌ᷮ ◌ᷯ ◌ᷰ ◌ᷱ ◌ᷲ ◌ᷳ ◌ᷴ.
  • Блоки кирилиці Extended-A і -B містять кілька середньовічних діакритичних літер верхнього індексу, достатніх для завершення базового малого кириличного алфавіту, який використовується в церковнослов’янських текстах, також включає додаткову лігатуру: ◌ⷠ ◌ⷡ ◌ⷢ ◌ⷣ ◌ⷤ ◌ⷥ ◌ⷦ ◌ⷧ ◌ⷨ ◌ⷩ ◌ⷪ ◌ⷫ ◌ⷬ ◌ⷭ ◌ⷮ ◌ⷯ ◌ⷰ ◌ⷱ ◌ⷲ ◌ⷳ ◌ⷴ ◌ⷵ ◌ⷶ ◌ⷷ ◌ⷸ ◌ⷹ ◌ⷺ ◌ⷻ ◌ⷼ ◌ⷽ ◌ⷾ ◌ⷿ ◌ꙴ ◌ꙵ ◌ꙶ ◌ꙷ ◌ꙸ ◌ꙹ ◌ꙺ ◌ꙻ ◌ꚞ ◌ꚟ.
Підрядковий
  • Латинський блок Extended-C містить один додатковий індекс ⱼ.
  • Блок фонетичних розширень містить кілька підписаних літер і символів: латиниця/IPA ᵢ ᵣ ᵤ ᵥ та грецька ᵦ ᵧ ᵨ ᵩ ᵪ.
Об'єднання нижнього індексу
  • Блок доповнення до діакритичних знаків містить комбінований нижній індекс: ◌᷊.

Латинські, грецькі та кириличні таблиці

[ред. | ред. код]

Консолідований стандарт Юнікод містить версії верхнього та нижнього індексів підмножини латинських, грецьких і кириличних літер. Тут вони розташовані в алфавітному порядку для порівняння (або для зручності копіювання та вставлення). Оскільки ці символи відображаються в різних діапазонах Юнікоду, вони можуть не мати однакового розміру чи позиції через заміну шрифту в браузері. Затінені клітинки позначають малі великі літери, які не дуже відрізняються від мінускул, і грецькі літери, які неможливо відрізнити від латинських, і тому не очікується, що вони будуть підтримуватися Юнікодом.

Латинські надрядкові та підрядкові літери
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Верхній індекс великий ᴿ
Верхній індекс маленький 𐞄 𐞒 𐞖 𐞪 𐞲
Верхній індекс мінускул ʰ ʲ ˡ 𐞥 ʳ ˢ ʷ ˣ ʸ
Верхній індекс маленький ◌ᷛ ◌ᷞ ◌ᷟ ◌ᷡ ◌ᷢ
Надрядковий мініскул ◌ͣ ◌ᷨ ◌ͨ ◌ͩ ◌ͤ ◌ᷫ ◌ᷚ ◌ͪ ◌ͥ ◌ᷜ ◌ᷝ ◌ͫ ◌ᷠ ◌ͦ ◌ᷮ ◌ͬ ◌ᷤ ◌ͭ ◌ͧ ◌ͮ ◌ᷱ ◌ͯ ◌ᷦ
Підрядковий мінус
Підрядковий мінус ◌᷊ ◌ᪿ
Грецькі надрядкові та підрядкові літери
Α Β Γ Δ Ε Ζ Η Θ І Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Верхній індекс мінускул ⁽ᵋ⁾ ᶿ ⁽ᶥ⁾ ⁽ᶹ⁾
Надрядковий мініскул ◌ᷩ
Підрядковий мінус
Надрядкові та підрядкові літери МПА
ɑ æ ç ð ə ʃ ʍ ʔ
Верхній індекс Дивіться надрядкові літери IPA
Надпис ◌ᷧ ◌ᷔ ◌ᷗ ◌ᷙ ◌ᷪ ◌ᷯ ◌̉
Підрядковий
Нижній індекс ◌ᫀ

(Верхній індекс ɩ ᶅ ƫ ɷ, які більше не є IPA, є ⟨ᶥ ᶪ ᶵ 𐞤⟩.)

Надрядкові та підрядкові літери кирилиці
А Ә Б В Г Ґ Д Е Є Ж З Ѕ И І Ї Ј К Л М Н О Ө П Р С Ҫ
Верхній індекс 𞀰 𞁋 𞀱 𞀲 𞀳 𞀴 𞀵 𞀶 𞀷 𞁊 𞀸 𞁌 𞁍 𞀹 𞀺 𞀻 𞀼 𞁎 𞀽 𞀾 𞀿 𞁫
Надпис ◌ⷶ ◌ⷠ ◌ⷡ ◌ⷢ ◌ⷣ ◌ⷷ ◌ꙴ ◌ⷤ ◌ⷥ ◌ꙵ ◌𞂏 ◌ꙶ ◌ⷦ ◌ⷧ ◌ⷨ ◌ⷩ ◌ⷪ ◌ⷫ ◌ⷬ ◌ⷭ
Підрядковий 𞁑 𞁒 𞁓 𞁔 𞁧 𞁕 𞁖 𞁗 𞁘 𞁩 𞁙 𞁨 𞁚 𞁛 𞁜 𞁝 𞁞
Т У Ү Ұ Ф Х Ѡ Ц Ч Џ Ш Щ Ъ Ы Ь Ѣ Э Ю Ѥ Ѧ Ѫ Ѭ Ѳ Ӏ
Верхній індекс 𞁀 𞁁 𞁏 𞁭 𞁂 𞁃 𞁄 𞁅 𞁆 𞁬 𞁇 𞁈 𞁉 𞁐
Надпис ◌ⷮ ◌ꙷ ◌ⷹ ◌ꚞ ◌ⷯ ◌ꙻ ◌ⷰ ◌ⷱ ◌ⷲ ◌ⷳ ◌ꙸ ◌ꙹ ◌ꙺ ◌ⷺ ◌ⷻ ◌ⷼ ◌ꚟ ◌ⷽ ◌ⷾ ◌ⷿ ◌ⷴ
Підрядковий 𞁟 𞁠 𞁡 𞁢 𞁣 𞁪 𞁤 𞁥 𞁦

Багато з цих символів були опубліковані в Unicode 15 у 2022 році.[8]

Складені символи

[ред. | ред. код]

Перш за все для сумісності з попередніми наборами символів, Юнікод містить ряд символів, які утворюють верхній та нижній індекси з іншими символами[1]. У більшості шрифтів вони відображаються набагато краще, ніж спроби створити ці символи з наведених вище символів або за допомогою розмітки.

  • Додатковий блок Latin-1 містить попередньо складені дроби ½, ¼ та ¾. У цьому блоці також є знаки авторського права © та зареєстрованих торгових марок ®.
  • Блок загальної пунктуації містить знак проміле ‰ і знак десятитисячного ‱, а базова латиниця має знак відсотка %.
  • Блок форм чисел містить кілька попередньо складених дробів:: ⅐ ⅑ ⅒ ⅓ ⅔ ⅕ ⅖ ⅗ ⅘ ⅙ ⅚ ⅛ ⅜ ⅝ ⅞ ⅟ ↉.
  • Блок буквоподібних символів містить кілька символів, що складаються з нижніх і верхніх індексів: ℀ ℁ ℅ ℆ № ℠ ™ ⅍.
  • Закритий буквено-цифровий додатковий блок містить три надрядкові абревіатури 🅪 🅫 🅬: MC для marque de commerce (торговельна марка), MD for marque déposée (зареєстрована торгова марка), обидва використовуються в Канаді; MR для marca registrada (registered trademark) в іспаномовних та португаломовних країнах[9].
  • Блок «Різні технічні відомості» має один додатковий індекс, нижній індекс 10 (⏨), для цілей наукового позначення.
  • Уніфікована силабіка канадських аборигенів та її розширені блоки містять кілька літер, складених із літерами надрядкових знаків для позначення розширених звукових значень: Основний блок ᐂ ᐫ ᐬ ᐭ ᐮ ᐰ ᑍ ᑧ ᑨ ᑩ ᑪ ᑬ ᒅ ᒆ ᒇ ᒈ ᒊ ᒤ ᓁ ᓔ ᓮ ᔌ ᔍ ᔎ ᔏ ᔧ ᕅ ᕔ ᕿ ᖀ ᖁ ᖂ ᖃ ᖄ ᖎ ᖏ ᖐ ᖑ ᖒ ᖓ ᖔ ᙯ ᙰ ᙱ ᙲ ᙳ ᙴ ᙵ ᙶ, Розширений блок ᢰ ᢱ ᢲ ᢳ ᢴ ᢵ ᢶ ᢷ ᢸ ᢹ ᢺ ᢻ ᢼ ᢽ ᢾ ᢿ ᣀ ᣁ ᣂ ᣃ ᣄ ᣅ.

Примітки

[ред. | ред. код]
  1. Щоб отримати загальний огляд і технічну інформацію про заміну гліфів (хоча не спеціально для дробів): GSUB — Таблиця заміни гліфів у Специфікація OpenType на сайті Microsoft Typography.
  2. Наприклад, Chrome у Windows, Firefox[відсутнє в джерелі]
  1. а б в UCD: UnicodeData.txt. The Unicode Standard. Процитовано 14 травня 2016.
  2. а б Martin Dürst, Asmus Freytag (16 травня 2007). Unicode in XML and other Markup Languages. W3C. Процитовано 13 вересня 2010.
  3. fraction | Dart Package. Dart packages (амер.). 27 грудня 2021. Процитовано 13 січня 2022.
  4. MathML | General layout elements | Fractions. data2type GmbH (de-DE) . 30 березня 2021. Процитовано 13 січня 2022.{{cite web}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
  5. Martin Dürst, Asmus Freytag (16 травня 2007). Fraction Slash. W3C. Процитовано 13 вересня 2010.
  6. UCD: Scripts.txt. The Unicode Standard. Процитовано 17 березня 2020.
  7. https://unifoundry.com/pub/unifont/unifont-16.0.02/font-builds/ (див. файл unifont_upper-16.0.02.otf піксельний)
  8. [1]
  9. Silva, Eduardo Marín (1 березня 2017). L2/17-066R: Proposal to encode the Marca Registrada sign (PDF).

Посилання

[ред. | ред. код]