Триграма

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Триграми є окремим випадком n-грами, де n дорівнює 3. Вони часто використовуються в обробці природної мови для виконання статистичного аналізу текстів і в криптографії для контролю та використання шифрів і кодів.

Частоти триграм можна використати в криптографії для розв'язання криптограм. (Див. Частотний аналіз)

Частоти триграм є одним з підходів до статистичної ідентифікації мови.

Частота[ред. | ред. код]

Контекст дуже важливий, різноманітні рейтинги аналізу та відсотки легко отримати, спираючись на різні розміри вибірки, різних авторів або різні типи документів: поезія, наукова фантастика, технічна документація; і рівні написання: історії для дітей, для дорослих, військові накази та рецепти.

Типовий криптоаналітичний частотний аналіз показує, що є декілька найпоширеніших триграм рівня символів англійською мовою:[1][2]

Рейтин[1] Триграма Частота[3]



1 the 1,81 %
2 and 0,73 %
3 tha 0,33 %
4 ent 0,42 %
5 ing 0,72 %
6 ion 0,42 %
7 tio 0,31 %
8 for 0,34 %
9 nde
10 has
11 nce
12 edt
13 tis
14 oft 0,22 %
15 sth 0,21 %
16 men

Оскільки в зашифрованих повідомленнях, надісланих телеграфом, часто відсутні знаки пунктуації та пробіли, криптографічний частотний аналіз таких повідомлень включає триграми, які перетинають межі слів. Це призводить до того, що такі триграми, як «edt», часто трапляються, навіть якщо вони ніколи не зустрічаються в жодному слові цих повідомлень.[4]

Приклади[ред. | ред. код]

Речення англійською «the quick red fox jumps over the lazy brown dog» містить такі триграми на рівні словосполучень:

the quick red
quick red fox
red fox jumps
fox jumps over
jumps over the
over the lazy
the lazy brown
lazy brown dog

А триграма на рівні словосполучення «the quick red» має такі триграми на рівні символів (де підкреслення «_» позначає пробіл):

the
he_
e_q
_qu
qui
uic
ick
ck_
k_r
_re
red

Примітки[ред. | ред. код]

  1. а б Lewand, Robert (2000). Cryptological Mathematics. The Mathematical Association of America. с. 37. ISBN 978-0-88385-719-9.
  2. Linton, Tom (2001). Relative Frequencies of Letters in General English Plain text. Central College. Cryptography. Архів оригіналу за 22 січня 2007.
  3. English Letter Frequencies. Practical Cryptography.
  4. Voice Search SEO. Fuelonline. Архів оригіналу за 25 вересня 2021. Процитовано 23 грудня 2022.