Алгоритм пошуку рядка

Алгори́тми по́шуку рядка́ (англ. string searching algorithms) — важливий клас рядкових алгоритмів, що намагаються знайти місце де один або декілька текстових рядків (зразків, англ. pattern) входять у довший рядок або текст.

Постановка задачі

Формальна постановка задачі пошуку рядка (англ. string-matching problem) така: Нехай текст задано у вигляді масиву $\;T[1..n]$ довжини $n\;$ , а зразок — масиву $\;P[1..m]$ довжини $\;m\leq n$ . Передбачається, що елементи масивів — символи із скінченного алфавіту $\;\Sigma$ . Наприклад, алфавіт може мати вигляд $\;\Sigma =\{0,1\}$ чи $\;\Sigma =\{a,b,\dots ,z\}$ .

Зразок $\;P$ зустрічається у тексті $\;T$ зі зсувом $\;s$ (англ. occurs with shift s), якщо $0\leq s\leq n-m$ і $\;T[s+1..s+m]=P[1..m]$ (іншими словами $1\leq j\leq m,T[s+j]=P[j]$ ).

Якщо зразок $\;P$ зустрічається у тексті $\;T$ зі зсувом $\;s$ , то величину $\;s$ називають допустимим зсувом (англ. valid shift); інакше її називають недопустимим зсувом (англ. invalid shift)

Задача полягає в знаходженні всіх допустимих зсувів, з якими зразок $\;P$ зустрічається у тексті $\;T$ .

Термінологія

$\;\Sigma ^{*}$ — множина всіх рядків скінченної довжини, утворенних за допомогою символів алфавіту $\;\Sigma$ . Порожній рядок $\;\varepsilon$ також належить $\;\Sigma ^{*}$ .

Довжина рядка $\;x$ позначається як $|x|\;$ . Конкатенація (об'єднання) двох рядків $\;x$ і $\;y$ записується як $\;xy$ , її довжина відповідно дорівнює $\;|x|+|y|$ . Конкатенація складається з символів рядка $\;x$ після яких записані символи рядка $\;y$ .

Приклад:

$\;x=\{abc\}$

$\;y=\{def\}$

$\;xy=\{abcdef\}$

Рядок $\;\omega$ називається префіксом рядка $\;x$ (позначається $\omega \sqsubset x$ ), якщо $\exists y\in \Sigma ^{*},x=\omega y$ . Якщо $\omega \sqsubset x$ , то $|\omega |\leq |x|$ .

Аналогічно, рядок $\;\omega$ називається суфіксом рядка $\;x$ (позначається $\omega \sqsupset x$ ), якщо $\exists y\in \Sigma ^{*},x=y\omega$ .

Пустий рядок є одночастно префіксом і суфіксом будь-якого рядка.

Відношення $\sqsubset$ і $\sqsupset$ є транзитивними.

Лема про суфікси, що перекриваються

Припустимо, що $\;x$ , $\;y$ і $\;z$ — рядки, для яких виконується співвідношення $x\sqsubset z$ і $y\sqsubset z$ . Тоді, якщо $|x|\leq |y|$ , то $x\sqsubset y$ ; якщо $|x|\geq |y|$ , то $y\sqsubset x$ . Якщо $\;|x|=|y|$ , то $\;x=y$ .

Доведення: Всі три випадки розібрані на малюнку:

Позначимо k-символьний префікс $\;P[1..k]$ зразка $\;P[1..m]$ через $\;P_{k}$ . Таким чином, $\;P_{0}=\varepsilon$ і $\;P_{m}=P=P[1..m]$ . Аналогічно через $\;T_{k}$ позначимо k-символьний префікс тексту $\;T$ .

За допомогою цих позначень, задачу пошуку рядка можна сформулювати, як задачу виявлення всіх зсувів $0\leq s\leq n-m$ , таких що, $P\sqsupset T_{s+m}$ .

Базова класифікація алгоритмів

Різноманітні алгоритми розв'язання цієї задачі можна класифікувати за кількістю зразків, що обробляються одночасно. Крім того, алгоритми мають різну складність роботи. Окремо розглядається складність передобробки (передобробка здійснюється або тільки для тексту і не залежить від зразків, або ж тільки для зразків і не залежить від тексту), і складність самого пошуку.

Алгоритми пошуку для одного зразка

Алгоритм	Складність передобробки	Складність пошуку
Примітивний алгоритм пошуку рядка	0 (без передобробки)	Θ(n m)
Алгоритм Рабіна-Карпа	Θ(m)	в середньому Θ(n+m), в найгіршому випадку Θ(n m)
Пошук за допомогою скінченного автомата	Σ\|)	Θ(n)
Алгоритм Кнута-Моріса-Прата	Θ(m)	Θ(n)
Алгоритм Бояра-Мура	Σ\|)	Ω(n/m), O(n)
Бітап алгоритм	Σ\|)	Θ(n)

Алгоритми пошуку скінченної множини зразків

Алгоритми пошуку необмеженої множини зразків

Для пошуку зразків, що утворюють нескінченну (або дуже велику) множину, користуються формальними граматиками і регулярними виразами.

Інші класифікації

Класифікація, що бере наявність переобробки, за основний критерій:

Класи алгоритмів пошуку рядку
	Текст не передобробляється	Текст передобробляється
Зразки не передобробляються	Елементарні алгоритми (англ. Elementary algorithms)	Індексуючі методи (англ. Index methods)
Зразки передобробляються	Конструктивні пошукові системи (англ. Constructed search engines)	Підписуючі методи (англ. Signature methods)

Індексуючі методи

Швидкі алгоритми пошуку використовують передобробку тексту. Входження зразка може бути швидко знайдене, якщо для тексту побудувати індекс підрядків (наприклад, суфіксне дерево чи суфіксний масив). Так, суфіксне дерево можна побудувати за час Θ(n), а всі z входжень зразка можна знайти за час O(n + z) (якщо вважати, що розмір алфавіту — константа).

Інші варіанти

Деякі алгоритми пошуку, такі як пошук тріграм, замість точного входження зразка, шукають частину тексту, що найбільш близька до зразка.

Література

Thimas H. Cormen; Charles E. Leiserson; Ronald L. Rivest; Clifford Stein. Introduction to Algorithms (2nd ed.) The MIT Press. ISBN 0-07-013151-1

Портал «Програмування»

п о р Рядки
Міри схожості рядків	Відстань Дамерау — Левенштейна Подібність Джаро — Вінклера Відстань Левенштейна Відстань Геммінга
Алгоритм пошуку рядка	Алгоритм Боєра — Мура Алгоритм Бойєра — Мура — Хорспула Алгоритм Кнута — Морріса — Пратта Алгоритм Рабіна — Карпа Префікс-функція Z-функція
Множинний пошук підрядків	Алгоритм Ахо — Корасік Алгоритм Коменц-Вальтер
Вирівнювання послідовностей	Алгоритм Нідлмана — Вунша Алгоритм Сміта — Ватермана
Строкові структури даних	Суфіксний масив Суфіксний автомат Суфіксне дерево Префіксне дерево Дерево паліндромів
Інше	Синтаксичний аналіз Зіставляння зі взірцем Пошук найдовшої спільної підпослідовності Найдовший спільний підрядок