Користувач:Pavlo Shevelo/Проект «Зв'язність»/ревизия/othersections

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
<h2>поточний стан проекту</h2>
<p>Наразі вирішені наступні задачі:</p>
<ul>
 <li>Список безвихідних статей відповідно до поданого вище визначення</li>
 <li>Список статей-сиріт відповідно до поданого вище визначення</li>
 <li>Усі знайдені типи ізольованих кластерів розміром не більше заданого і ланцюги
     з таких кластерів</li>
</ul>

<p>Дещо зі знайденого по ходу справи:</p>
<ul>
 <li>Список перенаправлень на перенаправлення, котрий чомусь більш повний, ніж
     список, що збирає MediaWiki</li>
 <li>Список помилкових перенаправлень (що містять після "чарівного слова"
     незакоментований текст, що містить посилання)</li>
 <li>Статистика видів ізольованих кластерів за типами ланцюгів</li>
 <li>Дані для вибірки ізольованих статей за авторами і категоріями</li>
 <li>Поради з усиновлення ізольованих статей шляхом розв'язання посилань на сторінки
     значень, а також поради, засновані на підгляданні за інтервікі.</li>
</ul>

<h2>що не так</h2>
<p>Дуже добре працює для 300 000 статей, але для :en занадто ненажерливий щодо споживання ресурсів.</p>
<p>Для встановлення та зняття шаблонів на даний момент використовується AWB.
Ця проблема вирішиться, коли моя дурна голова вирішить задачу управління шаблонами
на perl, або, можливо, якщо більш світлі голови зроблять це за мене.</p>

<h2>сподвигайлово</h2>
<p>
Движок MediaWiki серед іншого збирає два списки: сторінки-сироти та безвихідні сторінки.
Подивимося, наскільки вони добрі.
</p>
<p>
Важливо перш за все розуміти, в чому полягає різниця між сторінками і статтями.
Сторінка - це все у головному просторі імен, що не є перенаправленням,
включаючи сторінки значень. Під статтями зазвичай ми розуміємо менше - сторінки за
винятком усіх сторінок значень.
</p>
<p>
MediaWiki вважає, що сторінка доступна за посиланнями, якщо на неї є посилання хоча б
ще з однієї сторінки. Навіть якщо це посилання з іншого простору імен (наприклад, якщо
обговорювався текст або питання про видалення цієї сторінки) або зі сторінки значень
(на котрі не повинно бути посилань, а значить сторінки значень не допомагають в підвищенні 
доступності за посиланнями).
</p>
<p>
Движок MediaWiki також не розпізнає посилання зі списків, призначених для координації
робіт і хронологічних статей. Рідко такі посилання можуть бути причиною переходу за ними.
Втім можна виробити будь-які правила по мірі підвищення вимог до якості
зв'язків.
</p>
<p>
Міркуючи про зв'язність, ми можемо цікавитися не лише сторінками-сиротами. Можливі
групи, які складаються з двох, трьох і більше статей, доступні за посиланням одна з одної, 
але не доступні зі статей, що не входять до групи. Такі статті називають ізольованими
статтями, а групи ізольованими кластерами (сильно зв'язними компонентами графа).
Кластери можуть бути доступні за посиланнями один з одного, і також можуть існувати цілі
ланцюги ізольованих кластерів, не доступні за посиланнями зі статей поза цим ланцюгом.
Движок MediaWiki не розпізнає жодних ізольованих кластерів крім сторінок-сиріт.
</p>
<p>
Схожа ситуація складається з пошуком безвихідних сторінок. Движок перевіряє лише,
чи містить стаття посилання. Куди веде це посилання MediaWiki не розпізнає, хоча це 
може бути як посилання на іншу статтю, так і посилання зі службового шаблону, 
що розповідає про проблеми на сторінці. 
Посилання на сторінки значень також враховуються.
</p>
<p>
Аналіз зв'язності статей дає авторам можливість зробити їх статті краще, привертаючи
до них увагу інших користувачів.
</p>
<p>
Ще одна причина до аналізу зв'язності - спроба вирішити цю задачу незвичайним чином, 
не вдаючись до реалізації алгоритмів на традиційних для цього мовах програмування, 
що працюють з експортованими даних. Для підвищення актуальності одержуваного аналізу 
необхідно уникати пересилання занадто великих порцій даних і запускати додаток
ближче до актуальної бази даних Вікіпедії. Таким чином, пишемо на SQL. Поки що ніхто
не робив цього на SQL. Here we go.
</p>