Пошуковий робот
Пошуковий робот (також англ. web crawler, англ. web spider) — програма для краулінгу, тобто збору контенту в інтернеті. Є складовою частиною пошукової системи та призначена для перегляду сторінок інтернету з метою введення інформації про них до бази даних.
Пошукові роботи завантажують сторінки, зберігають їх зміст, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.
- За допомогою файла robots.txt
- За допомогою мета-тегу
Краулінг (сканування, англ. crawling) — це процес сканування сайту автоматизованою системою. Сканування – початковий етап, дані збираються для подальшої внутрішньої обробки(побудова індексів) та не відображаються в результатах пошуку. Просканована сторінка не обов’язково є проіндексованою. У пошукової системи ресурси обмежені, а алгоритми краулінгу допоможуть оптимізувати процес: щоб для кожного сайту виділялася необхідна кількість «потужності», щоб успішно його індексувати.
- швидка індексація;
- швидка переіндексація (якщо відбулися зміни з документом);
- якісні індекси (щоб в індекси потрапляли лише якісні документи, не потрапляв малоінформативний контент);
Краулінговий бюджет потрібен лише для сайтів з великим об’ємом інформації (від 100 сторінок). Адже маленькі сайти пошукова система проіндексує за відносно малу кількість часу (неділя, місяць). Також краулінг використовується для сайтів, що часто змінюються.
- Швидкість віддачі, розмір документу;
- Об’єм сайту;
- Якість контенту (недопустима наявність малоінформативних сторінок);
- Коди статусів (якщо не 200/304);
- Відвідуваність сайту;
- Виділення IP-адреси;
- Популярність посилань (кількість, авторитетність посилань необхідні для пришвидшення індексації).
Для того, щоб подивитися на сайт очима краулера, потрібно вимкнути обробку JavaScript
Є декілька способів (на Google Chrome):
- Вимкнути через консоль розробника(F12)
- Використання інструменту «Подивитися як Googlebot»
- Спеціальне програмне забезпечення (http://pr-cy.ru/simulator/ [Архівовано 18 грудня 2017 у Wayback Machine.], https://netpeaksoftware.com/ru/spider [Архівовано 15 січня 2018 у Wayback Machine.] та інші).
Crawljax: Crawling Ajax-based Web Applications - це Java-інструмент з відкритим кодом, що дозволить протестувати ваш web – додаток фактично імітуючи користувача по браузингу сайту. Crawljax може досліджувати сайт, що використовує технологію ajax, при цьому автоматично створюючи динамічний граф станів DOM.
В основу Crawljax покладено дослідження 2007 р. Алі Мешбаха та Арі Ван Дрьосена. Основна ідея була закладена в їх спільній праці «Exposing the Hidden-WebInduced by Ajax», в якій вони показали як динамічний сайт, що використовує технологію ajax, може бути представлений у вигляді графа статичних станів DOM та переходів між ними.
Пізніше ця робота використовувалася для створення алгоритмів для пошукових систем, що давали б змогу їм краулити та аналізувати зміст динамічних web-додатків.
В кінці роботи Crawljax формує html-репорт, що містить граф станів та переходів по сайту, статистику щодо своєї роботи, список відвідуваних url-ів та детальну інформацію щодо кожного стану, в який може переходити DOM.
Також використовують платформу Node.js і т.і..
- A History of Search Engines (англ.)
- Najork, Marc; Heydon, Allan. High-Performance Web Crawling (PDF). Процитовано 22 травня 2024.
- Barone, Adileo (17 липня 2023). adileo/MicroFrontier.
Це незавершена стаття про Інтернет. Ви можете допомогти проєкту, виправивши або дописавши її. |