Засоби пошуку даних в Інтернеті

Як вже говорилося вище, WWW – це система Web-сторінок, пов’язаних між собою гіперпосиланнями. Однак ці зв’язки не мають регулярності, як, наприклад, в ієрархічній структурі даних. У цьому сенсі можна говорити про те, що система Web-сторінок не структурована.
Єдиною координатою Web-документа є його URL-адресу. Однак URL-адресу ніяк не пов’язаний зі змістом документа. Але пошук даних виробляється саме за змістом. Як же він здійснюється?
У пошуку інформації в WWW користувачеві допомагає пошукова служба Інтернету. Пошукова служба заснована на послугах пошукових серверів. Існують два різновиди пошукових серверів: пошукові каталоги і пошукові покажчики.
Пошукові каталоги. Якщо вам доводилося користуватися послугами великих бібліотек, то ви знаєте, що таке бібліотечний каталог. Існують алфавітні каталоги та предметні каталоги. У алфавітних каталогах картки з бібліографічними даними книг розкладені в алфавітному порядку прізвищ авторів. У предметних каталогах картки систематизовані за змістом книг.
Систематизація в предметному каталозі проводиться за ієрархічним принципом: на першому рівні ієрархії весь книжковий фонд ділиться на великі розділи: художня література, навчальна література, суспільно-політична література, науково-технічної літератури і т.п. Кожен з цих розділів поділяється на підрозділи; наприклад, навчальна література поділяється на розділи вищої освіти, середньої освіти, дошкільної освіти. Книги для середньої освіти можуть ділитися з предметів, які, у свою чергу, діляться по класах. Щоб підібрати літературу по потрібній темі, читач повинен розуміти принцип організації каталогу.
Пошукові каталоги WWW організовані за аналогічним ієрархічним принципом. Тільки в них систематизується інформація не про книгах, а про документи, що зберігаються в World Wide Web. На головній сторінці пошукового каталогу розташовується список основних тематичних розділів (рубрик). Наприклад: фінанси та економіка, держава і право, наука і освіта, комп’ютери, політика і т. Д. Кожне ім’я в цьому списку є внутрішньою гіперпосиланням, т. Е. Посиланням на внутрішній документ сайту, пошукового каталогу. Клацання мишею на гіперпосиланні викликає на екран список заголовків наступного підрозділу і т. Д. Очевидно, що така система подібна дереву файлової системи ОС. Переміщаючись по дереву внутрішніх гіперпосилань каталогу, користувач в кінцевому підсумку отримує список зовнішніх посилань на шукані Web-документи.
Пошукові каталоги заповнюються вручну фахівцями, що підтримують дану службу. При ручному способі відбору неможливо отримати в каталозі вичерпну інформацію про ресурси Мережі, і в цьому полягає основний недолік каталогів. Однак такий спосіб класифікації виключає посилання на випадкові документи, не мають відношення до зазначеної теми. Таким чином, пошукові каталоги при відносно невеликому охопленні ресурсів Мережі забезпечують хорошу якість добірки документів.

Пошукові покажчики. Інша назва цього виду пошукової служби – пошукові машини. Дуже часто у навчальній та науковій літературі наприкінці книги присутні предметні покажчики (про них було сказано вище). Наприклад, знайдіть в предметному покажчику цього підручника з інформатики словосполучення “інформаційна система». Потім на сторінках, номери яких вказані після цього словосполучення, ви можете прочитати все, що написано про інформаційні системи.
Принцип роботи пошукових покажчиків полягає у створенні та використанні індексних списків – аналогів книжкових предметних покажчиків.
Завдання пошукових машин складаються у формуванні індексних списків, так щоб охопити ними якомога більше число документів «павутини», а також у відповідях на запити клієнтів. Ясно, що таким способом проіндексувати вручну всі документи WWW неможливо. Їх число давно перевалило за мільярд. Тому пошукові машини будують індексні списки автоматично.
Основною складовою пошукових машин є програми перегляду Web-доку ментів, які називають по-різному: роботами, черв’яками, павуками та ін. Напевно, найбільш підходящим є назва «павуки», якщо вже мережу WWW називати «павутиною»! Безперервно, вдень і вночі, вони сканують весь інформаційний простір WWW, переглядаючи всі документи, визначаючи в них ключові слова і записуючи в свою базу індексів дане слово з покажчиком на документ, в якому воно присутнє. Цей процес не переривається, оскільки зміст павутини весь час змінюється. Навіть у вже переглянуті документи автори можуть внести зміни або взагалі видалити їх. Пошукова машина весь час повинна підтримувати інформацію в актуальному стані.
Ефективність роботи пошукової машини залежить від використовуваних алгоритмів формування бази покажчиків. Ці алгоритми є інтелектуальною власністю їх авторів і зазвичай тримаються в секреті. Число покажчиків до деяких ключових словах становить багато тисяч. Чим краще алгоритм, тим менше в індексний список потрапляє «сміття» – випадкових документів, що не мають відношення до теми пошуку.
У відборі найбільш важливих документів користувачу допомагає рейтинговий принцип, використовуваний деякими пошуковими покажчиками. На запит користувача за ключовим словом система видає список посилань на документи, розташованих по зменшенням рейтингу. Рейтинг визначається за кількістю звернень до документа, які були зроблені раніше.

Посилання на основну публікацію