ОСНОВНІ ПРИЙОМИ ПОШУКУ ІНФОРМАЦІЇ В ІНТЕРНЕТІ

ЗАСОБИ ПОШУКУ

Засоби пошуку файлів

Пошук файлу вручну в складній структурі каталогів ftp-сервера може зайняти досить багато часу. Для спрощення і прискорення пошуку була розроблена пошукова служба Інтернету Archie, що представляє собою спеціальні Archie-сервера, що зберігають зміст каталогів анонімних ftp-серверів. При зверненні з пошуковим запитом на Archie-сервер результатом пошуку є список адрес анонімних ftp-серверів, на яких є шуканий файл.

Але виникає завдання відшукати серед безлічі файлів цього сервера шуканий, що досить складно через маловиразні і незрозумілих імен файлів і каталогів. Для вирішення цієї проблеми використовується система Gopher, що дозволяє переміщатися по системі контекстних меню, що показують вміст фай лов з використанням понятих позначень. Існує дуже багато Gopher-серверів, які містять архіви даних у вигляді ієрархічно структурованих каталогів, упорядкованих за змістом. Робота з ними дуже проста і відповідає роботі зі звичайним відображенням файлової системи.

Існує розширення цієї системи - Veronica, яке містить у своїй базі даних каталоги всіх Gopher-серверів. Після введення пошукового запиту Veronica автоматично переглядає всі Gopher-каталоги на наявність шуканої інформації і тим самим позбавляє від довгого пошуку вручну з багатьох Gopher-серверів.

З таким способом навігації Gopher певною мірою був попередником WWW. У даний час застосування Gopher зменшується пропорційно росту використання WWW.

1.2 Кошти WWW - World Wide Web (Всесвітня мережа)

У 1993 році була розроблена інформаційно-пошукова система WWW, яка завдяки простоті навігації та доступності відкрила інформаційні джерела Інтернету непідготовленим користувачам. WWW викликав бум у мережі Інтернет, який триває по теперішній час, та обсяги доступної інформації Інтернету щороку подвоюються.

WWW грунтується на принципі гіпертексту (вже знайомого читачеві), тобто на системі документів, пов'язаних гіперпосиланнями. Гіпертекст є ключові Слова, особливим чином виділені із звичайного тексту. Гіпертекстові посилання відправляють користувача на інші документи того ж сервера або на інші сервера, які можуть розташовуватися в будь-якому місці Інтернету. Якщо цей текстовий документ теж гіпертекстовий, то його посилання дозволяють перейти далі на відповідні документи. Кожна переадресація відбувається для користувача непомітно, так що він може переглядати інформаційний склад Інтернету але змістовному принципом, не піклуючись про адресації конкретних комп'ютерів.

З розвитком мультимедійних додатків спочатку чисто гіпертекстові документи все більше і більше стають гіпермедійним. Таким чином, WWW-документи можуть існувати в будь-якому форматі даних: текст, графіка, звук / музика чи відеокліп. Орієнтація і навігація у Всесвітній мережі відбуваються з використанням спеціальних програм, званих WWW-браузерами, що забезпечують користувальницький інтерфейс, як, наприклад, Netscape Navigator або Microsoft Internet Explorer.

Відправною точкою пошуку інформації служить, як правило, основна (базова, домашня) сторінка (сайт) інформаційного ресурсу, якої можна досягти, запровадивши відповідну адресу у браузері (наприклад, http://ncpi.gov.by або www.iparegistr.com) . WWW-сайти створюються і оновлюються фірмами або спеціальними організаціями, що публікують інформацію і стежать за змістом своїх WWW-сторінок. Використання WWW, таким чином, не є пасивним, і кожен користувач Інтернету за допомогою спеціальних програм-редакторів гіпертексту може самостійно створювати власні інтерактивні WWW-сторінки. Це і відкрило шлях для зростаючої комерціалізації та розширення Інтернету.

В даний час знову створювана інформація, як правило, виготовляється з урахуванням необхідності забезпечення WWW-доступу, а більш ранні документи поступово перетворюються під нього, проте у всьому світі існують ще мільйони файлів у форм відмінних від вимог WWW. Для використання цієї інформації й через WWW в браузери включені вищеописані служби Інтернету, що забезпечують доступ до неї (telnet, ftp, Archie, Gopher). Через WWW можна використовувати й інші служби Інтернету, які призначені для спілкування (eMail, NetNews). Тому WWW-браузер став в даний час універсальної комунікаційної програмою Інтернету.

З появою WWW-служби і почався бум в мережі Інтернет. Завдяки цій простій у застосуванні і єдиної для всіх служб для користувача середовищі Інтернет зацікавив безліч людей і організацій. Виявилося раптом, що не треба бути фахівцем в області Інтернету, щоб користуватися службами мережі. Це можна порівняти з успіхом фірми Microsoft, пов'язаних з випуском Microsoft Windows як графічної користувача оболонки. До появи Windows у кожного DOS-додатки було власне керівництво користувача і тим самим було потрібно окремо вивчати кожен додаток.

ОСНОВНІ ПРИЙОМИ ПОШУКУ ІНФОРМАЦІЇ В ІНТЕРНЕТІ

Основні вимоги до пошуку

До результатів пошуку пред'являються вимоги повноти охоплення ресурсів, достовірності отриманої інформації, мінімальних витрат часу і максимальна швидкість пошуку.

Вимога повноти охоплення ресурсів не потребує додаткових поясненнях, за винятком необхідності використовувати при пошуку ресурси не тільки WWW, але й інших служб Інтернету.

Достовірність інформації, враховуючи природу Інтернету, стає надзвичайно важливою вимогою. Оцінка достовірності може здійснюватися як традиційними методами (перевірка легальності публікацій на паперових носіях, отримання відомостей про організації та авторів, з'ясування насправді їх електронних ресурсів тощо), так і з використанням можливостей Інтернету (ознайомлення з альтернативними джерелами інформації, звіряння фактичної матеріалу , встановлення частоти його використання іншими джерелами; з'ясування статусу документа та рейтингу джерела засобами пошукових систем, отримання інформації про компетентність та статус автора матеріалу за допомогою спеціальних пошукових сервісів Інтернету; аналіз окремих елементів організації сайту з метою оцінки кваліфікації підтримують його фахівців та інше).

Час пошуку, не рахуючи витрат часу, пов'язаних з технічними характеристиками підключення, в основному залежить від планування пошуку та навичок роботи фахівця з пошуку з ресурсом вибраного типу. Планування пошуку полягає у визначенні необхідних для вирішення пошукового вимоги пошукових служб та порядку їх застосування. Крім того, багато залежить від навичок і досвіду конкретного фахівця з пошуку.

Як вже зазначалося, інформація в Інтернеті доступна з джерел різного типу. Перш за все - це WWW-ресурси (гіпертекстова система, каталоги ресурсів, пошукові машини). Крім того, це вже відомі читачеві електронна пошта, поштові роботи, Usenet і інші телеконференції, а також ftp-системи та архіви (із застосуванням Gopher і Veronica). WWW дозволяє здійснювати пошук необхідних ресурсів на основі своїх гіперсвойств, тобто наявні пошукові системипрацюють з використанням гіперпосилань в автоматичному режимі, не виключаючи можливості ручного перегляду. У WWW є цілий ряд пошукових сервісів як загального, так і спеціалізованого призначення.

Каталоги ресурсів являють собою бази даних з адресами ресурсів Інтернету й самими різними тематиками. Зазвичай вони мають ієрархічну структуру, звичну для користувача, і деякі засоби пошуку по ній. Ці каталоги в більшій своїй частині обслуговуються фахівцями з класифікації, тобто зумовлюється певний суб'єктивний підхід до відбору інформації, який, з одного боку, кілька гарантує достовірність інформації, але з іншого - зумовлює можливість відсутності (пропуску) частини інформації, а також се запізніле розміщення в каталозі.

Пошукові машини - це механізм автоматичної побудови посилань (індексів) на різні ресурси. Пошукові машини можуть бути орієнтовані на глобальні, спеціалізовані або локальні ресурси. По суті вони є потужними ІПС, які за допомогою спеціальних програм-роботів (так званих "павуків") постійно здійснюють автоматичний пошук необхідної інформації в Інтернеті. Створені на цій основі спеціалізовані БД забезпечують пошук інформації за запитами користувачів на основі спеціальних ІПМ. Щоправда, охоплення переглядається інформації залежить від застосовуваних алгоритмів і навіть для потужних пошукових машин залишає бажати кращого.

Електронна пошта застосовується в Інтернеті і в WWW. Адреси при цьому потрапляють у пошукові системи і доступні пошукових машин.

Поштові роботи - це спеціальні програми, здатні відповідати певними діями на команди, що надходять їм, але електронною поштою. Їх основне призначення - пересилання даних за запитом у разі, коли ті недоступні іншим способом, а також як альтернатива роботи в режимі online з будь-яким з відомих ресурсів, наприклад ftp-архівами. Адреса поштового робота має формат електронної пошти. При пошуку поштові роботи зазвичай використовуються лише як посередники при отриманні інформації. Іноді доводиться стикатися з тим, що вони виявляються єдиним засобом отримання потрібних відомостей.

Usenet і інші регіональні і спеціалізовані телеконференції представляють собою електронні "дошки оголошень", де користувач розміщує свою інформацію в одній з тематичних груп новин, переданих передплатникам відповідної тематики. Цей ресурс найбільш значущий для швидкого накопичення інформації, але вузькому питання, а для пошуку - частіше для отримання приватної, неофіційної інформації.

Ресурси, доступні за telnet, в ряді випадків являють собою абсолютно унікальну інформацію, перш за всією по бібліотечних каталогів європейських і американських університетів, а також державних установ.

Як вже зазначалося, система файлових архівів ftp має досить великі ресурси цінної інформації, до цих пір не переведеної в WWW. Архіви ftp представляють собою в першу чергу джерела отримання програмного забезпечення. Пошук в них може становити певний інтерес при знанні структури архівів; побудови файлових систем, імен файлів і тек, що містять необхідні ресурси.