Поисковые системы Интернет
Поисковая система - это сервис, предназначенный для нахождения информации в Интернете с автоматическим занесением информации в собственную базу данных.
Современные поисковые системы имеют многоуровневую организацию, и в основе своей все они состоят из пяти программных компонентов:
· Spider (паук) — это браузероподобная программа- робот, которая планомерно путешествует по Сети 24 часа в сутки и «скачивает» все попавшиеся ей на пути Web-узлы (страницы по глобальным URL-ссылкам). По сути, Spider работает точно так же, как и любой Web-браузер, только ничего не визуализирует, а лишь считывает HTML-код;
· Crawler (сборщик, или путешествующий паук) — это порождаемый Spider'ом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Как и Spider, сборщик тоже скачивает страницы, но уже способен их анализировать в поисках перекрестных ссылок. Собственно, его основные задачи — сканирование Интернет-ресурсов в поисках изменений на страницах и определение того, куда он должен идти дальше, основываясь на найденных ссылках или исходя из заранее заданного списка адресов;
· Indexer (индексатор) — ключевая программа поисковой системы, которая анализирует Web-страницы, скачанные пауками, определяет их тематическую принадлежность, актуальность, популярность у пользователей и т.д. Индексатор разбирает страницу на части и анализирует такие ее элементы, как заголовки страниц, ссылки, тексты, структурные элементы, стилевые элементы и т.д. По окончании анализа он индексирует ресурсы, то есть строит базы данных по ключевым словам и сохраняет эти базы данных в удобном для поиска виде;
· Database (база данных) — хранилище скачанных и обработанных индексатором страниц. Такая база данных требует огромных ресурсов для хранения информациии нуждается в эффективных алгоритмахдоступа;
· Gateway (шлюз) или Search engine/Resultsengine (собственно поисковая машина) принимает запросы от пользователей, анализирует их и извлекает результаты поиска из базы данных. Именно эта система решает, какие страницы удовлетворяют запросу пользователя, и предоставляет ему интерфейс для просмотра и уточнения этих результатов.
Наиболее популярными поисковыми системами в настоящее являются поисковые системы GOOGLE.COM, YAHOO.COM, а также российские RAMBLER.RU, YANDEX.RU, MAIL.RU и др.
Рынок поисковых систем каждый год демонстрирует устойчивый рост. По данным, доходы всех систем поиска информации в Интернете в 2005 году составили $9 млрд. В среднем рынок растет на 100% в год. Самым успешным мировым поисковиком является Google. Эта система за пять лет смогла завоевать более половины рынка поиска и потеснить с него таких гигантов прошлого, как Yahoo!, AltaVista и Lycos. Сегодня Google переведен на 90 мировых языков. Каждый день поисковик обрабатывает более 200 млн запросов и 6 млрд. страниц.
для самостоятельного изучения:
ПРОТОКОЛЫ прикЛАДНОГО УРОВНЯ: WWW (HTTP), элетронноЙ почты POP3 – SMTP, FTP, NNTP, TELNET, IP- телефония
|
|