Качество работы поисковиков
Для оценки качества работы поисковика с запросами применяются понятия, традиционные для задач поиска информации, – полнота и точность.
Полнота поиска – это мера того, нашел ли поисковик все нужные веб-страницы, которые есть в Сети. Проще всего вычислить полноту в процентах от всех релевантных запросов страниц. Заметим, что полнота поиска не очень-το интересна обычному пользователю интернет-поисковика. Ведь в Сети всегда слишком много данных! Все равно невозможно просмотреть что 100 тыс. страниц, что 65 тыс.
А ведь поисковик показывает данные постранично – первые десять найденных страниц, потом еще десять и т.д. Большинство обычных пользователей не заглядывают дальше первой-второй страницы результатов поиска, просматривая только первые 10–20 результатов. Следовательно, не очень важно, сколько там релевантных результатов (десять тысяч, сто тысяч или миллион) осталось за пределами первых страниц результатов поиска или вообще осталось не найденными в Сети.
Поэтому основным показателем работы интернет-поисковика является его точность.
На самом деле полнота поиска очень важна, если понимать ее не как требование найти все, а как требование разнообразия "верхней" части выдачи, т.е. требование найти и показать все варианты, все типы ответов на запрос.
Например, если по запросу "дизайн" поисковик находит только релевантные документы, но все – только про дизайн сайтов, то полнота поиска явно низкая. Желательно, чтобы были также найдены страницы про другие виды дизайна – дизайн квартир, ландшафтный дизайн, полиграфический дизайн и пр. Таким образом, если поисковик находит много, но по одной теме, то пользователь получает однообразную информацию.
В последнее время, увы, это довольно обычная ситуация в поисковиках. По большинству "коммерческих" запросов невозможно получить "некоммерческие" страницы вверху списка результатов поиска – все первые десятки и даже сотни результатов поиска занимает только коммерческая выдача. Например, если сделать запрос в Яндексе или Google "цветы", то, скорее всего, вся поисковая выдача будет забита страницами с предложениями доставки цветов, причем в основном по Москве. Налицо очень малое разнообразие выдачи. Ни страницы про семена цветов, ни сведения о разведении цветов в выдачу не попадают.
Точность – это мера качества выданных результатов. Точность вычисляется как количество релевантных страниц в общем объеме того, что выдал нам поисковик.
Если, допустим, нам выдано всего 1000 страниц по запросу "очистители воздуха", а на самом деле отношение к очистителям воздуха имеют только 850 из них, то точность поиска будет равна 85%. Однако из данного примера очевидно, что на самом деле нет смысла вычислять точность по всему объему найденных страниц. Гораздо важнее порядок выдачи. А что если все 150 нерелевантных страниц из 1000 окажутся в начале выдачи? Ясно, что средний пользователь, просматривающий две первые страницы результатов поиска, сочтет такую выдачу абсолютно нерелевантной и будет прав.
Таким образом, важно не только обеспечить достаточную точность поиска, или релевантность всего объема найденных по запросу страниц, но и правильно расположить релевантные результаты в выдаче, т.е. обеспечить правильный порядок, или ранжирование, результатов поиска.
Ранжированием называется упорядочивание результатов поиска по их релевантности. Каждая поисковая машина имеют свою "формулу релевантности" для веб-страниц.
В нее входят учет наличия искомых слов па странице, учет плотности этих слов по отношению к остальным словам, наличие компактных вхождений искомого словосочетания, искомых слов в особых текстовых элементах повышенной важности (например, в заголовках) и т.д.