Alta Vista іздеу жйесі

Alta Vista – тілді анытау шін белгілі бір бетте жасанды интеллект дісін олданылады жне кілттік сздер арылы іздеу жмыстарын жргізеді. олданушылар арапайым немесе крделі тріндегі іздеу жйелірін баптау ммкіндіктері бар. Alta Vista кілттік сздерді индекстеу іздеу жйелерінен араанда, бкіл тексті индекстейді, соны нтижесінде іздеу жйесі толы амтылады. Біра, бл серінен олданушы апарат кзінде батып кетуі ммкін. Дерекор дние жзілік WWW-беттерінен жне Usenet News жаалытарынан трады. 1997 жыла араанда мазмнында отыз бір миллион WWW-беттер жне он трт мынан астам newsgroups жаалытары толыымен бар. Процедураны жеілдету шін Simple Search Help тсініктемелері бар. MMS іздеу арылы булдік операцияларын олдануа болады.

1.3-сурет - Altavista ортасы

 

Сраныс трлері

Белгілі пн аумаында іздеу машинасын одану формат секілді семантикасы р трлі болады. Сранысты іздеу аумаына байланысты максималды тура жне пайдалы болуы тиіс. Кеейтілген бір сраныстан араанда, бірнеше тар сраныстарды олданан дрыс. Жалпы жадайда р бір тезауруса жеке сраныс пакеттері дайындалады.

р трлі іздеу машиналары сраныс тілдерін оданылады. Оан мына алгебралы булдік операциялары жатады:

- and (жне) – осы оператормен байланысан барлы терминдерден іздеу жмыстары жасалады;

- or (немесе) – осы оператормен байланысан термин е болмаанда бір рет болатын текстен іздеу жмыстары жасалады;

- not (жо) – осы оператормен байланысан терминнен трмайтын текстерден іздеу жмыстары жасалады.

Араашыты операторлар кмегімен сздерді орналасу тртібі мен сздерді араашытыын шектеуге болады. Мысала:

- near – бірінші мен екінші терминдер араашытыы осы оператор арылы аныталан сз санынан аспауы тиіс;

- followed by – терминдерді орнатылан тртіп бойынша орналасуы;

- adj – терминдерді орналасуы аралас болып келеді;

- терминдерді ысарту ммкіндігі;

- тілді морфологиялы талдауы;

- сз тіркестері, фразалар бойынша іздеу ммкіндігі;

- жатты шыу кнін шектеу;

- текстегі сйкес терминдер санын шектеу;

- суреттер бойынша іздеу;

- бас жне кіші ріп сезімталдыы.

 

Файл іздеу жйесі

Жылдан жыла компьютер ырын дамып келеді. лшемі 80Мб атты дискісі та ажайып болатын заман арта алды. Технологиялы рдіс арасында апарат кзі кбейді. Аз клемі жатты іздеу иын мселеге кеп соуы ммкін. Негізгі алгоритмдер брын жазылып ойылан. Файлды іздеу жйесін екіге блінеді: сканерлік жне рдістік.

Сканер іздеу сранысын аланда дискіні аныталан тізбекті байт арылы аралай бастайды. Сканер іздеу жйелері бір ттасты, біра интерфейс жаынан ерекшеленеді. Негізгі сканерді жеткіліксіз жері бар, ол айта іздеу жргізгенде барлы файлдар айта аралады. Сканер 1-2Гб жаттар лшемінде іздеу жйесі баяу істейді.

рдістік бір кріністен индекстік базасын рады жне ол жерде андай файлда андай сздерді тапанын сатайды. Келесі іздеу индекстік база бойынша жргізіледі. Индекс ру арасында файлдарды айта деуден босатады жне олданушыны р трлі сраныстарын деуге ммкіндік береді. Индекс базаны асиеті бойынша бір рдістен екінші рдіске ауысуы ммкін, сонымен бірге индекстік файлда андай сз боланын крсетуге жне ол сзді сол файлда анша рет айталануы, сзді тексті басында ай жерде орналасуын еске сатай алады. Нтижесінде индекстік база рылымында икемді іздеу жмыстарына жасауа ммкіндік береді. Мндай жйелер Google жне Рамблерде арасытырылан.

рдістік жйені руда негізгі мселелерге тоталып кетейік. Индекс жасалатын текст рылымын зерттеу:

- морфологиялы талдау;

- сзді орташа зындыы;

- сздерді лшемі бойынша анытау;

- сздерді жиілігі;

Индекс базаны анытау:

- файлда сз жалауыны болуы;

- сзді файлда айталану есептеуіші;

- кездескен сзді орналасу жиынтыынан массив трызу;

- сзді маынасыны ерекшеліктері;

- лексика;

Сздерді морфологиялы талдауы р трлі болады. Жаа сздер ру шін суффикс жне кптеген осымшалар арылы жасалады. Яни сздік индексіні лкеюіне кеп соады.

Морфологиялы талдаудан сздік рылан со сзді орташа зындыы 200-300 файлдар талдауы оай есептеледі. арапайым компьютерде жалпы сзді орташа лшемі шамамен сегіз байт болады. Сз аншалыты зын болса, соншалыты жиі кездеседі. Мысала 1.1 кестеде крсетілгендей, 16 байт сзді кездесу шамасы бір проценттен тмен.

 

Кесте-1.1 - Сзді кездесу жиілгіні процент шамасы

Сзді зындыы, байт 2-4
% блігі 0,8 1% тмен

 

Сздіктер шамамен 50000-100000 сздерден трады. Дарынды жазушы 10000-15000 сздерді олданса, арапайым адам кнделікті мірде 2000-4000 сздерді олданылады. Яни, сздерді олдануына байланысты жиілігі р трлі болады, сйкесінше р трлі файлдарда сздерді кездесуі де р трлі болады. Мысала келтірілген 1.2 кестеде файлдардаы сзді кездесу жиілігін баылауа болады.

 

Кесте-1.2 - Файлдарда сзді кездесу жиілігі

Файларда 530 сзді кездесуі Сздер саны
128-ден кп
64-тен кп
16-дан кп
4-тен кп
1 - 4

 

 

Крсетілген 1.2 кестедегі 256 файлдардан іздеу жргізілген нтижеден 80 % сз тек 1-4 рет ана кездесетінін круге болады. Осындай жолмен сзді жиілігін, компьютерді еске сатау абілетілігін минимизациялау ажет. рылымды анытау шін саталынан мліметтерді анытау ажет.

Индекстік базаа осылан апарат туралы айтып кеткен жн. Файлда жалауды болуы арапайым жадай. Индексацияны кмегімен біз ай файлда сзді табыланын анытаумыза болады.

Логикалы операцияны туралы ойлап, іздеу рдісті осалы екі сзден іздеуге болады. Соны нтижесінде сздер кездесетін файлдар жиынтыын аламыз. Біра ол шін сол файлдаы есептеуішті айталау арылы жасау керек. Сонымен атар, жатты беделдегейін баалау ммкіндігі бар, яни белгілі бір жатта сз баса жаттардан араанда кбірек кездесе, онда ол табылан жиынтыында бірінші болып шыады. жатты беделдегейін енгізгенде кптеген нсаулар болуы ммкін: жиілікті орнату ммкіндігі, жатты басында жаын болуы, сз андай ріптен басталады жне баса кптеген нсауларды олданушыны сраныстарын анаатандыру шін жасау керек.

Кездескен сзді орналасу жиынтыыны дісі беделдегей жне жалау дістерінен араанда лдеайда алдыда. Файлда сзді орналасуын сатап, біз фраза бойынша сранысты дей аламыз. Мндай индекс инверторлы файл деп аталады, дегенмен сздерді мазмны ретпен орналасан, арапайым шыыстан салыстыранда, сз табылан жерде р бір сзге орналасан орныны номерінен трады. Басты ріптер мен белгілер туралы осымша апаратты сатайтын болса, онда біз индекс кмегімен жоалып бара жатан жаттарды алпына келтіре аламыз.

Саталынан апарат тріне байланысты индекстік база клеміне кіл аударайы, программалаушыны шеберлігіне байланысты апаратты ммкіндігінше ысарту керек. Айтылып кеткендей сзді орташа зындыы 8 байт, ал оны сатауа 16 байт берсек, шамамен орташа 8 байт бекерге жоалып кетеді. Крген жаттарда индекстік базаны процент клемі 1.3 кестеде крсетілген.

 

Кесте-1.3 - Индекс базасыны клемі

Индекс база трі Индекс клемі, %
Жалау 3-5
Беделдегей 6-15
Орын жиынтыы Минимум 30-50

 

Соы индекс база трін интернет желісінде олданылады, оны кмегімен керек болса жоалып кеткен жатты алпына келтіру, ал баса жаынан араса олданушылар сраныстарын деуге ммкіндік бар жне табылан жаттарды беделдегейін баалауа болады. Біра бл жйе арапайым олданушы техникасынан араанда баса техникада жмыс істейді. Ол жерде оншаты терабайт клемінде саталынатын техникалары болады. арапайым компьютерде индекстік база шін бос гигабайт блу иын. Осыан байланысты жалау немесе болмай бара жатса беделдегей дістерін олданан дрыс.

Апаратты жйеге ойылатын талаптар

Апаратты жйе (АЖ) – бл олданушылара оларды сраныстарына сйкес трде апаратты жинау, сатау, іздеу, деу жне жеткізу шін арналан. АЖ бадарламалы ралдар кешенінен шешілетін есептерді зіне осады. олданушы шін жйе ыайлы жне жасы интерфейске жне санкцияланбаан рекеттерден орауа ие болуы ажет.

АЖ рылымы – бл ішкі жазыты-уаытты байланыстарды траты тртібі жне элементтер мен ішкі жйе блімдеріні арасындаы атынасы, ішкі жйені атаратын ызметтерді аныталуы жне сырты ортамен зара байланысы.

АЖ жабдытаушы жне функционалды блімдерден трады. Жабдытаушы блімі – бл есептерді жне есептер комплексіні немесе ішкі жйелеріні жиынтыы, бл басаруды маызды блігін райды.

Апаратты жйе трызу масаты,ол фирма менеджеріні жмысын автоматтардыру. Бл жйені автоматтандыруда бізге бірнеше талаптарды орындау ажет. Бл талаптар мыналар:

- Апаратты жйелер ресурстарына ойылатын талаптар

- Апаратты жабдытауа ойылатын талаптар.

- Математикалы жабдытауа ойылатын талаптар

- Лингвистикалы жабдытауа ойылатын талаптар.

- Программалы жабдытауа ойылатын талаптар.

- Эргономикалы жабдытауа ойылатын талаптар.

- йымдастырумен жабдытауа ойылатын талаптар.