Пайдаланылан дебиеттер тізімі

Мден уат

Магистрант,+77759139991, m.kuat0912@gmail.com

Жаттарды “Data mining ” арылы автоматтандырылан ирархиялы филтратциялау

л-Фараби атындаы аза лтты университеті апаратты жйесін дамыту згеріп отыратын ішкі талаптара, жаа буындаы технологиялы платформаларды енгізуге сйкес жымды жмыс шін универ архивын автоматты трде анытау жне срыптауды жасау.

 

Maden Kuat

Master, +77759139991, m.kuat0912@gmail.com

Automatic system document filtering hierarchically based on static data mining technology

Al-Farabi Kazakh National University in the development of the information system of changing internal requirements, the introduction of new generation technology platforms to operate in accordance with the collective bargaining University Archive of automatic detection and sorting.    

 


 

Кіріспе

азіргі заманы Апаратты-компьютерлік технологияларды арынды дамуы, адам міріні барлы саласында кеінен олданыс табуы, Интернет желісі мен ондаы ызметтерді ке таралуы соы жылдарда апараттар жиынтыыны жылдам лаюыны, клеміні экспоненциялды артуыны негізгі себебі болуда. Бл, интернет желісі ммкіндіктеріне баытталан, дстрлі реляциялы деректер базаларынан згеше, р трлі рылымды ауымды деректерді лестірілген тйіндерде сатауа жне деу дістеріні дамуы, жинаталан, талдауды керек ететін апараттарды тез суіне алып келуде. Жинаталан мліметтерді соншалыты кптігі оны адам кшімен деуге ммкіндік бермейді рі бл делмеген мліметтерді ішінде, маызды шешімдер абылдаулара керекті апараттар бар екені аны. Сол себепті мліметтерді автоматты талдау жасау шін Data Mining-ті олдану керек болады. Data Mining – бл делмеген мліметтерден, адам ызметіні ртрлі саласында маызды шешімдер абылдауа керекті, практикалы трыда пайдалы, білімдерді байау процессі. Data Mining бадарламалы амтамасыз ететін деректерді талдау шін бір атар аналитикалы ралдарді бірі болып табылады. Ол пайдаланушылара, кптеген р трлі лшемдері немесе брыштара деректерді талдау, оны санаттау жне аныталан атынастарды орытындылауа ммкіндік береді. Техникалы, деректер жинау ірі Реляциялы ондаан деректер базасыны жиындыын арасындаы корреляция немесе лгілерін табу процесі болып табылады.


 

Негізгі блім

ХХІ aсыр aпaрaт aсыры. шан стай дамыан aзіргі зaмaндaы Интернет жйесіні aрынды дaмуы лемні кез-келген нктесінен, кез-келген aпaрaтты тaбуa ммкіндік береді. леуметті кптеген aaулы мселелері, білім беру сaлaсы, медицинa, транспорт жне бизнес т.б орындар интернет жйесіні айрылмас блігіне айналды. Осыан сйкес елімізде апаратты технологияа суранысыда жылдан жыла артуда.

Зерттеу таырыбыны зектілігі.л-фараби атындаы аза лтты университетіні архив бліміні жмысын эектронды партал рып архивтерді автоматты трде анытау, срыптауды жасау жне олданушы шін олайлы туызу .

Бірінші блімде

Электронды почтаны жмысын автоматты трде анытау жне срыптауды жасау шін келіп тскен жаттар компьютер арылы делуі ммкін кез келген фактілер, файлдар, сандар, немесе мтін болып табылады. Электронды почтадан келіп тскен мліметтерді деу мен сатау технологияларыны дамуына байланысты, р-трлі салаларда жиналан апараттарды аса мол орына тап болды. Кез келген ксіпорынны (коммерциялы, ндірістік, медициналы, ылыми жне транспорт т.б.) ызметі енді з ызметіні барлыын тіркеумен жне сатау оса жретін болды, рі мліметтерді белгілі бір мезгілде деу керек болады. Мліметтерді деуді азіргі замана сай талаптары келесідей:

 

– мліметтерді шектеусіз клемі бар болуы;

– мліметтерді ртекті (санды, сапалы, мтіндік) болып табылуы ;

– нтижелер натылы жне тсінікті болулары тиіс;

– шикі мліметтерді деуге арналан аспаптар пайдалануда арапайым болуы керек.

 

за уаыт бойы мліметтер талдауыны негізгі алы рлін атарып келген дстрлі математикалы статистика, кейінгі кезде пайда болан мселелерді шеше алмады. Басты себеп – аныталмаан шамалармен операцияларда фунционалды абілетіні болмауы. Data Mining (discovery-driven data mining) азіргі технологияларына, мліметтерді кп аспектілі зара атынастарыны зінділерін (фрагменттерін) крсететін шаблондар негіз етіп алынан. Бл шаблондар адама тсінікті трде ттас білдірілетін, мліметтерді іріктеулеріне тн задылытар болып саналады. Шаблондарды іздеу, іріктеу рылымы – талданатын крсеткіштер мндерін лестіру туралы априорлы болжамдар шеберінде шектелмеген дістермен ндіріледі.

Data Mining–ні негізгі артышылыы, іздестірілген шаблондарды, стандартты еместігі мен айын еместігі, яни табылан шаблондар жасырын білімдерді (hidden knowledge) райтын айын емес жне кездейсо (unexpected) мліметтер болуын крсетеді.

детте Data Mining дісімен айындадатын задылытарыды 5 трлі стандарты белгілінген:

– ассоцация (ауымдасты). Жоары ытималдыты, бір бірімен байланысан оиалар;

– реттілік. Жоары ытималдыты, тізбектеле байланысан, натылы мерзімдік оиалар ;

– классификация. Белгілері бар, топтарда сипатталатын оиа немесе объект;

– кластеризация. Мліметтерді деу процесінде, автоматты трде аныталатын здеріні топтары берілмеген, классификациямен сас жне одан айырмашылыы бар задылы;

– уаытша задылы. Болжам жасау шін олданылатын, динамикалы мліметтерді болуы.


 

иерархиялы кластерлеу мні лкен кластерлер немесе кішірек кластерлерді ірі дивизионда аз жйелі бірлестік болып табылады.
Иерархиялы агломерациялы дістері (агломерациялы беттеу, AGNES)
Бл топ бастапы элементтер мен кластерлерді саныны тиісті тмендеуін йлестіре отырып дйекті дістері сипатталады.
алгоритм объектілерін басында жекелеген кластерлер. алашы адам кластерде бірге е сас нысандар болып табылады. Кейінгі адамдар ксіпода за барлы нысандар бір кластері болуы ммкін емес, себебі созылады.

алгоритм объектілерін басында жекелеген кластерлер. алашы адам кластерде бірге е сас нысандар болып табылады. Кейінгі адамдар ксіпода за барлы нысандар бір кластері болуы ммкін емес, себебі созылады.

Иерархиялы divizimnye (блінетін) дістері (келіспеушіліктер талдау, DIANA)
Бл дістер агломерациялы дістерін логикалы арама-арсы болып табылады. барлы нысандар келесі адамдары туралы сол кластерді тиесілі алгоритм басында аз кластерлерді блінеді, нтижесінде блшектемей топтарды дйектілігі.

Иерархиялы кластерлік талдау дістері деректер жиынтыыны аз млшерде пайдаланылады.
иерархиялы кластерлеу дістерін артышылыы оларды кріну болып табылады.
иерархиялы кластерлік талдау нтижесі болып табылады, - ( «ааш» грек Dendron дейін) филогенетикалы ааштар рылысына байланысты иерархиялы алгоритмдері.
Дендрограмме бір-біріне жеке нктелері жне кластерлерді жаындыын сипаттайды, бірлестікті графикалы тізбегі кластерлерді (блу) болып табылады.
Дендрограмме (дендрограмме) - шоырландыру кластерлерді дйекті процесі адамдарды біріне сйкес райсысы N дегейін амтитын ааш диаграмма.
Сондай-а, ааш дендрограмме кластерлер иерархиялы ааш рылымын йлестіре ааш сызбаны деп аталады.
дендрограмме иерархиясыны трлі дегейлерде згеріп отырады заттарды топтау кірістірілген отыр.


 

Орытынды

Data Mining-ті олдану саласы шектеусіз – ол андайда бір жинаталан мліметтері бар салаларды барлыында олдануа болады. Бгінгі тада Data Mining дістеріне Data Warehousing мліметтер оймасы негізінде жобаларын жргізіп отыран коммерциялы мекемелерді зор ызыушылытарын тудыруда. рі осындай мекемелерді тжірибесі Data Mining-ті олдану 100% пайдалы екенін крсетуде. Data Mining басшылар мен аналитиктерді кнделікті ызметтерінде маызы зор, олар Data Mining дістерін олдану арылы бсекеге абілеттілікте елеулі артышылытара те болады.

Data mining - ортындылап айтында, деректер жинау(кейде деректер немесе білім ашу деп аталатын) р трлі жатан деректерді талдау жне пайдалы апарат оны жинатауды процесс болып табылады - табыс арттыру шін пайдалануа болады апарат шыындарды, немесе екеуі де кеседі.

 

Иерархиялы кластерлеу дістері р трлі кластерлер ережелер болып табылады. ережелер, олар топтарды (divizimnye дістері) салыыз тобына (агломерациялы дістері) немесе блу бiрiктiрген кезде объектілерді «састы» туралы шешім абылдау кезінде пайдаланылатын лшемдер боландытан пайдаланылады.

 

Пайдаланылан дебиеттер тізімі

1. Анализ данных и процессов: учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2009. - 512 с.: ил. + CD-ROM - (Учебная литература для вузов). ISBN 978-5-9775-0368-6

2. Популярное введение в современный анализ данных в системе STATISTICA. Учебное пособие для вузов. – М.: Горячая линия – Телеком, 2015. – 288 с., ISBN 978-5-9912-0326-5

3. Электронный учебник Statsoft.ru

4. И.Чубукова. Data Mining: Информация. http://www.intuit.ru/

5. Э.А.Вуколов. Основы статистического анализа, М.: 2008 г.