IV Разработать библиотеку морфологического анализа

Задания, альтернативные лабораторным работам, для групп 5-78-5,6

I Загрузка и парсинг словарей из Интернета

Парсинг морфемно-орфографического словаря

http://slovari.yandex.ru/~книги/Морфемно-орфографический%20словарь

Задачи:

1) выгрузить весь словарь;

2) сохранить в таблицу: id, слово, состав слова, комментарий, происхождение (ссылка на слово, от которого происходит текущее). Именование полей по усмотрению создателя БД. Состав слова - это формула вида Про/стил/а!/ть;

3) сохранить ударение в слове, заменив символ ударения восклицательным знаком.

Особые случаи:

1) Простилать(ся) Про/стил/а/ть(ся). Необходимо разбить на два слова: простилать и простилаться.

2) Простлать Про/стл/а/ть и про/стел/и/ть, про/стел/ю, про/стел/ет. Разбить на 4 слова (4 записи). Если состав слова отличается от слова, то слово создать по составу. Если это слово уже присутствует в базе, то добавлять не нужно.

3) Простой 1 Прост/ой¹ (не сложный). Простой 2 Про/стой/² (вынужденное бездействие). Убрать цифры. То, что указано в скобках, отнести к комментариям.

4) Простойный Про/стой/н/ый (от про/стой/²). То, что в скобках, отнести в колонку происхождение, указав id слова, от которого происходит текущее.

5) Простирывать(ся) Про/стир/ыва/ть(ся) [от про/стир/а/ть¹]. По аналогии с 4-м случаем.

6) Простодушие Прост/о/душ/и/е [й/э]. То, что в квадратных скобках, не учитывать - удалить.

7) Простереть(ся) Простер/е/ть(ся), простр/ёт(ся) прош. простёр(ся). Разбить на пары, учитывая, что е и ё разные буквы.

 

II Разработать и заполнить базу данных имен собственных

Атрибуты сущностей указанных ниже БД подсмотреть в Wikipedia. БД должны отражать максимум сведений об объектах, включая изображения (флаги, гербы, схемы, картинки животных, например) и аудио (гимны, например).

 

БД имен собственных политической карты мира.

Должны быть предусмотрены сущности: материк, страна, столица страны, территориальное деление (субъекты), столица субъекта.

Дальше к ним добавятся экономические показатели.

БД географических водных объектов.

Сущности: океаны, моря, проливы, заливы, реки, озера, водопады и прочие водоемы.

БД названий городов и населенных пунктов.

1) Россия;

2) Европа;

3) Северная америка;

4) Южная америка;

5) Весь восток, исключая Африку и Россию;

6) Африка;

7) Австралия и все оставшиеся островные государства.

5. БД оронимов (названия поднятых форм рельефа (гор, хребтов, возвышенностей, вершин, холмов, вулканов)) и прочих названий географических объектов (плато, равнины, пустыни и т.д.).

БД учебных заведений России.

БД российских литературных произведений и их авторов.

БД автомобилей и их марок.

БД Животный мир (фауна).

БД Растения (флора).

БД лекарств и лекарственных препаратов.

БД торговых марок (Российских и мировых).

БД ... можно предложить свои варианты.

 

 

III По указанным в таблице правилам разработать программу для склонения имен собственных личных (имя и фамилия)

 

Фрагмент таблицы правил склонения:

Соответственно будет база данных имен собственных личных.

IV Разработать библиотеку морфологического анализа

По аналогии с http://macrocosm.narod.ru/lingvo.html разработать БД и программу морфологического анализа на основе морфологического словаря Зализняка. Основное отличие от библиотеки MCR.dll будет заключаться в возможности пополнения БД.

В качестве аналога можно также взять phpMorphy http://phpmorphy.sourceforge.net/dokuwiki/

 

!Все структуры баз данных (сущности, их атрибуты, связи) должны быть проработаны со мной!