Информационное построение текста 2 страница

5.5. Измерение смысловой информации, содержащейся

В означаемом знака

Смысловая информация, заложенная в денотате, десигнате и коннотате морфемы, с/ф или с/с оценивается через коллективное уга-дывание с помощью следующего приема. Пусть имеется текст, пред-ставляющий собой цепочку слов W, W₂, W₃, . . ., W_k,. и необходимо оценить количество информации, содержащееся в слове W (на рис. 17 таким словом является японец). Для решения этой задачи проводится коллективное угадывание сегмента текста W₂¸ W_k. (им является в нашем случае сегмент кричит. Первый раз коллективу сообщается слово W, например, японец, стоящее перед контрольным сегментом кричит. Второй раз угадывание начинается пря-

H=I bits

я п о н е ц# к р и ч и т #

Рис.17. Синтактическая и смысловая информация в русском

предложении.

- суммарная синтактическая информация

- информация, снятая значением слова японец

мо со слова W₂. Между обоими угадываниями должно, разумеется, прой-ти достаточно времени, чтобы испытуемые забыли содержание текста. Угадывания можно также проводить в двух разных, но идентичных по тезаурусу и по ЛК коллективах. Естественно, что оба угадывания дадут разные результаты.

Получаемая в первом случае от контрольного сегмента информа-ция I(W₂¸ W_k) = H(W₂¸ W_k) bits будет больше информации 1(W₂¸ W_k /W)= = Н (W₂¸ W_k / W) bits, полученной при условии, что испытуемым было известно слово W. Разность И (W) = I (W₂¸ W_k) - I(W₂¸ W_k / W) представляет собой количественную оценку той смысловойинформа-ции, которая содержится в слове W. Именно эта информация уменьши-ла неопределенность контрольного сегмента и облегчило второе уга-дывание. Чтобы проводить строгое сопоставление оценок смысловых информаций по разным словам внутри одного языка и по одному сло-ву для разных языков, а также количественно сравнивать ту информа-цию, которую извлекают из лексики представители разных образова-тельных групп, носители языка и иностранцы, необходимо иметь усре-дненные оценки смысловой информации. Чтобы решить эту задачу В.И.Богодист [11.С. 8-13] провел обширный эксперимент с более чем 500 носителями французского языка и русскими студентами, обуча-ющимися на факультете французского языка педагогического уни-верситета. Он показал, что такие данные можно получить для каждой лексической единицы, усредняя оценки смысловой информации, по-лученные для нее из разных контекстов. Аналогичные данные от более чем 3500 русских носителей получили В.Н.Пестунова и Р.Г.Пиотров-ский. С.В.Райтар провела такой же эксперимент с 800 студентами-эстонцами, Х.Ц.Георгиев опросил 300 болгарских студентов [12], а Д.А.Байтанаева и К.Б.Бектаев провели смысловое угадывание с 900 студентами-казахами [7]. Часть экспериментальных данных показана в табл. 18. Результаты измерения смысловой информации (И), содер-жащейся в лексических единицах четырех языков, дают возможность сделать следующие выводы.

1. В величинах И суммируется семантическая информация с ее лексической и грамматической разновидностями, коннотативная, сигматическая и прагматическая информации, а также количественные оценки валентных связей исследуемого слова или словосочетания.

2. Как и следовало ожидать, в аналитических языках (француз-ском и болгарском) словоформа обычно несет меньше смысловой ин-форма-ции, чем это имеет место в синтетических (флективном рус-ском и агглютинирующем эстонском) языках.

Таблица 18.

Семантическая информация внетекстовых с/ф (в битах) в четырех языках

Русский	Французкий	Болгарский	Эстонский
Слово(W_i)	И	W_i	И	W_i	И	W_i	И
Класс	18,33	La classe	9,26			klass	18,29
Эксплуатация-	19,84	L’exploita- tion	12,1			ekspluatee-rimine	17,14
Правительство	13,56	Le gou-vernement	5,44	Прави-телст-вото	17,74	Valitsus	17,10
Народ	8,55	Le peuple	6,83			Rahvas	17,63
Президент	8,44	Le président	7,50	Предсе-дателят	6,72	President	12,69
Государство	17,66	L’état	7,02			Riik	20,63
Печать	15,74			Печатът	4,85
Усреднённые оценки	14,12		7,63		9,77		17,21

3. Количество смысловой информации, извлекаемой испыту-емым из слова, зависит от богатства его тезауруса и лингвистической компетенции. Так, французкие преподаватели лицеев извлекают из слов в полтора раза больше информации, чем их ученики. Анна-логичные результаты пока-зывают и русские информанты. Студенты педагогических университетов извлекают из словоформы в среднем 11,36 дв.ед., в то время как учащиеся техникумов только 9,75 дв.ед. Сходные данные от угадывания русских финансово-экономических текстов получили П.Б.Невельский и М.Д.Розенбаум [53, c. 140 ].

4. Результаты описанного эксперимента могут быть использова-ны для описания динамики роста лингвистической компетенции и те-зауруса у учащихся относительно изучаемого иностранного языка (табл. 14) и учтены при построении лингвистических автоматов (см. главы 6 – 8).

5.6. Смысловая информация контекста.

Если средняя длина слова в данном языке равна lбукв, то макси-мальное количество синтактической информации, передаваемой таким словом, будет равно I(W₀) = lI₀ = lH₀. В действительности слово несет гораздо меньше информации, что обусловлено разного вида дистрибути-вно-статистическими и семантико-статистическими ограничениями. С помощью описанных в разделах 5.1.1 и 5.5 приемов можно определить количество синтак-тической информации, приходящееся на слово средней длины, взятое вне контекста, т. е. I(W), и в контексте, т. е. I (W_h) = lI_¥ = lH_¥. Тогдаобщая сум-ма контекстных ограничений, накладывающихся на слово в тексте, составит K(W_h) = I(W₀) – I(W_h) битов. Эти ограничения включают информацию, кото-рая характеризует вероятностную дистри-буцию букв и слогов, а также ту син-тактическую информацию, которая оценивает среднюю величину смысловой информации, содержащейся в лексико-грамматических связях предшествующего фрагмента W ÷ W_h- со

Таблица 19

Контекстные ограничения (в битах) и показатели аналитизма (%%)

для пяти языков

Информационные величины	Англий-ский	Русский	Франц-узский	Румын-ский	Казах-ский
I(W₀)	25,97	31,85	25,23	27,07	37,95
I(W)	12,59	13,50	10,88	13,02	18,04
I(W_h)	5,41	8,15	6,46	7,77	13,69
K(W_h^т)	7,18	5,35	4,42	5,25	4,35
K(W_h)	20,56	23,70	18,77	19,30	24,26
A₁	35,00	22,57	23,55	27,01	17,93
A₂*	67,66	31,53	56,39	39,93	32,48

.* Для испанского языка A₂= 56,03.

словоформой W_h. Последняя информация, опреде-ляющая прагматическую лексико-грамматическую, коннотативную и прагматическую предсказуе-мость слова W_h , может быть получена из равенства K(W_h^т)=I(W)-I(W_h) битов, поскольку, уже начиная со второго слова, угадываниетекста осуществляется с опорой на полученную ранее смысловую инфор-мацию. Доля смысловых связей (т.е. ограничений) в контексте относитель-но всей суммы ограничений в текстовом слове определяется из выражения

A₁ = [K(W_h^т) / K(W_h)] 100%,

которое может служить оценкой аналитичности языка. Проверить досто-верность полученных данных можно путем сравнения оценок A₁ с вели-чинами коэффициента аналитичности A₂ для указанных языков, получен-ных независимо от описываемого эксперимента из выражения A₂ = L/V, где L – число с/ф, а V – количество породивших их слов в достаточно пред-ставительной выборке текста. Все перечисленные оценки даны в табл. 19. Cопоставление величин A₁ и A₂показывает, что в целом они отражают традиционные представления о степени аналитичности рассматриваемых языков. Это позволяет говорить о достоверности наших количественных оценок аналитизма, полученных с помощью информационных измерений.

5.7. Информационные оценки морфологии

Используя приемы перегруппировки результатов угадывания, можно измерить ту грамматическую информацию, которая содержится, во-первых, в суффиксах, внутренних и внешних флексиях знаменательных слов, которую будем называть морфологической информацией (МорфИ), во-вторых в слу-жебных словах. МорфИ оценивается через суммы синтактических информа-ций, падающих на каждую буквенную позицию названных грамматических аффиксов. С этой целью все буквенные позиции и находящиеся на них буквы

Таблица 20. Морфологическая информация (МорфИ),в битах

и % на слово в трех языках

Язык	Инфор-мация на внетексто-вое слово (ВТС)	Инфор-мация на текс-товое слово (ТС)	МорфИ на внетексто-вое слово _ (I_gr^d)в битах и в % к _ I(ВТС)	МорфИ на текстовое слово _ (I_gr^t)в битах и % к_ I(ВТС)	МорфИ, снятая кон- текстом _ _ (I_gr^d- I_gr^t) в битах и в % к _ I(ВТС)
Англий- ский	12,60	5,40	0,79 (6,3%)	0,18 (3,5%)	0,60 (79,4%)
Рус-ский	13,50	8,15	2,30 (17,0%)	0,70 (8,6%)	1,60 (69,6%)
Францу-зский	11,77	6,45	2,59 (22,0%)	0,88 (16,0%)	1,71 (66,0%)
Румын- ский	13,00	7,77	2,99 (23,0%)	1,01 (13,0%)	1,91 63,9%)

группируются в два разряда. В первый попадают те позиции и графемы, которые входят в грамматической аффикс. Сюда же относятся буквы, ко-торые, хотя и не составляют грамматической части слова, но имеют аль-тернативой другую графему, входящую в грамматический аффикс данного или другого конкретного слова. Второй разряд составляют буквы и пози-ции, не входящие в грамматический аффикс. Буквы, находящиеся на бук-венных позициях первого разряда, группируются по количеству попыток, понадобившихся для их отгадывания. Все буквы второго разряда рассма-триваются как достоверные грамматические продолжения (ср. угадывание с “нулевой” попытки) независимо от того, сколько попыток понадобилось, чтобы определить каждую из этих букв. Это делается из тех соображений, что “неграмматические” буквы, равно как и буквы первого разряда, уга-данные с “нулевой” попытки, не несут МорфИ. Полученные спектры рас-считываются с помощью формул (5.2), (5.5) и (5.6). Cведения о МорфИ, содержащейся в английских, русских и французских усредненных словах, а также о воздействии на нее контекста показаны в табл. 20.

Для количественной оценки грамматической информации, содержа-щейся в служебных словах (ее называют информацией аналитической морфологии (ИАМ)), используются величины синтактической информации, падающие на две первые буквы служебного слова. Обратная величина этой суммы B_a = 1/ (I + I₂)рассматривается в качестве меры связи служебного слова с предшествующим контекстом. Аналогичным образом определяется степень связи с предыдущим контекстом у флексий (B_f) и у текстовых знаменательных слов (B_w), см. табл. 21.

Сопоставление информационно-статистических оценок из табл. 19 - 21 обнаруживает следующие типологические особенности рассмотренных языков.

1. По соотношению числа лексем и порождаемых ими словоформ анг-лийский язык вместе с романскими языками показывают более высокий процент аналитизма (A₂) по сравнению с русским языком. Это согласуется с традиционными представлениями о соотношении в них аналитизма и синтетизма.

2. При сравнении доли лексико-грамматических связей контекста отно-сительно общей суммы ограничений, падающих на текстовое слово (ко-эффициент аналитизма A₁), выясняется, что, как и следовало ожидать, величина этой доли в английском языке значительно превосходит русское значение A₁; вместе с тем аналитические романские языки неожиданно дают низкие значения этого коэффициента, близкие к его величине в русском языке.

Taблица 21. Количественные оценки величин B_a, B_w, B_f

Языки	Служебное слово	Знаменательное слово	Флексия знаменатель- ного слова
Английский Русский Французский	0,22 0,21 0,24	0,17 0,19 0,19	0,50 0,46 0,66

3. Как флективно-синтетический русский язык, так и аналитические анг-лийский и французский языки показывают одинаковую степень связи служеб-ных и знаменательных слов с предшествующим контекстом, причем служеб-ное слово в значительно меньшей степени зависит от контекста, чем флексия.

4. Информационная доля флективной морфологии во французском и румын-ском текстовом и внетекстовом словах в несколько раз превосходит информа-ционный вес английских флексий, более того, в аналитических романских языках доля флективной морфологии заметно превышает информационный вес морфологических аффиксов текстового слова в синтетическом русском языке.

Эти результаты, вступающие на первый взгляд в противоречие с традиционными представлениями о соотношении синтетизма русского языка с аналитизмом западных индоевропейских языков, можно объяснить следующим образом. Письменный и устный тексты имеют линейный хара-ктер, а индоевропейские служебные слова (в первую очередь предлоги и вспомогательные глаголы) стоят в препозиции к управляемым ими знаме-нательным словоформам. Поэтому окончания часто дублируют значения служебных слов, кото-рые несут основную информационно-грамматиче-скую нагрузку в именных и глагольных группах. На избыточность флексий указывают, в частности, вы-сокие значения коэффициента B_fв рассмот-ренных языках, причем эта избы-точность определяется не только грамма-тической информацией предшеству-ющего служебного слова, но также смысловой и синтактической информаци-ей, содержащейся в той лексиче-ской основе, к которой примыкает оконча-ние. Что касается русского язы-ка, то количественные показатели избыточ-ности флексий согласуются с данными слухового и спектрального анализа, свидетельствующего о ре-дукции и смешении не только именных, но и глагольных окончаний [113]. Таким образом служебные слова благодаря своему положению на синтаг-матической оси обладают меньшей контекстной обусловленностью и одно-временно несут больше синтактической и грамматической информации, чем флексии. Преимущества аналитической морфологии перед морфоло-гией флективной обусловлены и тем, что короткие слова, значительную долю которых составляют служебные слова, с точки зрения количества передаваемой ими информации оказываются менее подверженными воздействию контекста, чем средние и длинные слова. Так, в русском языке короткие слова, попадая в контекст, теряют от 30 до 33% несомой ими информации, в то время как у длинных слов и слов средней длины контекст снимает от 47 до 58% информации, для французского языка эти величины соответственно равны 25–30 и 62–87%.

Механизм этого явления становится понятным, если сравнить рост контекстной связанности в схеме текстового и внетекстового слова с её ходом в связном тексте. Как уже говорилось, ход кривой контекстной связанности K_x описывается зависимостями (5.9) и (5.10), в которой I_¥ ха-рактеризует тот предел, к которому стремится информация в данном типе сообщения. Следует подчеркнуть, что предельная информация связ-ного текста, при n ® ¥, будет всегда больше нуля. Иное дело слово. Оно сос-тоит из фигур (букв, фонем, слогов) и простых знаков (морфем), обладаю-щих ограниченной комбинаторикой, и – что самое главное – слово высту-пает в тексте в виде кванта информации. Поэтому при n ® ¥, т. е. при бес-конечном удлинении слова, информация отдельных составляющих ее фигур и знаков будет стремиться к нулю. Поэтому выражение, описы-вающее рост внутрисловной контекстной связанности, принимает вид:

K_x^(с) = I₀ – I₀ e^–^s^x.

Сравнение распределений контекстной связанности в схемах тексто-вого и внетекстового слов (табл. 16) показывает, что лексико-грамматиче-ский контекст значительно ускоряет рост контекстной связанности букв внутри слова. Коэффициент s текстового слова в два раза превышает по величине аналогичный коэффициент для внетекстового слова. Особенно круто возрастает кон-текстная связанность в текстовом слове на участке от первой до четвертой букв. После четвертой буквы кривая связанности зна-чительно приближается к своему пределу K_¥. Что же касается внетексто-вого слова, то здесь нарастание контекстных связей происходит более плавно. Кривая связанности достигает своего предела лишь после двенад-цатой буквы. Быстрое нарастание общей контекстной связанности букв на участке между первой и четвертой буквами – нарастание, постоянно на-блюдаемое в процессе самого эксперимента, имеет важные последствия для информационной структуры текстового слова. Как уже говорилось, ос-новная часть грамматической информации длинных и средних слов кон-центрируется на пятой, шестой и т. д. буквах. Когда слова этого типа попа-дают в текст, общая контекстная связанность их начальных букв растет на-столько быстро, что несущие грамматическую информацию конечные бук-вы, равно как и буквы, находящиеся в центральной части слова, оказыва-ются почти полностью предопределенными предшествующим контекс-том. Именно поэтому они теряют значительную часть своей грамматиче-ской информации.

Иное дело короткие слова. Контекстная связанность при их употре-блении в тексте также растет довольно быстро. Однако она не успевает к концу слова достичь своего предела (обычно длина коротких слов не превышает четырех букв). Поэтому все буквы сохраняют здесь информа-ционный вес. От-сюда следует, что короткие с/ф, основную массу которых составляют слу-жебные слова, оказываются менее подверженными воздействию контекста по сравнению с длинными и средними знамена-тельными с/ф.

Объяснение низким показателям аналитизма и высокой доли морфо-логи в романских языках следует искать, очевидно, в следующих типологи-ческих особенностях романских языков.

1. В романских языках частотные служебные слова, играющие здесь основ-ную роль при передаче грамматической информации, сами имеют флексии. Cр. формы разных видов артикля во французском (1е, l', la, les) или румын- ском (al, a, ai, ale) языках, а также спряжения испанского вспомогательного глагола haber (he, has, ha, hemos, habeis, han)или итальянского avere – ho, hai, ha и т.д. Что же касается русских и английских служебных слов, то они чаще всего оказываются неизменяемыми.

2. Романские глагольные парадигмы характеризуются значительным коли-чеством флективных графических форм (ср. французские Conditionnel, Présent, Passé simple, Imparfait, Imparfait du Subjonctif и соответствующие им временные формы в других романских языках). Они превосходят в этом от-ношении не только английский, но и русский язык. Романские глагольные окончания не всегда предопределены формой стоящего перед ним сущест-вительного или местоимения, ср. фр. Il chante(chantait, chantai, chanterai; chanterais, chantasse), или рум. eu cânt (cântam, cântai, сântasem). Аналогич-ную картину дают и другие романские языки. Это своеобразие флективно-аналитического строя нашло отражение в неожиданных на первый взгляд информационно-статистических свойствах романского текста.

5.8. Информационные модели, синергетика языка и РМД человека

Энтропийные и информационные характеристики языка и текста могут рассматриваться в качестве количественной меры упорядоченности язы-ковой системы РМД и служить косвенным свидетельством воздействия на них синергетических механизмов. Однако, свидетельствуя об общей синерге-тической упорядоченности языковых систем и порождаемых ими текстов, приведенные выше экспериментальные данные пока не раскрывают деталей их структурной организации. Они также мало что говорят о частных деталях синергетики конкретного языка и детерминанте его функционирования и раз-вития. Для решения этих задач необходимы не только новые информационные эксперименты, но также сопоставление полученных количественных результатов с прямо наблю-даемыми данными о диахронии и синхронии различных семей и типоло-гических групп языков. Однако здесь возникает вопрос: возможно ли вообще определить численные параметры этого развития?

Чтобы ответить на этот вопрос, обратимся сначала к анализу уже рассматривавшихся энтропийных оценок. К сожалению получить с помо-щью психолингвистического теста аналогичные оценки для древних сос-тояний интересующих нас языков, например, латыни, готского, старосла-вянского или санскрита, практически невозможно. Поэтому приходится искать обходные пути, на которых можно было бы сравнить энтропию современного и древнего состояний языка той или иной группы. Таким приёмом, в частности, может быть сопоставление энтропийных оценок двух близкородственных языков, один из которых отражает архаичную, добифуркационную ста-дию, а второй, испытав сильное влияние соседних языков, претерпел в большей или меньшей степени перестройку исходной системы. Идя по этому пути, сравним избыточность следующих пар языков (табл. 10):

⇐ Назад