Информационное построение текста 2 страница

 

5.5. Измерение смысловой информации, содержащейся

В означаемом знака

 

Смысловая информация, заложенная в денотате, десигнате и коннотате морфемы, с/ф или с/с оценивается через коллективное уга-дывание с помощью следующего приема. Пусть имеется текст, пред-ставляющий собой цепочку слов W, W2, W3, . . ., Wk,. и необходимо оценить количество информации, содержащееся в слове W (на рис. 17 таким словом является японец). Для решения этой задачи проводится коллективное угадывание сегмента текста W2 ¸ Wk. (им является в нашем случае сегмент кричит. Первый раз коллективу сообщается слово W, например, японец, стоящее перед контрольным сегментом кричит. Второй раз угадывание начинается пря-

 

H=I bits

 

4

               
 
 
   
   
       
 


2

 
 


1

n

я п о н е ц# к р и ч и т #

 

Рис.17. Синтактическая и смысловая информация в русском

предложении.

- суммарная синтактическая информация

- информация, снятая значением слова японец

мо со слова W2. Между обоими угадываниями должно, разумеется, прой-ти достаточно времени, чтобы испытуемые забыли содержание текста. Угадывания можно также проводить в двух разных, но идентичных по тезаурусу и по ЛК коллективах. Естественно, что оба угадывания дадут разные результаты.

Получаемая в первом случае от контрольного сегмента информа-ция I(W2¸ Wk) = H(W2¸ Wk) bits будет больше информации 1(W2¸ Wk /W)= = Н (W2¸ Wk / W) bits, полученной при условии, что испытуемым было известно слово W. Разность И (W) = I (W2¸ Wk) - I(W2 ¸ Wk / W) представляет собой количественную оценку той смысловойинформа-ции, которая содержится в слове W. Именно эта информация уменьши-ла неопределенность контрольного сегмента и облегчило второе уга-дывание. Чтобы проводить строгое сопоставление оценок смысловых информаций по разным словам внутри одного языка и по одному сло-ву для разных языков, а также количественно сравнивать ту информа-цию, которую извлекают из лексики представители разных образова-тельных групп, носители языка и иностранцы, необходимо иметь усре-дненные оценки смысловой информации. Чтобы решить эту задачу В.И.Богодист [11.С. 8-13] провел обширный эксперимент с более чем 500 носителями французского языка и русскими студентами, обуча-ющимися на факультете французского языка педагогического уни-верситета. Он показал, что такие данные можно получить для каждой лексической единицы, усредняя оценки смысловой информации, по-лученные для нее из разных контекстов. Аналогичные данные от более чем 3500 русских носителей получили В.Н.Пестунова и Р.Г.Пиотров-ский. С.В.Райтар провела такой же эксперимент с 800 студентами-эстонцами, Х.Ц.Георгиев опросил 300 болгарских студентов [12], а Д.А.Байтанаева и К.Б.Бектаев провели смысловое угадывание с 900 студентами-казахами [7]. Часть экспериментальных данных показана в табл. 18. Результаты измерения смысловой информации (И), содер-жащейся в лексических единицах четырех языков, дают возможность сделать следующие выводы.

1. В величинах И суммируется семантическая информация с ее лексической и грамматической разновидностями, коннотативная, сигматическая и прагматическая информации, а также количественные оценки валентных связей исследуемого слова или словосочетания.

2. Как и следовало ожидать, в аналитических языках (француз-ском и болгарском) словоформа обычно несет меньше смысловой ин-форма-ции, чем это имеет место в синтетических (флективном рус-ском и агглютинирующем эстонском) языках.

 

Таблица 18.

Семантическая информация внетекстовых с/ф (в битах) в четырех языках

Русский Французкий Болгарский Эстонский
Слово(Wi) И Wi И Wi И Wi И
Класс 18,33 La classe 9,26     klass 18,29
Эксплуатация- 19,84 L’exploita- tion   12,1     ekspluatee-rimine   17,14
Правительство   13,56 Le gou-vernement   5,44 Прави-телст-вото 17,74 Valitsus   17,10  
Народ 8,55 Le peuple 6,83     Rahvas 17,63
Президент 8,44 Le président   7,50   Предсе-дателят   6,72 President   12,69  
Государство 17,66 L’état 7,02     Riik 20,63
Печать 15,74     Печатът 4,85    
Усреднённые оценки 14,12   7,63   9,77   17,21

 

3. Количество смысловой информации, извлекаемой испыту-емым из слова, зависит от богатства его тезауруса и лингвистической компетенции. Так, французкие преподаватели лицеев извлекают из слов в полтора раза больше информации, чем их ученики. Анна-логичные результаты пока-зывают и русские информанты. Студенты педагогических университетов извлекают из словоформы в среднем 11,36 дв.ед., в то время как учащиеся техникумов только 9,75 дв.ед. Сходные данные от угадывания русских финансово-экономических текстов получили П.Б.Невельский и М.Д.Розенбаум [53, c. 140 ].

4. Результаты описанного эксперимента могут быть использова-ны для описания динамики роста лингвистической компетенции и те-зауруса у учащихся относительно изучаемого иностранного языка (табл. 14) и учтены при построении лингвистических автоматов (см. главы 6 – 8).

 

5.6. Смысловая информация контекста.

Если средняя длина слова в данном языке равна lбукв, то макси-мальное количество синтактической информации, передаваемой таким словом, будет равно I(W0) = lI0 = lH0. В действительности слово несет гораздо меньше информации, что обусловлено разного вида дистрибути-вно-статистическими и семантико-статистическими ограничениями. С помощью описанных в разделах 5.1.1 и 5.5 приемов можно определить количество синтак-тической информации, приходящееся на слово средней длины, взятое вне контекста, т. е. I(W), и в контексте, т. е. I (Wh) = lI¥ = lH¥. Тогдаобщая сум-ма контекстных ограничений, накладывающихся на слово в тексте, составит K(Wh) = I(W0) – I(Wh) битов. Эти ограничения включают информацию, кото-рая характеризует вероятностную дистри-буцию букв и слогов, а также ту син-тактическую информацию, которая оценивает среднюю величину смысловой информации, содержащейся в лексико-грамматических связях предшествующего фрагмента W ÷ Wh- со

 

Таблица 19

Контекстные ограничения (в битах) и показатели аналитизма (%%)

для пяти языков

Информационные величины Англий-ский Русский Франц-узский Румын-ский Казах-ский
I(W0) 25,97 31,85 25,23 27,07 37,95
I(W) 12,59 13,50 10,88 13,02 18,04
I(Wh) 5,41 8,15 6,46 7,77 13,69
K(Whт) 7,18 5,35 4,42 5,25 4,35
K(Wh) 20,56 23,70 18,77 19,30 24,26
A1 35,00 22,57 23,55 27,01 17,93
A2* 67,66 31,53 56,39 39,93 32,48

.* Для испанского языка A2 = 56,03.

 

словоформой Wh. Последняя информация, опреде-ляющая прагматическую лексико-грамматическую, коннотативную и прагматическую предсказуе-мость слова Wh , может быть получена из равенства K(Whт)=I(W)-I(Wh) битов, поскольку, уже начиная со второго слова, угадываниетекста осуществляется с опорой на полученную ранее смысловую инфор-мацию. Доля смысловых связей (т.е. ограничений) в контексте относитель-но всей суммы ограничений в текстовом слове определяется из выражения

 

A1 = [K(Whт) / K(Wh)] 100%,

которое может служить оценкой аналитичности языка. Проверить досто-верность полученных данных можно путем сравнения оценок A1 с вели-чинами коэффициента аналитичности A2 для указанных языков, получен-ных независимо от описываемого эксперимента из выражения A2 = L/V, где L – число с/ф, а V – количество породивших их слов в достаточно пред-ставительной выборке текста. Все перечисленные оценки даны в табл. 19. Cопоставление величин A1 и A2показывает, что в целом они отражают традиционные представления о степени аналитичности рассматриваемых языков. Это позволяет говорить о достоверности наших количественных оценок аналитизма, полученных с помощью информационных измерений.

 

5.7. Информационные оценки морфологии

 

Используя приемы перегруппировки результатов угадывания, можно измерить ту грамматическую информацию, которая содержится, во-первых, в суффиксах, внутренних и внешних флексиях знаменательных слов, которую будем называть морфологической информацией (МорфИ), во-вторых в слу-жебных словах. МорфИ оценивается через суммы синтактических информа-ций, падающих на каждую буквенную позицию названных грамматических аффиксов. С этой целью все буквенные позиции и находящиеся на них буквы

 

Таблица 20. Морфологическая информация (МорфИ),в битах

и % на слово в трех языках

Язык Инфор-мация на внетексто-вое слово (ВТС) Инфор-мация на текс-товое слово (ТС) МорфИ на внетексто-вое слово _ (Igrd)в битах и в % к _ I(ВТС) МорфИ на текстовое слово _ (Igrt)в битах и % к_ I(ВТС) МорфИ, снятая кон- текстом _ _ (Igrd- Igrt) в битах и в % к _ I(ВТС)
Англий- ский 12,60 5,40 0,79 (6,3%) 0,18 (3,5%) 0,60 (79,4%)
Рус-ский 13,50 8,15 2,30 (17,0%) 0,70 (8,6%) 1,60 (69,6%)
Францу-зский   11,77   6,45 2,59 (22,0%) 0,88 (16,0%) 1,71 (66,0%)
Румын- ский 13,00 7,77 2,99 (23,0%) 1,01 (13,0%) 1,91 63,9%)

 

 

группируются в два разряда. В первый попадают те позиции и графемы, которые входят в грамматической аффикс. Сюда же относятся буквы, ко-торые, хотя и не составляют грамматической части слова, но имеют аль-тернативой другую графему, входящую в грамматический аффикс данного или другого конкретного слова. Второй разряд составляют буквы и пози-ции, не входящие в грамматический аффикс. Буквы, находящиеся на бук-венных позициях первого разряда, группируются по количеству попыток, понадобившихся для их отгадывания. Все буквы второго разряда рассма-триваются как достоверные грамматические продолжения (ср. угадывание с “нулевой” попытки) независимо от того, сколько попыток понадобилось, чтобы определить каждую из этих букв. Это делается из тех соображений, что “неграмматические” буквы, равно как и буквы первого разряда, уга-данные с “нулевой” попытки, не несут МорфИ. Полученные спектры рас-считываются с помощью формул (5.2), (5.5) и (5.6). Cведения о МорфИ, содержащейся в английских, русских и французских усредненных словах, а также о воздействии на нее контекста показаны в табл. 20.

Для количественной оценки грамматической информации, содержа-щейся в служебных словах (ее называют информацией аналитической морфологии (ИАМ)), используются величины синтактической информации, падающие на две первые буквы служебного слова. Обратная величина этой суммы Ba = 1/ (I + I2)рассматривается в качестве меры связи служебного слова с предшествующим контекстом. Аналогичным образом определяется степень связи с предыдущим контекстом у флексий (Bf) и у текстовых знаменательных слов (Bw), см. табл. 21.

Сопоставление информационно-статистических оценок из табл. 19 - 21 обнаруживает следующие типологические особенности рассмотренных языков.

1. По соотношению числа лексем и порождаемых ими словоформ анг-лийский язык вместе с романскими языками показывают более высокий процент аналитизма (A2) по сравнению с русским языком. Это согласуется с традиционными представлениями о соотношении в них аналитизма и синтетизма.

2. При сравнении доли лексико-грамматических связей контекста отно-сительно общей суммы ограничений, падающих на текстовое слово (ко-эффициент аналитизма A1), выясняется, что, как и следовало ожидать, величина этой доли в английском языке значительно превосходит русское значение A1; вместе с тем аналитические романские языки неожиданно дают низкие значения этого коэффициента, близкие к его величине в русском языке.

 

Taблица 21. Количественные оценки величин Ba, Bw, Bf

 

Языки Служебное слово Знаменательное слово Флексия знаменатель- ного слова
Английский Русский Французский 0,22 0,21 0,24 0,17 0,19 0,19 0,50 0,46 0,66

 

3. Как флективно-синтетический русский язык, так и аналитические анг-лийский и французский языки показывают одинаковую степень связи служеб-ных и знаменательных слов с предшествующим контекстом, причем служеб-ное слово в значительно меньшей степени зависит от контекста, чем флексия.

4. Информационная доля флективной морфологии во французском и румын-ском текстовом и внетекстовом словах в несколько раз превосходит информа-ционный вес английских флексий, более того, в аналитических романских языках доля флективной морфологии заметно превышает информационный вес морфологических аффиксов текстового слова в синтетическом русском языке.

Эти результаты, вступающие на первый взгляд в противоречие с традиционными представлениями о соотношении синтетизма русского языка с аналитизмом западных индоевропейских языков, можно объяснить следующим образом. Письменный и устный тексты имеют линейный хара-ктер, а индоевропейские служебные слова (в первую очередь предлоги и вспомогательные глаголы) стоят в препозиции к управляемым ими знаме-нательным словоформам. Поэтому окончания часто дублируют значения служебных слов, кото-рые несут основную информационно-грамматиче-скую нагрузку в именных и глагольных группах. На избыточность флексий указывают, в частности, вы-сокие значения коэффициента Bf в рассмот-ренных языках, причем эта избы-точность определяется не только грамма-тической информацией предшеству-ющего служебного слова, но также смысловой и синтактической информаци-ей, содержащейся в той лексиче-ской основе, к которой примыкает оконча-ние. Что касается русского язы-ка, то количественные показатели избыточ-ности флексий согласуются с данными слухового и спектрального анализа, свидетельствующего о ре-дукции и смешении не только именных, но и глагольных окончаний [113]. Таким образом служебные слова благодаря своему положению на синтаг-матической оси обладают меньшей контекстной обусловленностью и одно-временно несут больше синтактической и грамматической информации, чем флексии. Преимущества аналитической морфологии перед морфоло-гией флективной обусловлены и тем, что короткие слова, значительную долю которых составляют служебные слова, с точки зрения количества передаваемой ими информации оказываются менее подверженными воздействию контекста, чем средние и длинные слова. Так, в русском языке короткие слова, попадая в контекст, теряют от 30 до 33% несомой ими информации, в то время как у длинных слов и слов средней длины контекст снимает от 47 до 58% информации, для французского языка эти величины соответственно равны 25–30 и 62–87%.

Механизм этого явления становится понятным, если сравнить рост контекстной связанности в схеме текстового и внетекстового слова с её ходом в связном тексте. Как уже говорилось, ход кривой контекстной связанности Kx описывается зависимостями (5.9) и (5.10), в которой I¥ ха-рактеризует тот предел, к которому стремится информация в данном типе сообщения. Следует подчеркнуть, что предельная информация связ-ного текста, при n ® ¥, будет всегда больше нуля. Иное дело слово. Оно сос-тоит из фигур (букв, фонем, слогов) и простых знаков (морфем), обладаю-щих ограниченной комбинаторикой, и – что самое главное – слово высту-пает в тексте в виде кванта информации. Поэтому при n ® ¥, т. е. при бес-конечном удлинении слова, информация отдельных составляющих ее фигур и знаков будет стремиться к нулю. Поэтому выражение, описы-вающее рост внутрисловной контекстной связанности, принимает вид:

Kx(с) = I0I0 esx.

Сравнение распределений контекстной связанности в схемах тексто-вого и внетекстового слов (табл. 16) показывает, что лексико-грамматиче-ский контекст значительно ускоряет рост контекстной связанности букв внутри слова. Коэффициент s текстового слова в два раза превышает по величине аналогичный коэффициент для внетекстового слова. Особенно круто возрастает кон-текстная связанность в текстовом слове на участке от первой до четвертой букв. После четвертой буквы кривая связанности зна-чительно приближается к своему пределу K¥. Что же касается внетексто-вого слова, то здесь нарастание контекстных связей происходит более плавно. Кривая связанности достигает своего предела лишь после двенад-цатой буквы. Быстрое нарастание общей контекстной связанности букв на участке между первой и четвертой буквами – нарастание, постоянно на-блюдаемое в процессе самого эксперимента, имеет важные последствия для информационной структуры текстового слова. Как уже говорилось, ос-новная часть грамматической информации длинных и средних слов кон-центрируется на пятой, шестой и т. д. буквах. Когда слова этого типа попа-дают в текст, общая контекстная связанность их начальных букв растет на-столько быстро, что несущие грамматическую информацию конечные бук-вы, равно как и буквы, находящиеся в центральной части слова, оказыва-ются почти полностью предопределенными предшествующим контекс-том. Именно поэтому они теряют значительную часть своей грамматиче-ской информации.

Иное дело короткие слова. Контекстная связанность при их употре-блении в тексте также растет довольно быстро. Однако она не успевает к концу слова достичь своего предела (обычно длина коротких слов не превышает четырех букв). Поэтому все буквы сохраняют здесь информа-ционный вес. От-сюда следует, что короткие с/ф, основную массу которых составляют слу-жебные слова, оказываются менее подверженными воздействию контекста по сравнению с длинными и средними знамена-тельными с/ф.

Объяснение низким показателям аналитизма и высокой доли морфо-логи в романских языках следует искать, очевидно, в следующих типологи-ческих особенностях романских языков.

1. В романских языках частотные служебные слова, играющие здесь основ-ную роль при передаче грамматической информации, сами имеют флексии. Cр. формы разных видов артикля во французском (1е, l', la, les) или румын- ском (al, a, ai, ale) языках, а также спряжения испанского вспомогательного глагола haber (he, has, ha, hemos, habeis, han)или итальянского avere ho, hai, ha и т.д. Что же касается русских и английских служебных слов, то они чаще всего оказываются неизменяемыми.

2. Романские глагольные парадигмы характеризуются значительным коли-чеством флективных графических форм (ср. французские Conditionnel, Présent, Passé simple, Imparfait, Imparfait du Subjonctif и соответствующие им временные формы в других романских языках). Они превосходят в этом от-ношении не только английский, но и русский язык. Романские глагольные окончания не всегда предопределены формой стоящего перед ним сущест-вительного или местоимения, ср. фр. Il chante(chantait, chantai, chanterai; chanterais, chantasse), или рум. eu cânt (cântam, cântai, сântasem). Аналогич-ную картину дают и другие романские языки. Это своеобразие флективно-аналитического строя нашло отражение в неожиданных на первый взгляд информационно-статистических свойствах романского текста.

 

5.8. Информационные модели, синергетика языка и РМД человека

 

Энтропийные и информационные характеристики языка и текста могут рассматриваться в качестве количественной меры упорядоченности язы-ковой системы РМД и служить косвенным свидетельством воздействия на них синергетических механизмов. Однако, свидетельствуя об общей синерге-тической упорядоченности языковых систем и порождаемых ими текстов, приведенные выше экспериментальные данные пока не раскрывают деталей их структурной организации. Они также мало что говорят о частных деталях синергетики конкретного языка и детерминанте его функционирования и раз-вития. Для решения этих задач необходимы не только новые информационные эксперименты, но также сопоставление полученных количественных результатов с прямо наблю-даемыми данными о диахронии и синхронии различных семей и типоло-гических групп языков. Однако здесь возникает вопрос: возможно ли вообще определить численные параметры этого развития?

Чтобы ответить на этот вопрос, обратимся сначала к анализу уже рассматривавшихся энтропийных оценок. К сожалению получить с помо-щью психолингвистического теста аналогичные оценки для древних сос-тояний интересующих нас языков, например, латыни, готского, старосла-вянского или санскрита, практически невозможно. Поэтому приходится искать обходные пути, на которых можно было бы сравнить энтропию современного и древнего состояний языка той или иной группы. Таким приёмом, в частности, может быть сопоставление энтропийных оценок двух близкородственных языков, один из которых отражает архаичную, добифуркационную ста-дию, а второй, испытав сильное влияние соседних языков, претерпел в большей или меньшей степени перестройку исходной системы. Идя по этому пути, сравним избыточность следующих пар языков (табл. 10):