Информационное построение текста 1 страница

 

Величины I¥ =H¥ и R являются суммарными оценками различных лингвистических и экстралингвистических явлений. Между тем для инфор-матики, теоретической и прикладной лингвистики интересны не столько суммарные данные, сколько раздельные показатели доли лексической, мор-фологической информации и семантико-синтаксических контекстных связей в языках различного типа, а также информационные веса отдельной морфе-мы, слова и, наконец, измерение смысловой информации, содержащейся в словах и с/с. Решение этих задач было начато с исследования динамики зна-чений In=Hn , оценивающих величины информации, которую извлекает угадчик, двигаясь по тексту. Эти значения убывают в зависимости от роста значений n. Если представить такую цепочку, как непрерывную функцию аргумента x, заменяющего дискретные величины n, то она может быть аппроксимирована экспонентой

Ix = (I0I¥) esx + I¥, (5.9)

где I¥ – предельная информация языка или его разновидности, служащая

асимптотой кривой Ix , а s – специально рассчитываемый для каждой из них

коэффициент. Заменив величину Ix = In в выражении 5.7а, правой частью вы-ражения (5.9) и произведя некоторые упрощающие преобразования, получим общее выражение контекстной связанности на участке x нашего текста:

Kx = (I0I¥) (1 – esx). (5.10)

Кривая Ix описывает ход извлечения из текста как статистической, так и смы-словой информации, Kx отражает динамику взаимодействия тезауруса и пре-

суппозиции угадчика с извлекаемой из текста информацией. Коэффициент s выступает в качестве показателя скорости изменения величин Ix и Kx. Чем больше величина s, тем скорее идет увеличение значений Kx. Иначе говоря, коэффициент s является показателем темпа роста контекстных связей. Харак-терно, что наибольшую величину s дает деловой стиль, который представля-ют у нас научно-технические и газетные тексты (см. табл. 15) и в котором благодаря наличию большого числа устойчивых словосочетаний и ограни-ченного круга лексики контекстные связи языковых единиц устанавливаются быстрее, чем в других подъязыках. Природа s достаточно сложна. Началь-ный ход экспоненты от n = 0 до n = 3, отражающей стратегию угадывания испытуемых, обусловлен заложенными в их лингвистической компетенции статистическими ограничениями на употребление начальных букв слова. –Затем, при n > 3 ход кривой определен комбинаторикой морфем. Позднее вступают в действие статистические ограничения в сочетаемости слов с их

 

Таблица 15. Численные оценки коэффициента s

  Русский Французский
Подъязык или стиль   нижняя граница верхняя граница нижняя граница верхняя граница  
Разговорная речь; Беллетристика; Научно-технические и газетные тексты 0,20 0,21 0,24 0,31 0,29 0,32 0,22 0,26 0,34 0,31 0,29 0,42  
Язык в целом 0,19 0,31 0,30 0,36  

 

грамматическими формами, а затем появляются ограничения, связанные с комбинато-рикой более крупных единиц и содержанием текста. На рассто-янии 30 и более букв от начала текста коэффициент s дает ничтожные изменения в ходе экспоненты, которая здесь по величине совпадает с I¥. Соответственно величины Kx приближаются к некоторой постоянной K¥, представляющей собой предельную контекстную связанность.

Величины K¥ и s снова суть суммарные оценки различных лингвисти-

ческих и экстралингвистических явлений. Между тем для информатики и ли-нгвистики интересно расслоить эти суммарные оценки и определить инфор-мационные веса отдельной морфемы, слова, лексических и семантико-син-таксических связей, измерить смысловую информацию в языках различных типов. Чтобы получить эти данные, применяют разного вида перегруппиров-ки результатов индивидуального угадывания, формируя спектры начальных и конечных участков слов и словосочетаний, пробелов, а также корневых морфем. Такая перегруппировка дает возможность получить модель текста, в котором отмечены не только начала и концы составляющих его усреднён-ных словоупотреблении, но также разделяющие их пробелы (рис. 14). Эти пословные схемы неизменно показывают, что распределение в них статисти-ческой информации имеет квантовый характер. Начала словоупотреблений несут максимумы информации, в то время как их середины и особенно про-белы оказываются или мало информативными, или вообще избыточными. Что касается конечных букв, то они несут небольшое количество информа- ции. Квантовое построение текста обнаруживается и при коллективном уга-дывании. Оно подтверждается также экспериментом по восстановлению пропущенных букв в связном тексте.

 


H = I дв. ед.

4

 

 
 


3

                       
   
   
         
         
 
 

 


2

               
   
       


 
 


0 n

Никита Сергеевич был живой его можно было не бояться и дразнить кукурузником...

 

Рис.14. Информационная схема 12-словного русского текста (Токарева В. Первая попытка//

Новый мир, 1989, № 1С. 140)

 

 


 

5.3. Лексическая и грамматическая обусловленность единиц текста

В ходе эксперимента было замечено, что по мере продвижения от на-чала текста испытуемый все чаще угадывает вторую, а иногда и первую букву слова, опираясь не на буквенную комбинаторику, а на предшест-вующий лексический контекст. В связи с этим стало ясным, что, исследуя убывание сумм информаций, падающих на 1-ю и 2-ю буквы слов, можно оценить рост лексических связей в тексте. Этот рост, который отражает нарастание лексической связанности Lx оценивается с помощью показа-тельной кривой вида

 

Lx = (IIлI¥л) (1 – elx), (5.11)

 

где IIл – среднее арифметическое информаций, вычисленных для верх-

ней или нижней границ, которые падают на 1-ю и 2-ю буквы первого слова текста, I¥л – предел лексической обусловленности текста, l – лексический коэффициент, характеризующий темп роста лексических связей в тексте,

 

Таблица 16.

Контекстная и лексическая связанность в трех языках вместе

с грамматической связанностью в русском языке (в битах)

Языки ___ K¥ _ L¥   Л % _ G¥ Г %
Английский; Французский: – разговорная речь; – беллетристика; – научно-техн. тексты и публицистика; – язык в целом   3,41   3,29 3,38   3,56 3.36 0,69   1,07 1,22   1,49 1.17 20,2   32,5 36,1   41,9 34,8        
  Русский 3,63 0,80 22,0 1,35 37,2
             

 

(ср. коэффициент s в формулах (5.9) и (5.10)), остальные обозначения имеют тот же смысл, что и в предшествующих выра-жениях. Для характеристики того предела, к которому стремится лексическая обусловленность в тексте, вводится понятие п р е д е л ь н а я л е к с и ч е с к а я с в я з а н н о с т ь L¥=I

5.2. Информационное построение текста

 

Величины I¥ =H¥ и R являются суммарными оценками различных лингвистических и экстралингвистических явлений. Между тем для инфор-матики, теоретической и прикладной лингвистики интересны не столько суммарные данные, сколько раздельные показатели доли лекси-ческой, морфологической информации и семантико-синтаксических кон-текстных связей в языках различного типа, а также информационные веса отдельной морфе-мы, слова и, наконец, измерение смысловой информа-ции, содержащейся в словах и с/с. Решение этих задач было начато с ис-следования динамики зна-чений In=Hn , оценивающих величины информа-ции, которую извлекает угадчик, двигаясь по тексту. Эти значения убыва-ют в зависимости от роста значений n. Если представить такую цепочку, как непрерывную функцию аргумента x, заменяющего дискретные величины n, то она может быть аппроксимирована экспонентой

Ix = (I0I¥) esx + I¥, (5.9)

где I¥ – предельная информация языка или его разновидности, служащая

асимптотой кривой Ix , а s – специально рассчитываемый для каждой из них коэффициент. Заменив величину Ix = In в выражении 5.7а, правой частью вы-ражения (5.9) и произведя некоторые упрощающие преобразования, получим общее выражение контекстной связанности на участке x нашего текста:

Kx = (I0I¥) (1 – esx). (5.10)

Кривая Ix описывает ход извлечения из текста как статистической, так и смысловой информации, а Kx отражает динамику взаимодейст-

 

I¥(л), аналогичное предельной контекстной связанности K¥. Доля L¥ в сумме всех контекстных связей составляет:

Л = (L¥ / K¥) 100%.

Хотя величины Iл, L¥, Л (табл. 16) являются по своей природе синтактико-информационными величинами, они количественно характе-ризуют взаимодействие текста с лексическими механизмами лингвисти-ческой компе-тенции и тезаурусом угадчика. Чем больше угадчик знает о содержании тек-ста и чем лучше чувствует правые лексические валент-ности отдельных с/ф, тем лучше он угадывает первые буквы текстового слова. По правилам экспе-римента все угадчики, независимо от языка, находятся в равных условиях как с точки зрения знакомства с тематикой угадываемого текста, так и относите-льно справочного аппарата.Поэтому заметные различия по языкам в значени-ях L¥ и Л можно относить не за счет экстралингвистических факторов, но за счет лексической структуры текста, включая его валентности. Так, высокие значения L¥ и Л во французском языке и его разновидностях можно отнести за счет более регламентированного по сравнению с английским и русским употреблением лексических единиц. Что касается самого французского язы-ка, то наиболее высокий процент лексической предсказуемости букв дают на-учно-технический и деловой тексты. Причина этого, во-первых, в использо-вании большого количества устойчивых словосочетаний, связанных с той или иной тематикой, во-вторых, в сравнительно ограниченном круге лексики, значительную часть которой образует терминология данной специальности, в-третьих, в нормализованном построении предложений. Низкая избыточность беллетристического стиля является результатом бóльшей по сравнению с деловой речью неопределенностью в выборе языковых элементов. Лексиче-ские связи здесь заметно слабее: языковые штампы применяются реже, ис-пользуется много неожиданных сочетаний слов (метафоры и другие “фигуры стиля”), а круг лексики гораздо шире, чем это имеет место в деловой речи.

Если при опознании начальных букв слова в тексте информант исполь-зует лексические механизмы ЛК и тезауруса, то при угадывании последних букв изменяемых слов во флективных и агглютинативных языках применя-ются знания морфологии. Поэтому синтактическая информация, падающая на последние буквы словоупотреблений, взятых из разных участков текста, количественно оценивает здесь взаимодействие грамматических “механиз-мов” ЛК и тезауруса угадчика. Исходя из этих соображений, с помощью процедуры, аналогичной только-что описанному методу вычисления вели-чин L¥ и Л, было исследовано убывание полусумм информаций, падающих на последнюю и предпоследнюю буквы слова в пословной схеме русского текста. В результате получены оценки предельной грамматической связан-ности (G¥) и той доли Г, которую занимает G¥ в общей сумме контекст-ных связей (табл. 16).

 

5.4. Информационное построение слова

 

При оценке общего количества и размещения информации в слове мето-дика эксперимента и расчетов остается той же, что и при исследова-нии текста. Здесь снова применяется индивидуальное или коллективное побуквенное уга-дывание, осуществляющееся либо для с/ф, взятых вне контекста (в н е-к о н- т е к с т н ы е с л о в а),либо при условии, что угадчику известен предыду-щий контекст (к о н т е к с т н ы е с л о в а). В выборку внеконтекстных слов включаются обычно словоупотребления, стоящие в начале угадываемых тек-стов. Наборы контекстных слов состоят из словоупо-треблений, стоящих на пятом, шестом и т. д. местах тех же текстов. Если после индивидуального угадывания необходимо получить информациионную схему слова на буквен-ном уровне, для выборки слов заданной длины строят-ся обобщающие таб-лицы по типу текстовых матриц. Каждый их столбец обрабатывается по формулам (5.2), (5.5) или (5.6).

Используя результаты угадывания относительно языков разного типа, можно определить среднее количество информации, содержащееcя с точки зрения приемника сообщения во внетекстовых, т.е. словарных (табл. 17), и текстовых словоформах (по данным табл. 14), а для опреде-ления достоверности сравнить эти данные с результатами коллективного угадывания. Затем все они сопоставляются с информаци-онными оценками слова, извлеченными из лексических спектров (частотных словарей). По-следние оценки указывают на то количество синтактической информации, которое в среднем закладывает отправитель информации в словоформы своего сообщения.

Кроме того, на этой основе строятся усредненные схемы распреде-ления информации в словах различной длины. Ее распределение в ко-ротких (до 3-х букв) и средних (3 – 7 букв) словах, с одной стороны, и длинных словах (от восьми букв и выше) – с другой, имеет разный хара-ктер. Короткие и средние слова дают монотонное убывание информа-ции от начала слова к его концу. Убывание это происходит гладко, и полигоны таких слов имеют компактный L-образный вид. Это объясняется тем, что рассматриваемые схемы включают в основном неизменяемые формы типа англ. a, of, and; нем. аb, und; рус. да, еще; фр. a, on, oui; казах. да, бyл, имеющие ограниченное ко-личество продолжений на оконечных буквен-ных позициях. В синтетических языках длинные слова (обычно внетек-стовые) принимают постепенно U-образную форму. Максимумы инфор-мации сосредоточены здесь в начале сло-воформы и на конечных аффик-сах. Буквы же, находящиеся в середине с/ф, несут мало информации (рис. 15). Буквенные распределения, в которых обобщаются формы слов разных структур (изменяемые и неизмеяемые, односложные и многосложные), дают весьма приближенную и грубую схему распределения информации.

Для того чтобы глубже проникнуть в информационное стро-ение слова, были проанализированы распределения информации в слово-формах на слоговом и морфемном уровнях. Построение слоговых и мор-фемных схем таково, что позволяет наблюдать межслоговые “швы” и гра-ницы между морфемами, образующими слово. Во всех языках слоговое деление обнаруживается лишь на границе первого и второго слова. По мере продвижения кривой вправо слоговые границы все более затуше-вываются, а начиная с 4-го слога полностью исчезают. Иную картину дает морфемное построение слова

 

Taблица 17. Среднее количество информации, приходящееся на

внетекстовое слово

Языки Индивидуальное угадывание __ Коллек-тивное угадывание (I) Частотные словари (Î)
I
Английский 12,59     8,63 ÷9,68
Французский 11,59 10,88 9,43 11,04÷12,03
Русский 13,50      
Румынский 13,02      
Узбекский     12,00  
Казахский 19,91 12,43   12,11÷12,73

H = I bits

 
 


4_

 

3_

 
 


2_

 
 


1_

       
   
 
 

 


1 2 3 4 5 6 7 8 9 буквы

Рис. 15. Побуквенное распределение информации в немецком

словарном слове

 

Здесь на всём протяжении как текстового, так и особенно внетекстового слова четко прорисовываются границы между морфемами. Эти границы совпадают с водоразделом между последней буквой предшест-вующей морфемы (минимум информации) и первой буквой следующей мор-фемы (максимум информации, см. рис. 16). Таким образом, слову как и тек-сту, присуща выраженная зернистая знаковая (точнее - морфемная) структу-ра, которая подавляет его буквенное и слоговое членение. Соотношение син-тагматики букв и слогов, с одной стороны, и морфем, с другой, проливает свет на взаимодействие различных механизмов тезауруса и ЛК угадчика.

Речь есть, как известно, сложный марковский процесс следования фигур и знаков. Вероятностные закономерности сочетаемости фигур взаимо-

 

H = I bits.

 
 


4_

 

3_

 
 


2_

 
 


1_

           
     
 


1 - я 2 - я 3 - я 4 - я 5- я

морфемы

Рис. 16. Поморфемное распределение информации

в румынском текстовом слове

 

действуют с вероятностью сочетаемости знаков. Текстовой материал показыает, что вероятностно-статистические связи, характеризующие соче-таемость фигур (букв, слогов) на коротких начальных участках текста, не превышают длины знака-морфемы. Как только следующие друг за другом фигуры сформируют знак, на сцену выступают зако-номерности его сочетаемости с последующими знаками. Руководст-вуясь заложенной в своей ЛК и тезаурусе информацией о сочетаемо-сти знаков, угадчик накладывает ее на вероятностные спектры буквен-но-слоговой сочетаемости, отбирая из них лишь те комбинации букв, которые соответствуют правилам сочетаемости знаков. В итоге в обобщающей схеме слова и текста комбинаторика фигур подавляется вероятностой комбинаторикой знаков. Исходя из этих соображений, была предложена методика измере-ния смысловой информации, содержащейся в с/у, с/с и фрагментах большей протяженности, находящихся в разных участках текста.