Динамика и статика языковых систем

⇐ Назад

Чтобы ответить на первый из поставленных выше вопросов обратимся к наблюдениям за развитием отдельных языков или групп родственных языков, а также к данным сопоставления разных языковых систем.

Темп изменения языковых структур и реализующих их текстов изме-ряется обычно веками. Поэтому возможности диахронической синергетики зависят в первую очередь от того, располагают ли исследователи надёжным структурно-историческим описанием языкового материала. Если говорить о индоевропейских языках, то, к сожалению, надёжных сведений об их язы-ковой и речевой динамике на протяжении последних двух–двух с половиной тысячелетий, – сведений, извлечённых из больших массивов текстов, которые представлены в однозначно интерпретируемой буквенной графике, имеется немного. Весьма скупую синергетическую информацию дают описания многотысячелетней истории китайского и семитских языков, строй которых характеризуется устойчивостью и слабым динамизмом. Фраг-ментарные сведения о системном развитии урало-алтайских, картвельских и многих сино-тибетских языков пока вообще не осмыслены. Историческое же прошлое сотен младо- и бесписьменных языков восстановлено быть не может. Поэтому, обращаясь к диахронно-синергетической проблематике, приходится ограничиваться материалом системной истории нескольких наиболее изученных индоевропейских языков, осторожно привлекая для сравнения данные по другим языковым семьям.

Первое, что обращает на себя внимание при знакомстве с историей большинства индоевропейских языков, это сравнительно быстрый темп их развития на фоне стабильности китайского, семитских, отчасти грузинского и особенно тюркских языков. На это обстоятельство в своё время обратил внимание Н. С. Трубецкой [74. С. 76 - 77], считавший, что в своем развитии индоевропейские языки как бы дрейфуют от структурного типа с гипертрофированной флексией, представленного восточно-кавказскими язы-ками, к более прозрачному, экономному и удобному строю, отраженному в урало-алтайских языках. Оценивая эти факты в свете синергетики и теории катастроф можно предположить, что первоначальный индоевропейский кон-тинуум подвергся некогда сильному внешнему воздействию, продвинувше-го его из первоначальной равновесности в зону н е р а в н о в е с н о-

с т и, в которой этот континуум претертерпел раздвоение. В результате некоторые индоевропейские наречия, попав в зону катастрофического разрушения т.н. д е з и н г р е с с и и по А.А.Богданову [10] (рис. 11), постепенно выродились и исчезли. Другая их часть пошла по пути быстрой перестройки речевой, а затем и языковой систем. Одновременно прежнее ин-доевропейское единство распалось на отдельные языковые группы и язы-ки, стремящиеся к обретению новой равновесности. Именно этим можно объяснить причудливое сочетание в индоевропейских языках синтетизма (в основном флективной техники) и аналитизма, многообразие парадигм скло-нения и спряжения, вариативность основ и, что самое главное, сильные рас-хождения в строе и темпе развития таких близкородственных языков, как исландский и датский, польский и болгарский. С другой стороны, внутри самой индоевропейской семьи обнаруживаются языки, переживающие вто-рой бифуркационный перелом и показывающие особенно высокий темп структурной перестройки. К ним относятся в первую очередь французский и английский языки, выросшие на почве кельто-романо-германской интер-ференции, языки балканского союза (в первую очередь албанский, болгарский и румынский), сформировавшиеся на основе взаимодействия автохтонного (фрако-иллирийского и дако-мизийского) субстратов с ро-манской и славянской речью, а также новоиндийские языки, развившиеся в атмосфере арийско-дравидийско-аустрической интерференции. Попутно от-метим, что взаимопроникновение языков, возникающее на почве интенсив-ного дву- и многоязычия является очевидно основным фактором, наруша-ющим равновесность лингвистических систем. Об этом свидетель-ствует не только история индоевропейских языков, но также тысячелетия развития се-мито-хамитской семьи. Так, большинство семитских языков, не обнару-живающих заметных субстратных влияний, прошло за четыре тысячи лет лишь среднюю ступень перестройки исходной семито-хамитской фоноло-гической и морфологической системы. В то же время кушитские и чадские языки, наложившиеся на мощный субстрат местных языков Африканского рога и бассеина Нигера, находятся уже на новой ступени развития, которая характеризуется не только изменением фонологии, но и полной пере-стройкой древней семито-хамитской грамматической системы [28. С. 9, 102].

Возвращаясь к индоевропейскому материалу, рассмотрим судьбу языков балканского союза, в период между VI и XV веком н.э. Их развитие, которое реконструируется путём сопоставления данных истории, диалектологии, топонимики, этимологического и контрастивного анализа, служит примером синергетического "рывка", также являющегося следствием интенсивного межъязыкового смешения. Тогда население, жившее в нижнем течении Дуная между Адриатикой и Чёрным морем, пользовалось тремя языками - протоалбанским, балканской латынью и древнеболгарскими наречиями . В результате сильного взаимовлияния каждый из трёх языков, войдя в зону бифуркации, оказался в поле двух основных возможностей.

Первый возможный путь развития состоял в сохранении системы и поддержания её гомеостаза через замену синтетических (флективных) средств организации предложения на аналитическую технику его постро-ения. При этом развитие системы языка, как, впрочем, развитие других сложных систем, идет по S-образной кривой, состоящей из трех участков. На первом система неэффективна, но развивается крайне медленно. На втором она вступает в стадию быстрого роста, когда ее новые конструкции эффек-тивнее предыдущих. Наконец, на последнем этапе насыщения параметры системы перестают расти (ср. [81]).

Второй альтернативный путь ведет к разбалансировке лексико-грамматической и морфонологической систем, росту энтропии и хаоса в тексте, а в итоге к исчезновению языка (рис. 11).

В балканском ареале выделяется четыре области, в каждой из которых

один из трёх названных языков сохранился, трансформировав свой строй, а два других, вступив на путь "хаоса", постепенно исчезли. Так, в западной части ареала победила автохтонная (албанская) речь. В восточной части верх взял славянский компонент, в результате чего здесь сформировался аналитический болгарский язык. На севере и в южных районах ареала сохранился, перестроив свою систему, романский элемент. В результате на левом берегу Дуная сформировался румынский язык, а на албано- и болгаро-греческой границах сохраняются островки арумынского и меглено-румынского языков-диалектов. Кроме того, на полуострове Истрия (западная часть Словении и северо-запад Хорватии), в самопровозглашенной Приднестровской республике и на Украине сейчас наблюдается дезингрессия и вырождение романской речи. Такой процесс, свидетельствующий об ослаблении и даже разрушении синергетических механизмов, прослеживается во многих языках, расположенных на территории бывшего СССР, к ним в первую очередь относится белорусский язык, финские языки Поволжья и некоторые языки Северного Кавказа. При этом дезингрессия языковой системы не является изолированным лингвистическим процессом. Она угрожает существованию самого народа-носителя данного языка. Вот что пишет о современном состоянии родного языка один из ведущих осетинских писателей: ...жизненное пространство осетинского языка катастрофически сузилось...В культурно-языковом отношении осетинский народ находится если не в состоянии агонии, то вовсяком случае в состоянии глубочайшего нокаута. (Бязарти К. В глубоком нокауте//Дружба народов, 1995, N3. C. 160).

Аналитическая перестройка систем далекородственных балканских языков шла в сходных направлениях, что и привело к образованию в них таких общих типологических черт, как постпозиция определённого артикля, вытеснение старого инфинитива конъюнктивом, совпадение родительного и дательного падежей.

Что касается кельто-романо-германской интерференции и бифуркации в Галлии и на Британских островах, то она проходила по аналогичной схеме. И в том, и в другом случае перестройка системы проявилась в первую оче-редь в коренном изменении морфологической организации слова, т.е. в сти-рании окончаний и активизации аналитической морфологии (ср. выше). Последний процесс нашел отражение, с одной стороны, в скачкообразном росте употребления препозитивных, реже постпозитивных служебных слов, а с другой – в утверждении (это особенно характерно для романских язы-ков) тема-рематического построения именной группы (определяемое + определение) и, наконец, в ускорении преобразования древнеиндо-европейской схемы предложения "подлежащее + дополнение + сказуемое" (SOV) в новую тема-рематическую последовательность (SVO).

Сходные процессы наблюдаются в креольских языках, представляющ-их результат третьего бифуркационного перелома в индоевропейской семье, который возникает при столкновения английского и некоторых романских языков с туземными языками Африки, Карибского бассейна, Индийского океана, Полинезии и частично с китайским языком. Креольские языки хара-ктеризуются дальнейшим ростом аналитизма, проявляющемся в первую очередь в исчезновении глагольных и остаточных именных флексий, которые заменяются препозитивными служебными словами и использованием повто-ров [29; 35б. С. 77 - 80].

Отметим попутно, что нарушить гомеостаз лексико-грамматической системы языков, обладающих длительной литературной традицией, могут, вероятно, и другие факторы, например, стремительный рост терминологии. Это становится возможным при условии, что новые термины образуются по схемам, противоречащим словообразовательным моделям данного языка. Такое явление наблюдается не только в современных урало-алтайских и кавказских языках, расположенных на территории бывшего СССР, которые заимствовали за последние 50 лет тысячи русских и интернациональных научно-технических, деловых и общественно-политических терминов. Эти массовые заимствования могут повлечь иногда разрушение такого важного урало-алтайского синергетического механизма фонетики, каким является сингармонизм. Красноречивым примером является его исчезновение в руссифицированных финских говорах Карелии и Ленинградской облаcти..

Хотя приведенные данные о развитии строя индоевропейских и других языков, а также об их взаимовлиянии получены с помощью нестрогой идиографической методики, они отражают действие в языке скрытых от прямого наблюдения синергетических механиизмов. Похоже, что лексика оказывается синергетически наименее устойчивым аспектом языка.

4.7. Статистико-синергетические параметры текста.

4.7.1. Статистические модели текста. Среди статистических моделей лексики текста, использовавшихся и развивавшихся исследователями в тече-ние последних 50 лет, центральное место продолжает занимать модель Прие-то-Ципфа-Мандельброта, её вариации и связанные с ней квантитативные измерения употребительности лексических единиц (ЛЕ). Исследования по развитию этой модели идут в двух направлениях:

во-первых, по линии поиска математических cхем, адекватно описывающих распределение ЛЕ в тексте; самые известные из них даны в работе Ю.А.Тулдавы [75. С. 56 - 81];

во-вторых, в направлении поисков лингвистического смысла математических параметров самой модели и её вариантов.

Первое направление особенно популярно среди математиков [56]. Второе представлено сравнительно малым числом работ, авторами которых являются обычно лингвисты, психологи или психиатры [2].

Настоящая работа выполнена в русле второго направления. Нас будет интересовать в первую очередь отражение в статистическом варьировании параметров ципфовской и родственных ей моделей таких лингвистических и экстралингвистических особенностей текста, как его тематика и стилистика, колебания объёмов выборки, степень связности и гомогенности текста, а особенно патологичность и "нормальность" речемыслительной деятельности (РМД) испытуемого, выдавшего данный текст.

Сопоставление сотен Ципфовских описаний текстов, выполненных на материале разных языков, позволило выделить несколько разновидностей этой модели, соотношение и взаимная динамика которых представлены в табл. 7. На рис. 11 даны их типовые билогарифмические графики. Среди частных вспомогательных зависимостей, связанных с моделью Ципфа, для нас интерес будут представлять:

1) коэффициент лексической упорядоченности текста, получаемый из преобразования известной формулы type/token ratio, предложенной Г.Херданом [94. C. 27 - 28], это выражение имеет вид:

¡ =1 - lg V/lg N,(4.1)

где V - общее количество разных ЛЕ в исследованном тексте;

2) спектральное распределение Хайтун-Тулдавы [75. C. 134-135], опи-сывающее зависимость между частотой F_i и количеством словоформ (с/ф), имеющих эту частоту;

3) средняя частота ЛЕ в исследуемом тексте

=V/N ;

4) среднее количество энтропии H_ср (селективной информации I_ср), приходящееся на лексическую единицу W обработанного текста

_S_{- 1}

H_ср(W) = I_ср(W) = – S f_i log₂f_i. битов, (4.2)

ⁱ⁼¹

где f_i – относительная частота i-той ЛЕ; если эта частота достаточно близка к вероятности, то выражение принимает вид

_S_{- 1}

H_n = I_n = –S p_i log₂ p_i. битов. (4.3)

ⁱ⁼¹

Сопоставление результатов анализа лингвистического материала, полу-ченных с помощью вспомогательных зависимостей, с теми результатами, которые показывает приложение к этому материалу зависимостей Ципфа, играет в данном исследовании важную роль. Оно помогает оценить степень правдоподобности тех лингвистических предположений и выводов, которые подсказываются количественным анализом текста.

4.7.2. Качественные изменения в содержании и организации текста и его количественные характеристики.

Известно, что при малом объеме выборки повторяемость наиболее упо-

требительных ЛЕ, стоящих в начале ЧС, сравнительно невелика, зато доля редких ЛЕ, попадающих в хвост списка, весьма значительна. График ципфовской зависимости полого спускается к оси абсцисс, образуя угол

Таблица 7. Теоретические приближения зависимости Ципфа, ср. рис. 11

№№ за-висимос-тей	Вид зависимости для математических ожида- ний абсолютных частот	Комментарий, иллю-стрирующий данный вид зависимости	Переход ста-ршей зави-симости в младшую
I	M(F_i) =Nk/i	Идеальный график Ципфа (английские и китайские тексты при N ≈ 10⁵ с/у)	–
II	M(F_i) =Nk/i^y	Ненасыщенные выбор-ки английских текстов разных подъязыков при условии, что γ ≠ 1	Если γ = 1, то II→ I
IIa	То же	То же при условии, что γ >> 1, такая ситуация характерна для речи детей раннего возраста	то же
III	M(F_i) =Nk/(i +r)^y	Ненасыщенные выбор-ки из синтетических языков	Если ρ= 0, То III→ II
IIIа	M(F_i) =Nk/(i - r)^y	Ненасыщенные выбор-ки из синтетических язык ов, записанные от испытуе-мых с патологией РМД	То же
IV	Схема 1: M(F_i) =Nk/i^(γ+d^{lg i)}, Или Схема 2: M₁ (F_i=1_¸_j)= Nk/(i - r)^g⁽¹⁾ M₂ (F_i=j+1_¸_k) = Nk/(i - r)^g⁽²⁾ M₃ (F_i=k+1_¸_n) = Nk/i - r)^g⁽³⁾	Насыщенные выборки(см. ниже , разд. 2)	Если d = 0, то IV→ II

Примечание. В таблице и далее по тексту используются следующие обозначения: M(F_i) – математическое ожидание частоты ЛЕ, i - номер ЛЕ в частотном списке, N –объём выборки, k, d, gи r –эмпирически подбираемые коэффициенты. Насыщенные выборки могут обрабатываться с помощью одной из двух указанных в таблице схем. «Кусочечная» схема более удобна для лингвистической интерпретации.

φ < 45° при этом γ < 1. Для текстов изолирующе-аналитических языков (например, английского и китайского) эта ситуация относительно зависимости ранг-частота, т.е. [(M(F) = ф(i)], описывается вторым приближением закона Ципфа (табл. 7, рис. 11).

По мере увеличения выборки доля наиболее употребительных ЛЕ растёт, а удельный вес редких ЛЕ постепенно сокращается. Растёт и их сред-

няя частота . Одновременно по ходу насыщения выборки угол φ постепенно увеличивается, достигая 45° в "идеальной" ципфовской выборке, которая для различных языков находится обычно в интервале от 100 до 400 тыс. с/у. Значение коэффициента γ в этом случаестремится к единице, а зави-

симость M(F)=ф(i) описывается первым ципфовским приближением. Что касается текстов синтетических языков, то в них зависимость ранг-частота моделируется при помощи III приближения Ципфа, включающего поправку r, которая отражает степень синтетичности языка.

M(F)

IIIa

IV

I II

IIa I1I

Рис. 11. Графики шести теоретических приближений к эмпирическим ранговым распределениям в ЧС (см. табл. 7)

I – идеальный график Ципфа; II – график ненасыщенной выборки английских или китайских текстов; IIa - график ненасыщенной выборки английских тек-стов при γ>>1; III – график ненасыщенных выборок текстов синтетических языков (ср. данные по русской разговорной речи при нормальной РМД испытуемого, рис.12, стлб. 2); IIIa – график ненасыщенных выборок текстов синтетических языков, записанные от испытуемых с патологией РМД; IV – график насыщенной выборки.

Далее в ходе последовательного увеличения выборки и ее прибли-жении к генеральной совокупности происходит постепенное насыщение час-тотного словаря той лексикой, которая присуща данному языку или его раз-новидностям. При этом те ЛЕ, которые в малых выборках встречались редко (один, два... раза), перемещаются в среднечастотную зону. При этом средняя часть билогарифмического графика, “вспухая”, сдвигается вправо вверх, и он постепенно приобретает вид выпуклой параболообразной кривой, отражающей IV приближение (см. табл. 7 и рис. 12). Одновременно увели-чивается средняя частота ЛЕ ( ), несколько растут значения коэффициента γ, а также величины H_ср(W). Частоты лексических единиц F(W_i)в насыщенной выборке близки к их математическим ожиданиям M(F(W_i)). То, что здесь особенно важно для лексической статистики и лингвистической синергетики, это изменение коэффициента упорядоченноститекста ¡. Рост последнего вместе с параболичностью кривой Ципфа сигнализирует о приближении ЧС к насыщенному состоянию относительно языка, подъязыка или идиолекта.

Однако здесь обращает на себя внимание значительное отклонение некоторых экспериментальных значений ¡ от общего роста этих значений. Наиболее заметные отклонения дают выборки документов узко-професси-ональной тематики. Примером служат русские тексты боевых документов (табл. 8, рис. 12). Сходные отклонения показывают также тексты, принадле-жащие авторам с признаками патологии РМД (ср. русский текст, написан-ный душевно больным Х и французский текст повести Мопассана ”Орля”, см. табл.10 и 11, рис. 14). Отклонения этих текстов от общей тенденции рос-та величины ¡ =ф(N), ср. зависимость 4.1, заставляет нас предположить, что на эту основную зависимость накладываются некоторые дополнительные лингво-статистические закономерности.

Если согласиться с этим предположением, то в первую очередь об-ращает на себя внимание высокое значение коэффициента ¡ у узкопрофес- сиональных военных (боевые документы) и технических (электроника, судо-ые механизмы) текстов. При этом график ЧС боевых документов имеет отчётливый параболический вид. Т.о. выборка средней величина также может обнаруживать тенденцию к полному лексическому насыщению ЧС. (Эта насыщенность выражена менее отчётливо в технических текстах). Иными словами, темп насыщения выборки и перехода к IV варианту зависимости ранг-частота определяется не только ростом объёма, но также тематикой и стилем текста. Это понятно: там, где жизнь человека исчерпывается небольшим числом повторяющихся ситуаций, происходит стандартизация его РМД, а производимые им тексты характеризуются единой тематической установкой, однообразием изложения и, следовательно, ограниченным словарём. Поэтому даже небольшие совокупности таких текстов, в которых используется ограниченное (иногда конечное) число лингвистических объектов, быстро образуют насыщенные выборки.Формальными признаками таких выборок являются, как уже было сказано, параболический вид кривой Ципфа, а также высокие значения параметра ¡.

Рис. 12. Зависимость коэффициента ¡ от объёма выборки N. Условные обозначения: 1 - больная Кун., 2 - больной Х., 3 - больной Ф., 4 - больной П., 5 - больной Л., 8 - больной К., 9 - больной О., (объёмы выборок см. в табл. 10), 6 - повесть Гоголя, 7 - повесть Мопассана "Le Horla" (см. табл. ), 10 - русский подъязык тактики, 11 - английская публицистика (54 тыс. с/у), 12 - повесть Горького, 13 - русская электроника, 14 - английская беллетристика (235 тыс. с/у), 15 - английские судовые механизмы, 16 - русские боевые документы, 17 - английская беллетристика (1010 тыс. с/у), 18 - русская беллетристика, 19 - французскаябеллетристика. Объёмы выборок по текстам №№ 10 - 19 данывтабл. 2 и 4.

Напротив, тексты, порождаемые в обстановке свободной коммуникации, используют разнообразную лексику. Поэтому их ЧС начинают обнаруживать некоторые признаки насыщенности лишь при условии гигантских выборок, охватывающих миллионы с/у. Примером может служить ЧС французских словоформ, составленный на выборке в 71 млн. с/у коллективом под руководством проф. П.Имбса [97] (см. табл. 8 и рис. 12 и 13). Кривая этой мегавыборки, составленной на текстах разных авторов, а также самых разнообразных стилей и тематик обнаруживает пока что слабые признаки насыщенности. Ещё менее отчётливую насыщенность показывают английские тексты разной тематики в 5 – 6 млн. с/у, приводимые П.М.Алек-сеевым [2]. Положение о том, что показатели лексической насыщенности выборки зависят не только от объёма выборки, но в первую очередь от ком-муникативно-стилевого характера, целей и тематики общения подтвержда-ются результатами эксперимента, проведённого в 80-х гг. В.Э.Пашковским и др. [57]. Известно, что прозаическая "продукция" испытуемых, страдающих эндогенными заболеваниями, может давать уже на небольших выборках на-сыщенные ЧС (см. ниже), в то время, как для лексического насыщения час-тотных словарей, получаемых на непатологических текстах, требуются, как уже было сказано, гигантские выборки.

Однако прямо противоположное соотношение между “нормальными” и патологическими текстаминаблюдается в выборках, представляющих со-вокупность определений, которые дают больные и здоровые испытуемые раз-личным объектам и понятиям в ходе диалога с экспериментатором.Как пока-зывает табл. 9 частотный словник здоровых испытуемых обнаруживает приз-наки лексического насыщения. Это проявляется в сравнительно высоких зна-чениях коэффициента γ и параметров и ¡, а также в небольшой величине энтропии на с/ф. Напротив, ЧС больных испытуемых этих признаков не по-казывает. Это и понятно,у здоровых испытуемых ответы детерминированы самой формулировкой предлагаемого экспериментатором задания. Так, на вопрос Что такое хлеб? чаще всего следуюттакие ответы: хлеб – продукт питания, хлеб – сухой продукт, хлеб – пища и т.п. Повторяемость слов здесь велика, и выборка быстро достигает своего насыщения. Напротив, психиче-ски больные испытуемые не способны удержаться в рамках навязываемой им тематической установки.

Чаще всего, игнорируя установку экспериментатора, они развивают в своих дефинициях побочные, навеянные собственной бредовой доминантой сюжеты и предлагают для слов-стимулов аутистические толкования, опира-ющиеся на патологический полисемантизм, например, хлеб – богатство, хлеб – это отхoдящий закон жизненных функций и т.п. [57]. В итоге такие дефиниции, наполняясь разнообразной и слабо повторяющейся лексикой, не дают насыщенных выборок, на что указывают более низкие, чем у здоровых испытуемых, значения параметров и ¡ с одновременно более высоким значением энтропии на с/ф. Т.о. в последнем случае, насыщение ЧC текста и переход его моделей I - III в параболическую зависимость IV определяется в основном жанрово-смысловой организацией текста. Объем выборки играет здесь второстепенную роль.

1000000-

100000-

10000-

1000-

_{___}

100- 4

10-

' ' ' ' '

0 10 100 1000 10000 100000

Рис. 13. Усреднённые огибающие кривые частотных списков лексики текстов, обнаруживающих и не обнаруживающих признаки насыщения.

Условные обозначения:

1 - ЧС французкая беллетристика и другие стили ([97], см. также табл. 8 );

2 - русские тексты боевых приказов (36а. С. 99 - 160, см. табл. 8);

3 - французский текст повести Мопассана "Орля" (Le Horla. Paris: Ollendorff, 1887 (табл. 11);

4 - русский переводповести "Орля" (табл. 11);

5 - текст испытуемого Х. (табл. 10)

Теперь, рассмотрев особенности лексико-статистической организации текстов, порождённых разными авторами, обратимся к анализу информаци-онно-статистической динамики в идиолектах отдельных носителей языка и в текстах, имеющих сюжетную организацию. Основной

Таблица 8

Статистико-информационные характеристики английских, русских и фран-ских текстов [2; 36; 36а; 61б; 97; 101]

Языки и их (сти- ли, подъязыки)

N (тыс. с/у)

H_ср(W)= =I_ср(W)

N тыс. ЛЕ)

H_ср(W)= = I_ср(W)

Английский: публицистика, беллетристика _ ,, _ _ ,, _ электроника, судовые механизмы

54,0 101,0 235,0 1010,0 200,0 404,0

8 341 13 706 23 655 50 406 10 500 12 971

0,93 0,94 1,02 1,17 1,00 1,48

6,5 7,4 9,9 20,0 19,0 31,1

0,172 0,173 0,189 0,217 0,241 0,266

– – – – – 9.16

Русский: беллетристика и др. тексты, электроника, боевые документы, подъязык тактики (уставы)

1056,4 200,4 689,2 45,6

91 102 (с/ф) 39 268 (слова) 21 468 6 966 (с/ф) 3 000 слова) 6 415 (с/ф) 2 762 (слова)

1,0 0,9 (1,75) – 1,02 1.01

11,6 26,9 9,3 98,9 229,7 7,1 16,5

0,177 0,404 0,136 0,342 0,404 0,175 0,261

– – 11,50 – – 11,04 10,9

Французский: беллетристика и др. стили, электроника

71 000 100,0

71 415 (слова, с/ф) 8 108

(1,26) 0,94

994,2 12,3

0,381 0,218

9,50 9,40

интерес для лексической статистики, лингвистической синергетики и прикладного языкознания здесь представляют:

– тексты, порождаемые взрослыми испытуемыми, у которых обна-руживаются эндогенные нарушения речемыслительной деятельности (РМД), а также записи патологической детской речи ;

– тексты художественных произведений, принадлежащие отдельным авторам, в том числе их переводы, выполненные одним переводчиком.

Таблица 9

Информационно-статистические характеристики текстов

русских дефиниций

Информационно-статистические характеристики	Больные с шизо-реническим дефектом	Здоровые испытуемые
N(c/ф) γ V(c/ф) (c/у) ¡	0,76 2,68 0,132	0,95 5,04 0,206
H_ср(W) = I_ср(W)(битов)	9,02	8,01

4.7.3. Письменная речь в норме и патологии. Известно, что система общенародного языка и РМД отдельного человека функционируют в ней-рофизиологической норме поразительно слитно и слаженно, закрывая перед экспериментатором "окна", через которые можно было бы прямо наблюдать её самоорганизацию и саморегуляцию. Одним из приемов, позволяющим приоткрыть эти "окна", является наблюдение за речевыми патологиями. Познавательная ценность этих наблюдений состоит в том, что лингвист получает возможность, во-первых, качественно соотнести патологические изменения в РМД испытуемого с его общими психолого-психиатрическими характеристиками, а также с тем коммуникативным контекстом, в котором проходило порождение анализируемого текста. Во-вторых, здесь можно сопоставлять информационно-статистические параметры патологической речи (ПатР)с характеристиками "нормальных" текстов. Это позволяет выявлять поломки в синергетике РМД, а затем, анализируя характер этих поломок, приблизиться к пониманию строения и функционирования скрытых от прямого наблюдения механизмов РМД человека. Понимание структуры и функционирования этих механизмов составит теоретический фундамент при решении таких теоретических и прикладных задач, как построение моделей передачи и приёма речевых сообщений, определение авторства анонимных текстов, текстовая диагностика душевных заболеваний, построение обучающих лингвистических автоматов и оптимизация преподавания языков.

Свежий материал для исследования ПатР и синергетики речи и языка предоставляют нарушения, возникающие:

1) при эндогенных поражениях головного мозга (шизофрения, маниакально-депрессивный психоз, генуинная эпилепсия, а также поражения типа синдрома Дауна);

2) в условиях измененных состояний сознания человека, в том числе под влиянием фармакогенных средств.

4.7.3.1. Лингвистика эндогенных поражений головного мозга.

Наиболее доступным и результативным здесь оказывается изучение письменных и устных текстов больных, страдающих эндогенными расст-ройствами (это направление условно обозначается термином «психиатри-ческая лингвистика» (ПЛ). Основным материалом, с которым работает ПЛ, являются письменные или устные тексты, выдаваемые больными спонтанно, либо полученные в виде ответов на вопросы экспериментатора. Такие тексты должны сопоставляться как по форме (означающему), так и по содержанию (означаемому) с близкими им по тематике и стилю непатологическими художественными, научно-популярными и публицистическими текстами.

В нашем случае информационно-статистическому анализу были подвергнуты образцы ПатР, полученные в период с 1980 по 2007 гг. В.Э.Пашковским и В.Р.Пиотровской от семи испытуемых с эндогенными расстройствами РМД [57]. Речь идёт о самостоятельно написанных "сочинениях" общественно-социальной, псевдонаучной тематики, а также разного вида заявлениях, жалобах и проектах. Синергетический анализ таких материалов показал, что РМД этих испытуемых в ходе развития их душевного заболевания вошла в зону неравновесности и бифуркации, а производимые ими тексты носят бредовый характер.

Информационно-статистические характеристики этих текстов и их Ципфовские праметры показаны в табл. 10. Здесь выделяется два типа текс-тов. Первый тип ПатР характеризуется политематичностью, отсутствием целенаправленного сюжета, резонёрством и многоречивостью. Лексика таких текстов хаотична и разнообразна. Развитие бреда кончается обычно общим распадом РМД. Эта динамика особенно отчётливо отражена в текстах больных Ф. и П. (см. [57. С. 64-65]. Эти тексты представляют собой ненасыщенные выборки с γ<1 и соответственно пологим Ципфовским графиком, а также сравнительно малым значением коэффициента упоря-дочения текста ¡ и отклоняющейся от нормы энтропией H_ср(W), прихо-дящейся в среднем на одну с/ф текста (ср. табл. 10). Для русского непа-тологического текста I_ср(W) колеблется в пределах 10,0 ÷ 11,5 битов при условии, что длина выборки N превышает 100 тыс. ЛЕ.

В текстах второго типа доминантная идея бреда становится организующим механизмом, заново упорядочивающим РМД больного. Поэтому выдаваемый им текст наполняется преимущественно такими словами и с/с, которые реализуют монотематический бредовый сюжет. Разнообразие используемых ЛЕ здесь ограничено, а их повторяемость велика. Это, естественно, приводит к быстрому насыщению выборки. Отражением такой ситуации служат статистические параметры текста больного Х. (табл. 10), страдающего стойким бредом величия. Несмотря на ограниченную длину выборки (около 1000 c/y) и малый объем словника (162 с/ф), этот текст дает насыщенную выборку, на что указывают непомерно большие величины , ¡ и γ, а также, очевидно, необычно низкое значение энтропии/информации на с/ф(см. выражения4.2 и 4.3). Бредовая РМД у больных такого типа, достигнув новой точки бифуркации и перейдя в состояние дезингрессии, обычно распадается.

Приведенные в табл. 10 информационно-статистические характеристи-ки патологических текстов ещё раз свидетельствуют о том, что механизмы самоорганизации РМД человека не только реально существуют, но что они огут изменяться в результате внешних по отношению к системе языка факторов. Сопоставление ПТ с параметрами "нормальных" текстов показывает, что эти расхождения имеют разную природу.

Таблица 10

Информационно-статистические характеристики русских текстов (художе-

ственная проза, псевдопатологические и патологические тексты)

Количест-венные характери-стики	Авторы и испытуемые
М.Горь-кий: ‘Дет ство’, ‘В людях’, ‘Мои универ-ситеты’	Н.Го-голь: ‘Запи-ски сумас-шедшего’	Взрослые испытуемые с патологиями РМД
О.	К.	Л.	Ф.	П.	Х.	Кун.
N (с/у) V (с/ф) γ ρ (с/у) ¡	165 927 13 218 1,10 1,40 12,55 0,210	0,89 1,12 9.60 0,260	30 828 8 750 0,83 0,50 3,5 0,122	14 944 4 994 0,91 1,50 2,9 0,115	5 526 2 763 0,86 0,00 2,0 . 0,081	2 947 1 016 0,75 0,00 2,9 , 0,133	3 000 1 364 0,81 1,10 2,2 0,102	162 (1,50) – 6,2 0,263	0,7 0,0 1,43 0,06
H_ср(W)= =I_ср(W) (битов)	11,0	9,6	10,55	9,92	10,26	8,92	7,34	6,71	7,58

Так, параболический вид графика зависимости ранг-частота ввыборке французских текстов XVIII – XX вв. (рис. 14), описываемый IV приближением Ципфа, и высокие значения величин и ¡ (табл. 8) можно отнести за счёт гигантского объёма этой выборки, – объёма который обеспечил лексическое насыщение частотного словаря. Однако сходные характеристики русских текстов боевых документов (табл. 8), указывающие на лекcическое насыщение его ЧС, нельзя объяснить только большим объёмом выборки (ок. 700 тыс. с/у). Ведь ЧС русских текстов разных стилей и тематик, составленный под руководством Л.Н.Засориной [77б] на выборке более чем в 1 млн с/у, этих характеристик не даёт и не показывает лексической насыщенности. Т. о. сомнительно, что параболичность Ципфовской кривой в ЧС боевых документов можно отнести здесь только за счёт сужения тематики текстов, на основе которых создан указанный словник. Дело в том, что ЧС русского подъязыка тактики [36], сходный по тематике со словарём А.Н.Колгушкина [36а], но построенный на выборке примерно в 15 раз меньшей общего объёма текстов боевых документов не обнаруживает параболичности и других признаков насыщения.

Наконец, микроскопическая текстовая выборка в 993 с/у, которая была получена от больного Х., страдающего сильно продвинутой формой шизофрении (парафренный синдром, см. [57. C. 65, 73–-74]), показала на-сыщенность ЧС. Это нашло отражение в параболическом виде его графика, в относительно высоких значениях , ¡ и низком значении величины H_ср(W) = I_ср(W) (табл. 10).

Подключение к информационно-статистическому анализу речи пато-логических текстов малого объёма даёт возможность уточнить отношения между ципфовскими параметрами и связанными с ними величинами , ¡ и H_ср(W)=I_ср(W), с одной стороны, и некоторыми особенностями лингвистиче-ской природой текстов – с другой. Можно предположить, что последовате-льное насыщение ЧС, отражающееся в параболичности зависимости ранг–частота,последовательном росте параметров и ¡ и изменении средней энтропии на с/ф, зависит одновременно от увеличения объёма выборки и от сужения тематики повествования, которое сопровождается сокращением лексического разнообразия в тексте. Для лингвистики основной интерес представляет вторая ситуация. Ведь именно она сигнализирует либо об изменениях в стилевой или семантической синергетике речи (ср. статистику текстов боевых документов, а также научно-технических текстов среднего размера), либо о патологических изменениях в РМД человека, которая, воз-ожно, переходит в новое диссипативное состояние. Об изменении семантико-стилевой организации текста и сужении их тематики сигнализирует также возрастание величин , ¡ и I_ср(W) в условиях средней величины выборки (вероятно около 500 с/у).

Короче говоря, переход от одной Ципфовской зависимости к другой обусловлен сочетанием внешних условий (например, изменением объёма выборки) с чисто лингвистическими и психо-лингвистческими факторами. Поэтому для выявления глубинных причин появления того или иного варианта модели текста необходимо научиться изолировать каждый диагностирующий индикатор от других взаимодействующих с ним определителей. В частности, для выявления скрытых от прямого наб-людения лингвистических факторов, определивших появление конкретного варианта модели Ципфа, следует сопоставлять близкие по размеру выборки текстов. При информационно-статистическом исследовании патологических текстов необходимо также по возможности учесть психологические и психопатологические характеристики авторов таких текстов.

Применение описанных приёмов к текстам малого объёма даёт воз-можность утверждать, что параболичность ципфовской кривой вместе с вы-сокими значениями показателей , ¡, и низким уровнем средней энтропии H_ср(W) = I_ср(W) на с/ф сигнализируют о патологическом сдвиге в синергетике РМД автора текста. Напротив, пологий характер Ципфовского графика с γ < 1 при низких значениях и ¡ характеризует политематические параноидно-бредовые тексты, содержащие резонёрство и соскальзывание на словарную окрошку. Из сказанного следует, что более низкие или более высокие значе-ния средней частоты словоформы в ПатР по сравнению с величиной в не-патологических текстах не могут использоваться в качестве изолированного диагностического критерия. Диагностические возможности величины проявляются только в комбинации с другими информационно-статистически-ми индикаторами патологии РМД .

4.7.3.2. Патологическая или псевдопатологическая проза.Художественная литература XIX и ХХ вв. даёт несколько примеров патоло-гического текста и образцов его имитации. Среди них наряду с произведе-ниями А.Стриндберга и некоторыми сочинениями Ж.-П.Сартра внимание психиатров и философов привлекали повесть Н.В.Гоголя “Записки сумасшедшего”, описывающая политематический пара-ноидный бред, и сочинения Ги де Мопассана "Орля" и "Ангелюс", воспро-изводящие монотематический галлюциноз героев (табл. 11).

Если говорить о небольшой по объёму повести Н.В.Гоголя (ок. 8 тыс. с/у), то Ципфовский график её ЧС имеет вид, типичный для коротких рус-ских текстов. Явных признаков параболизации здесь не обнаруживается, зна-чение коэффициента γ заметно меньше единицы, а величина H_ср(W) = I_ср(W) несколько ниже средней нормы энтропии, приходящейся на русское слово (ср. с соответствующим значением H_ср(W) = I_ср(W) для текста "Трилогии" М.Горького). Всё это в совокупности свидетельствует просто о недостаточ-ности, но не патологичности выборки. Загиб верхней чаcти графика описыва-ется поправкой ρ ≈ 1, что характерно для большинства русских "нормальных" текстов, частотные словари которых описываются III Ципфовским приближе-нием (табл. 7). Единственное, что может указывать на патологичность текста "Записок сумасшедшего" это завышенные значения параметров и особен-но ¡. Однако неясно, являются ли эти показатели объективным свидетель-ством о художественной интуиции автора или первыми сигналами об откло-нениях в его психике. Как известно, эти отклонения появились в последние годы жизни Н.В.Гоголя. Что касается повести Мопассана "Орля", то в ней обращает на себя внимание не свойственная французским текстам заметная кривизна длинного начального участка графика ЧС. Такая конфигурация кривой характерна и для незаконченного рассказа "Ангелюс", над которым автор работал также в конце своего творчества. Если моделировать эти кривые с помощью III приближения закона Ципфа, то окажется, что здесь поправочный коэффициент ρ>>2, в то время как величина этой поправки для аналитического французского языка заметно меньше единицы.

Если же описывать зависимость ранг–частота в этих сочинениях Мопассана с помощью параболической кривой, учитывая при этом достаточно высокие значения параметров , ρ и ¡, то появляется искушение рассматривать комбинацию этих индикаторов как сигнал синергетической патологии РМД их автора (известно, что вскоре Ги де Мопассан попал в клинику для душевно больных, где и закончил свою жизнь). Такое искушение подкрепляется тем, что текст русского перевода "Орля", статистическая организация которого отражает состояние РМД переводчика, параболичности и отклонений от нормы величин и ¡ не обнаруживает.

Таблица 11.

Информационно-статистические характеристики

французских беллетристических текстов Ги де Мопассана

и русского перевода одного из них

Авторы Коли- чественные характеристики	Gui de Maupassant	Перевод по-вести Ги де Мопассана "Орля"
L'angélus	Le Horla
N (c/у) V(c/ф) (c/у) γ ρ ¡	8 920 2 409 3,70 1,02 3,10 0,144	9 533 2 342 4,07 1,08 3,25 0,153	2,37 0,95 1,40 0,097
H_ср(W=I_ср(W)) (битов)	9,0	9,1	9,5

⇐ Назад