МАТЕРИАЛЫ К ЛЕКЦИОННОМУ КУРСУ
Тема 1. ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ПОКАЗАТЕЛИ
Статистический показатель –это обобщающая характеристика какого-то свойства совокупности, группы. Этим он отличается от индивидуальных значений, которые называются признаками. Например, средний рост призывников – это статистический показатель, а рост отдельного призывника – признак. Признак определяет качественное содержание показателя, это его объективная основа. Первичные признаки объектов существуют независимо от того, познает их статистика или нет, а показатели создаются наукой и служат инструментом познания. Таким образом, статистический показатель отражает количественную и качественную стороны изучаемой совокупности общественных явлений, представляет собой их величину, выраженную соответствующей единицей измерения. Статистические показатели выполняют ряд функций: познавательную, управленческую, стимулирующую. В гуманитарных исследованиях доминирует познавательная функция и статистические показатели, являясь отражением каких-либо свойств изучаемых явлений и процессов, позволяют охарактеризовать, раскрыть исследуемый объект, познать его. Многообразие функций и целей, которые выполняют показатели, определяет их виды. Для характеристики общественных явлений и процессов особое значение имеют интегральные показатели, которые отражают изучаемое явление в целом. Среди них выделяют:
Абсолютные величины – эти показатели выражают размеры (уровни, объемы) явлений и процессов. Их получают в результате статистического наблюдения и сводки исходной информации. Практически любая статистическая информация начинает формироваться с абсолютных величин, и с их помощью измеряется большинство сторон общественной жизни. По способу выражения размеров изучаемых явлений абсолютные величины подразделяются на индивидуальные, характеризующие размеры количественных признаков у отдельных объектов, и суммарные, дающие информацию о численности совокупности и объеме признаков. Абсолютные величины всегда имеют определенную размерность, единицы измерения. В зависимости от целей анализа применяются натуральные, денежные (стоимостные) и трудовые единицы измерения.
Относительные величины необходимы для сравнения и сопоставления данных. Обычно относительные величины определяются как частное от деления двух абсолютных величин и характеризуют количественное соотношение между ними. При расчете относительных величин в числитель ставится показатель, отражающий то явление, которое изучается, а в знаменатель тот, с которым производится сравнение. Результат отношения, т.е. искомая относительная величина, выражается в форме коэффициента, индекса, процента, промилле, децимилле. По своему назначению относительные величины подразделяются на следующие виды:
Относительные величины структуры характеризуют состав изучаемых совокупностей. Исчисляются они как отношение абсолютной величины каждого из элементов совокупности к абсолютной величине этой совокупности, т.е. отношение части к целому и представляют собой удельный вес части в целом. Как правило, относительные величины структуры выражаются в процентах, например такой показатель как доля грамотного населения.
Х= n / N * 100% , где
Х – это относительная величина структуры;
n – величина изучаемой части совокупности;
N – величина всей совокупности.
Относительные величины динамики характеризуют изменение изучаемого явления во времени, отражают направление развития, измеряют его интенсивность. Примером относительной величины динамики является такой показатель как темп роста, показывающий во сколько раз изучаемый показатель больше или меньше базисного показателя.
X= Y / Z * 100%, где
X – относительная величина динамики;
Y – более поздний по времени показатель;
Z – более ранний по времени (базисный) показатель.
Относительные величины сравнения характеризуют количественное соотношение одноименных показателей, относящихся к различным объектам наблюдения, или описывают соотношение между отдельными частями статистической совокупности, показывая, во сколько раз изучаемая часть совокупности больше или меньше части, которая принимается за основание. Например, эти величины используют для сопоставления уровня производства или потребления в разных странах.
X=K/M*100%, где
X – относительная величина сравнения;
K – величина изучаемой части совокупности;
M – величина части совокупности с которой производится сравнение.
Относительные величины интенсивности показывают насколько широко распространено изучаемое явление в той или иной среде. Они характеризуют соотношение разноименных, но связанных между собой величин. Рассчитываются относительные величины интенсивности делением абсолютной величины изучаемого явления на абсолютную величину, характеризующую объем среды, в которой происходит развитие или распространение изучаемого явления. Относительная величина интенсивности показывает, сколько единиц одной совокупности приходится на единицу другой совокупности. Например, показатель плотности населения указывает, сколько человек приходится на 1 кв. км. конкретной территории.
X=A/B, где
X – относительная величина интенсивности;
A – величина изучаемой совокупности;
B – величина совокупности, характеризующей объем среды.
Тема 2. ОСНОВЫ ОПИСАТЕЛЬНОЙ (ДЕСКРИПТИВНОЙ) СТАТИСТИКИ
В процессе обработки количественных данных возникает необходимость определения обобщающих характеристик изучаемого признака в исследуемой совокупности. Методы расчета таких обобщающих характеристик, описывающих изучаемое явление, разработаны в рамках описательной (дескриптивной) статистики. Показатели дескриптивной статистики делятся на меры среднего значения и меры разброса.
Меры среднего значения (средние величины) отражают типичные, обобщенные характеристики признака в расчете на единицу совокупности, сглаживают случайные индивидуальные отклонения значения признака, показывая то общее, что имеется у отдельных объектов, позволяют сравнивать по изучаемому признаку различные совокупности. Индивидуальные значения признака у отдельных объектов, входящих в изучаемую совокупность, могут не совпадать со средней величиной, однако, при условии качественной однородности изучаемой совокупности, меры среднего значения выявляют объективные закономерности, присущие массовым явлениям и незаметные в единичных случаях. К числу наиболее часто используемых в гуманитарных науках мер среднего значения относятся: средняя арифметическая, медиана и мода.
Для расчета средней арифметической общий объем признака распределяется поровну между всеми единицами изучаемой совокупности.
, где
Хi – индивидуальные значения признака каждой единицы совокупности;
n – число единиц совокупности.
В случаях недостаточной однородности совокупности, когда наблюдаются большие колебания в крайних значениях признака, для уточнения средней арифметической используется такой показатель, как медиана. Для расчета медианы необходимо упорядочить значения совокупности по возрастанию (убыванию) и найти значение признака (число или интервал), находящийся по середине упорядоченного списка значений.
При изучении качественных признаков для определения обобщающих характеристик совокупности используется число мода. Модой называется самый распространенный вариант качественного признака, наиболее типичное «модное» значение внутри изучаемой совокупности. Для получения данной величины осуществляется подсчет встречаемости вариантов изучаемого качественного признака.
Меры разброса(вариации) характеризуют степень однородности изучаемой совокупности, показывают, насколько сильно варьируются значения признака в данной совокупности, насколько существенно они отклоняются от среднего значения. К числу наиболее часто используемых в гуманитарных исследованиях мер разброса относятся: дисперсия признака, стандартное квадратичное отклонение, коэффициенты вариации и осциляции.
Дисперсия (D) характеризует величину отличия от среднего значения. Чем больше дисперсия, тем более неоднородной является изучаемая совокупность. Если же разброс значений отсутствует вообще, т.е. все значения признака в совокупности равны между собой, то дисперсия равна нулю.
, где
Хi – индивидуальные значения признака каждой единицы совокупности;
– среднее значение признака;
n – число единиц совокупности.
Чтобы охарактеризовать распределение отклонений признака обычно используется такой показатель, как среднее квадратичное (стандартное) отклонение(s). Он рассчитывается с помощью извлечения квадратного корня из показателя дисперсии.
, где
Хi – индивидуальные значения признака каждой единицы совокупности;
– среднее значение признака;
n – число единиц совокупности.
Коэффициент вариации (V) показывает относительную величину стандартного отклонения в сравнении со средним арифметическим значением, позволяет сравнивать неоднородность совокупности по исходным признакам разной природы, измеренным в разных единицах. Рассчитывается коэффициент вариации в процентах. Если совокупность однородна, то вариация равна нулю, значения же коэффициента вариации превышающие 40% говорят о неоднородности данной совокупности.
, где
s – среднее квадратичное (стандартное) отклонение;
– среднее значение признака.
Тема 3. ВЫБОРОЧНЫЙ МЕТОД
Всю совокупность изучаемых в конкретном исследовании с помощью количественных методов объектов принято называть генеральной совокупностью. В тех случаях, когда генеральная совокупность включает в себя слишком большое число объектов, или когда эмпирические данные об этих объектах фрагментарны, применяется выборочный метод статистического исследования, при котором обобщающие показатели генеральной совокупности определяются с помощью данных некоторой ее части, выделенной на основе случайного отбора. Эта отобранная из генеральной совокупности часть данных называется выборочной совокупностью или выборкой. При выборочном обследовании обычно исследуются: либо средний размер того или иного признака у единиц совокупности, либо доля единиц, обладающих тем или иным признаком, т.е. удельный вес определенных единиц в совокупности.
Важнейшим научным требованием к применению выборочного метода является репрезентативность – свойство выборки отражать основные характеристики генеральной совокупности. Для соблюдения этого требования все объекты генеральной совокупности должны иметь равную возможность попасть в выборку. Достигается репрезентативность через случайность отбора данных, например, путем механического отбора (каждый десятый или двадцатый объект генеральной совокупности) или с помощью генератора случайных чисел. Также используется типическое (или районированное) выборочное наблюдение, для проведения которого, изучаемая генеральная совокупность предварительно подразделяется на качественно-однородные по существенному признаку группы, из которых в дальнейшем производится случайный отбор.
Результаты отдельных выборочных наблюдений по одной и той же генеральной совокупности обычно расходятся не только между собой, но и с характеристиками самой генеральной совокупности. Подобное расхождение называется ошибкой выборки. Ошибки выборки могут быть как случайными, например, в результате погрешности внесения данных при регистрации или случайного неравномерного включения в выборку объектов генеральной совокупности, так и систематическими, причиной которых стало нарушение репрезентативности при отборе данных. Систематические ошибки приводят к искажению результатов всего исследования, в то время как случайные могут быть отслежены с помощью специальных процедур анализа.
Величина случайной ошибки выборки зависит от принятого способа формирования выборочной совокупности, от объема выборки, от размера дисперсии изучаемого признака в генеральной совокупности. Чем больше разброс значений, тем больше будет величина ошибки. Для определения количественной характеристики отклонения показателя выборочной совокупности от показателя генеральной совокупности рассчитывается стандартная ошибка выборки – m (Мю).
, где
s – среднее квадратичное (стандартное) отклонение;
n – объем выборочной совокупности.
Полученная величина стандартной ошибки представляет из себя интервал (± m), который имеет свою доверительную вероятность, т.е. вероятность того, что реальная характеристика генеральной совокупности будет находиться в интервале равном размеру стандартной ошибки выборки. Однако в каждом конкретном случае расхождение между выборочным и генеральным показателем, т.е. Δ, может быть больше или меньше средней ошибки μ. Поэтому Δ называют предельной ошибкой выборки и рассматривают ее как t-кратное μ, т.е.:
Δ= t μ ,где
t – статистический коэффициент, равный 1 для вероятности 68% (t=1); равный 2 для вероятности 95% (t=2); равный 3 для вероятности 99,7% (t=3).
Однако, чем большую вероятность включения в доверительный интервал значения генеральной совокупности исследователь хочет получить, тем шире и неопределенней становится сам интервал. Поэтому, наиболее часто используется t=2. Таким образом, доверительный интервал, в котором находится изучаемое значение генеральной совокупности, выглядит следующим образом:
выборки – t μ ≤ ген. совокуп. ≥ выборки + t μ
Доверительный интервал позволяет 1) распространить выборочные данные на итоговые величины генеральной совокупности, для чего необходимо знать объем генеральной совокупности; 2) сравнивать различные выборки между собой. Если средние значения двух выборок при t=3 находятся в одном доверительном интервале, то различия этих значений случайны, а если они не совпадают (не пересекаются), то эти различия статистически значимы.
Когда требуется изучить удельный вес определенных единиц в генеральной совокупности используется другая формула расчета m и, следовательно, доверительного интервала:
, где
q – доля каждого значения в выборке;
n – объем выборки.
В этом случае доверительный интервал оказывается в диапазоне:
q выборки – t μ ≤ Q ген. совокуп. ≥ q выборки + t μ
Тема 4. АНАЛИЗ СТАТИСТИЧЕСКОЙ ВЗАИМОСВЯЗИ (1.11.12)
Гуманитарное исследование требует установления связи между общественными явлениями или отдельными их сторонами, так как одни общественные явления могут оказывать воздействие или влиять на другие, приводя к их изменениям. Исходя из этого принято различать независимые переменные (факторные признаки), которые оказывают влияние, и зависимые переменные (результативные признаки), которые изменяются под воздействием других. Связи между признаками могут быть как прямыми (с возрастанием одного признака другой тоже растет), так и обратными (с ростом одного признака другой – убывает). Связи различаются также и по своей форме: они могут быть выражены прямой линией (в таком случае зависимость переменных между собой называют линейной), гиперболой, параболой и т.п. Если связь выявляется между парой признаков, то эта зависимость называется парной, если же исследуется зависимость результативного признака от нескольких признаков-факторов, то такая связь называется многофакторной или множественной.
Для установления силы (тесноты) связи и ее направленности (прямой или обратной) используется метод корреляционного анализа, который изучает синхронность изменений значений двух или более переменных. Коэффициент парной линейной корреляции (r) Пирсона рассчитывается по формуле:
r = , где
- каждое значение переменной Х; - среднее значение переменной Х
- каждое значение переменной У; - среднее значение переменной У
Коэффициент корреляции имеет диапазон значений [-1, +1]. Знак коэффициента корреляции (+ или – ) показывает направление связи (прямая или обратная). Сила связи определяется размером коэффициента: чем ближе полученное значение коэффициента к 1 или –1, тем связь сильнее, а чем ближе к 0, тем слабее. Связь считается сильной, если коэффициент превышает значение ±0,7, и слабой, если он меньше ±0,3, 0,5 средняя.
На графике пример с крестьянскими хоз-ми – точкой на графике меж лошадьми и землёй (облако точек вдоль гипотетической прямой от нуля по прямой связи)
Отсутствие связи – тоже вывод.
Обнаруженная в результате корреляционного анализа связь между двумя переменными может оказаться случайной. Чтобы избежать ошибочных выводов на ее основе необходимо рассчитать уровень статистической значимости обнаруженной связи, т.е. вероятность случайности этой связи (t). Данная величина рассчитывается по формуле:
, где
r – значение коэффициента корреляции;
n – количество пар значений изучаемых переменных.
Чем больше значение (t), тем выше вероятность того, что выявленная взаимосвязь окажется случайной. Обычно для объективности выводов достаточно, чтобы уровень статистической значимости был менее 0,05, т.е. вероятность случайности связи менее 5%. (зависимость переменных определить невозможно нельзя определить причину и следствие)
Возведение коэффициента корреляции в квадрат дает значение коэффициента детерминации, показывающего, в какой степени изменения одной переменной влияют на другую.
Корреляционный анализ не способен определить какая из двух переменных является независимой (факторной), а какая зависимой (результативной), т.е. причинно-следственный характер изучаемой связи. Для решения этих задач используется метод регрессионного анализа. Для его использования требуется первоначально логически определить форму зависимости (линейная, параболическая, гиперболическая и т.п.). Делается это путем построения диаграммы рассеяния – графика, на котором по горизонтальной оси (X) откладываются значения одной переменной, а по вертикальной (Y) другой. Каждому объекту на диаграмме соответствует точка, координаты которой равняются значениям пары выбранных для анализа переменных. В случаях строгой функциональной зависимости двух переменных эти точки располагаются на одной прямой, направление которой указывает и направление связи (прямая или обратная). В случаях нестрогой зависимости на графике формируется облако точек, направление которого можно определить путем расчета линии регрессии, если это прямая линия, то по формуле:
, где
x и y – переменные;
– величина значения зависимой переменной, когда независимая равняется нулю, рассчитываемая по формуле:
b – коэффициент регрессии, который рассчитывается путем преобразования исходной формулы:
Коэффициент регрессии показывает, насколько изменяется значение зависимой переменной y при изменении независимой переменной x на единицу.
Тема 5. АНАЛИЗ ВЗАИМОСВЯЗИ КАЧЕСТВЕННЫХ ПРИЗНАКОВ(1.11.12)
Эмпирические данные, на основании которых строится гуманитарное исследование делятся на два основных вида: количественные (т.е. выраженные в цифрах характеристики изучаемого явления) и качественные(характеризующие различные качества изучаемого явления) признаки. По своей природе качественные признаки могут быть выражены числом только опосредовано, через подсчет количества, доли и частоты встречаемости данного признака в изучаемой совокупности. Качественные признаки в свою очередь можно разделить на ранговые, отношения между которыми упорядочены по принципу больше-меньше, лучше-хуже (например, воинские звания или экзаменационные оценки), и номинативные, в которых этот принцип не работает (например, цвет волос или национальность).
Для установления взаимосвязи между ранговыми признаками в статистике разработан коэффициент ранговой корреляции Спирмэна ( р):
Для расчета этого коэффициента значения переменных Х и У нумеруются в порядке возрастания или убывания, т.е. им присваивается определенный порядковый номер в упорядоченном ряду или ранг. А затем, ранги отдельных значений факторного признака сопоставляются с рангами значений результативного признака. Если разность между рангами (d) равна нулю, т.е. ранги результативного признака полностью совпадают с рангами факторного признака, коэффициент Спирмэна будет равен 1, т.е. связь между переменными является полной. Данный коэффициент, как и корреляция Пирсона, имеет диапазон значений [-1, +1]. Знак коэффициента корреляции (+ или – ) показывает направление связи (прямая или обратная). Сила связи определяется размером коэффициента: чем ближе полученное значение коэффициента к 1 или –1, тем связь сильнее, а чем ближе к 0, тем слабее.
Требования(0,61) соц состав корреляция (0,32) степень организваности(0,42) метод(0,7) (таблица)
Для анализа взаимосвязи между номинативными качественными признаками существует группа методов, основанных на изучении распределения значений номинативных признаков с помощью перекрестной таблицы частот, называемой также таблицей сопряженности (прямоугольная таблица, в строках которой указываются значения одной переменной (х), а в столбцах – другой (у). В ячейках таблицы проставляются числа, показывающие, сколько единиц совокупности встречается с сочетанием каждого из вариантов каждой переменной. В зависимости от характера распределения частот внутри таблицы можно судить о том, существует ли связь между данными переменными. Если изучается распределение номинативных признаков только по двум вариантам значений (наличие или отсутствие качества), то каждая ячейка таблицы получает свою индикацию, выраженную латинскими буквами a, b, c, d, а сама таблица сопряженности имеет вид:
у1 | у2 | |
х1 | a | B |
х2 | c | D |
Для примера таблица по белым офицерам, где видно что выходцы из семьи служащих были офицерами, а не служащие рядовые
Соц происхождение влияло на карьеру
офицеры | рядовые | |
служащие | ||
не |
Q=0,82(связь прямая и прочная)
Взаимосвязь двух переменных определяется в данном случае с помощью двух коэффициентов, находящихся, как и коэффициенты корреляции в диапазоне [-1, +1]. Чем ближе к 1 полученное значение, тем связь сильнее, чем ближе к 0, тем слабее. Это коэффициенты ассоциации (Q) и контингенции (j):
;
рядовы | прапор | Млад.офцер | Всего | |
Рабочие | ||||
Крестьяне | ||||
служащие | ||||
всего |
Перекрёстная таблица
Если каждая из переменных х и у имеет более двух вариантов значений, то таблицы сопряженности имеют большее число строк и столбцов. Для анализа взаимосвязи между признаками в таком случае прибегают к построению таблицы ожидаемых частот, в которую вносят результаты гипотетического (случайного) распределения значений переменных, основанного на условии отсутствия влияния факторного признака на результативный. Эмпирическое распределение значений исследуемых переменных из таблицы сопряженности сравниваются с гипотетическим распределением этих же переменных в таблице ожидаемых частот. Если признак (переменная), положенный в основу группировки по столбцам не зависит от признака, положенного в основу группировки по строкам, то значения в таблице сопряженности и в таблице ожидаемых частот совпадут. Однако обычно эмпирическое распределение не совпадает с гипотетическим и оценить случайность или закономерность таких расхождений позволяют статистические критерии согласия хи-квадрат (χ2), который рассчитывается на основе суммирования квадратов разностей эмпирических и ожидаемых частот (при этом число степеней свободы К определяется произведением (число строк К1 – 1)*(число столбцов К2 – 1)). и показатель взаимной сопряженности (φ2), рассчитываемый как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот столбца и строки минус единица. Чем ближе значение (χ2) и (φ2) к нулю, тем связь между переменными слабее.
; , где
f1 – значения эмпирической таблицы сопряженности;
f2 – значения гипотетической таблицы ожидаемых частот;
fij – значения эмпирической таблицы, в которой i – номер строки, а j – номер столбца;
Аij – итоговые частоты по строкам и столбцам.
Тема 6. МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ
Многомерные модели используются для описания объектов в n- мерном пространстве признаков и выполняют такие интеллектуальные функции, как структурирование эмпирической информации, классификация, экстраполяция, сравнение, проверка гипотез.
Вообще существую многомерны факторный анализ – классивикация признаков и объектов.
Многомерный факторный анализ.Основная идея факторного анализа сводится к тому, что если несколько признаков, измеренных на группе объектов, изменяются согласовано в одном направлении, то можно предположить существование одной общей причины этой совместной изменчивости – фактора, как скрытой (латентной), непосредственно не доступной измерению переменной. Таким образом, главная цель факторного анализа – уменьшение размерности исходных данных с целью их экономного описания при условии минимальных потерь исходной информации. Результатом факторного анализа является переход от множества исходных переменных к существенно меньшему числу новых переменных – факторов. Фактор при этом интерпретируется как причина совместной изменчивости нескольких исходных переменных. Если исходить из того, что корреляции (совместные изменения) могут быть объяснены влиянием скрытых причин – факторов, то основное назначение факторного анализа – анализ корреляции множества признаков.
В программе SPSSбаза данный таблица а по объектам и признакам трансыормируется в матрицу корреляции программа сортирует по типу информации по связи и появляется таблица «с» факторныйх нагрузок (признаки и факторы)
На первом этапе факторного анализа рассчитывается матрица парных коэффициентов корреляции исходных признаков, которая фиксирует степень взаимосвязи между каждой парой признаков. На ее основе группы согласованно изменяющихся признаков объединяются в факторы, и строится новая матрица, в которой рассчитываются коэффициенты взаимосвязи между отдельными признаками и каждым из факторов. Этот коэффициент, выражающий меру влияния фактора на признак, называется факторной нагрузкой, а матрица, в которую он записывается – факторной матрицей. Факторная матрица фиксирует степень линейной связи каждого признака с каждым фактором. Величина факторной нагрузки не превышает по модулю единицы, а знак ее говорит о прямой (положительной) и обратной (отрицательной) связи признака с фактором. Чем больше абсолютная величина факторной нагрузки признака по некоторому фактору, тем в большей степени этот фактор определяет данный признак. Величина проявления фактора у отдельного объекта называется факторным весом объекта по данному фактору. Факторные веса позволяют ранжировать, упорядочивать объекты по каждому фактору. Чем больше факторный вес некоторого объекта, тем больше в нем проявляется закономерность, отражаемая данным фактором.
Факторная модель дает возможность вычислять вклады факторов в общую дисперсию признаков. Суммируя квадраты факторных нагрузок для каждого фактора по всем признакам, можно получить вклад каждого фактора в общую дисперсию системы признаков. Чем больше вклад фактора в общую дисперсию, тем более значимым и существенным является сам фактор. При этом выявляется и оптимальное количество общих факторов, достаточно хорошо описывающих систему исходных признаков.
Метод главных компонентов даёт разброс, который измеряется с помощью коэффициента корреляции при преувеличении до 65 % (как правило первый фактор работает уже 60%)
Многомерная классификация включает значительное число методов, таких как кластер-анализ, дискриминантный анализ, многомерное шкалирование, таксономия и т.д., объединенных общими целями построения математически обоснованной типологии объектов. В сравнительных исследованиях наиболее часто используется агломеративно-иерархический кластер-анализ,который решает задачу построения классификации, т.е. разделения исходного множества объектов на группы (классы, кластеры), внутри которых объекты больше похожи друг на друга, нежели на объекты из других групп. В основе данного метода лежит условие, что все m признаков измерены в количественной шкале, а каждый из n объектов может быть представлен точкой в m-мерном пространстве признаков. О сходстве объектов можно судить по расстоянию между соответствующими точками. Объекты тем более близки, чем меньше различий между одноименными показателями. Для определения близости пары точек в многомерном пространстве количественных признаков используется евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, взятых для данной пары объектов. Подсчитав значения расстояний для всех возможных пар объектов, их помещают в квадратную матрицу размером m х m (матрицу расстояний), которая становится основой для реализации агломеративно-иерархического метода. Основная идея данного метода заключается в последовательном объединении группируемых объектов – сначала самых близких, а затем все более удаленных друг от друга. Процедура построения классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп (кластеров) объектов.
На первом этапе кластер-анализа рассматривается начальная матрица расстояний между объектами, и по ней определяется минимальное расстояние. Наиболее близкие объекты, находящиеся между собой на этом расстоянии, объединяются в один кластер. Далее рассчитывается расстояние от полученного кластера до всех остальных объектов, как среднее из расстояний от объектов первого кластера (от слова ргроздь) до всех остальных. Затем вновь ищется минимальное расстояние между точками и формируется новый кластер. Этот кластер может быть построен в результате объединения либо двух объектов, либо одного объекта с кластером, построенном на первом этапе. В конце процедуры объединения объектов в кластеры и кластеров между собой получается один кластер, объединяющий всю совокупность объектов.
Результаты многомерной классификации представляют в виде дендрограммы, содержащей n уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров. В итоге предстает математически обоснованная классификация или типология объектов.
Метод кА средних, когда мы не знаем сколько групп нам необходимо получить, тупо делим одно облако точек на 2ва программой
Программа измеряет, перебрасывет точку и проверяет разброс, если разброс увеличивается оставляют
Тема 7. АНАЛИЗ ДИНАМИЧЕСКИХ РЯДОВ
Рядом динамики называется ряд числовых значений статистического показателя, характеризующих изменение изучаемого явления во времени. Каждое отдельное числовое значение показателя, составляющее динамический ряд называется уровнем ряда. Каждый уровень ряда сопровождается указаниями о тех периодах или моментах времени, к которым он относится. Исходя из этого все показатели рядов динамики разделяются на моментные, описывающие состояние явления на тот или иной момент времени, и интервальные, отражающие итог развития какого-либо процесса или явления за определенный промежуток времени. Каждый уровень интервального ряда представляет собой сумму уровней за более короткие промежутки времени. Важнейшим условием анализа динамических рядов является – сопоставимость уровней динамического ряда, обеспечивающая валидность данных.
К основным аналитическим показателям рядов динамики относятся: средний уровень ряда, абсолютный прирост, темп роста, темп прироста, основная тенденция (тренд) развития, коэффициент корреляции рядов динамики и автокорреляция.
Средний уровень ряда рассчитывается по формуле средней арифметической (См. стр. 10 настоящего пособия) для интервальных или формуле средней хронологической для моментных показателей.
Рассчитав средний уровень ряда, можно обнаружить отличие отдельных уровней ряда от этих средних значений, т.е. вычислить дескриптивные меры разброса – стандартное квадратичное отклонение и коэффициент вариации (См. стр. 11 настоящего пособия).
Расчет большинства показателей динамики основан на сравнении между собой уровней ряда динамики. При этом, уровень с которым производится сравнение называется базисным (или базой сравнения). Обычно такой базой сравнения выступает либо предыдущий уровень (тогда полученные при расчетах показатели называются цепными), либо начальный (первый) уровень ряда (постоянная база сравнения), либо средний уровень.
Абсолютный прирост рассчитывается как разность между двумя уровнями ряда и показывает, на сколько единиц увеличился (или уменьшился) сравниваемый уровень по сравнению с базисным, т.е.:
П = yi – yi-t , где
П – абсолютный прирост за t единиц времени;
yi – сравниваемый уровень;
yi-t – базисный уровень.
Темп роста – относительный показатель, показывающий, во сколько раз изменился изучаемый уровень, по сравнению с базисным. Рассчитывается он как частное от деления сравниваемого уровня (yi) на базисный (yi-t):
, , где
П – абсолютный прирост за t единиц времени;
yi-t – базисный уровень.
Темп прироста – относительный показатель, показывающий, на сколько процентов изучаемый уровень больше (или меньше) базисного уровня, принятого за 100%, и характеризующий скорость изменения уровня, т.е. интенсивность процесса роста.
Одними из важнейших задач анализа динамических рядов являются выделение однородных этапов развития явления, характеристика тенденций в рамках выделенных этапов и выявление закономерности изменения уровней динамического ряда, описывающего изучаемое явление. Основная тенденция (тренд) развития показывает общее направление изменения уровней динамического ряда, т.е. тенденцию к возрастанию, убыванию, стабилизации или циклическому развитию изучаемого явления или процесса. Для количественной характеристики основной тенденции используются как средние величины динамического ряда (например, скользящая средняя, описывающая средний уровень ряда за соответствующий период), так и сглаживание (выравнивание) данных различными методами аппроксимации (линейным, логарифмическим, полиномиальным, степенным, экспоненциальным). Причем, вычисление тренда позволяет не только сглаживать (аппроксимировать) и графически отображать тенденции данных, но и прогнозировать их поведение. Используя регрессионный анализ, можно продлить линию тренда в диаграмме за пределы реальных данных для предсказания будущих значений.
Изучение взаимообусловленности динамики нескольких динамических рядов требует обращения к методу корреляции (См. стр. 14. настоящего пособия). Рассчитывая коэффициент корреляции между уровнями одного ряда (х) и другого (у) можно охарактеризовать тесноту зависимости между колебаниями данных двух рядов, вызванными действием как случайных, так и главных причин, определяющих тренд. При этом, необходимо учитывать, что изменения уровней одного ряда могут вызывать изменение уровней другого ряда только через определенный промежуток времени, поэтому, чтобы правильно оценить взаимообусловленность переменных в отдельных случаях приходится коррелировать ряды с временным лагом. В случаях, когда в рядах динамики наблюдается определенная зависимость последующих значений переменной от предшествующих (или базисных) рассчитывается автокорреляция, показывающая направление этой зависимости и тесноту выявленной связи.
Тема 8. БУЛЕВА АЛГЕБРА В СРАВНИТЕЛЬНЫХ ИССЛЕДОВАНИЯХ
Булева алгебра возникла, как исторически первый раздел математической логики в середине ХIХ века, и названа по имени Джорджа Буля (1815-64гг.), который первым представил логику в качестве алгебры классов, связанных операторами «и», «или», и «не». С его работ начинается алгебра логики, в которой методы алгебры используются для операций над высказываниями, в отношении каждого из которых можно утверждать только то, что его содержание истинно или ложно. В компаративистике булева алгебра используется с конца 1980-х гг., как методика анализа качественных признаков (Чарльз Рэйджин в рабочем движении, Абель, Ром, Петтерс, Марков).
В булевой алгебре качественное высказывание интерпретируется либо как истинное (наличие качества), либо как ложное (отсутствие качества). Эти два утверждения кодируются двоичной системой исчисления (1 и 0): 1 приписывается истине, 0 – лжи. В сравнительных исследованиях обычно можно обнаружить определенный набор высказываний, который описывает наличие или отсутствие в группе регионов или стран некоторых условий, а соответственно – наличие или отсутствие некоторых следствий из этих условий. Следовательно, используя бинарные обозначения, можно закодировать как систему условий, так и систему следствий и полученные ряды цифр свести в таблицу истинности, в которой каждой комбинации условий будет соответствовать определенное следствие.
Рис.1 Гипотетическая таблица истинности, показывающая сочетания трех причин для одного следствия
Условие А. | Условие В. | Условие С. | Следствие F. | Число примеров |
*Рэйджинс анализировал военные перевороты…три условия влияют…наличие конфликта внутри армии….смерть диктатора…конфликт между армией и силами гос безопасности…кмбинации: не выполн все условия…и т.п.
В представленной таблице цифрой 1 закодировано наличие условий А, В, С и следствия F, 0 – отсутствие таковых условий. Причем неважно, что число примеров в каждой комбинации различно, важно лишь то, что все ряды таблицы истинности (кроме первого) показывают наличие следствия. Таблица истинности иллюстрирует гипотезу, согласно которой следствие F наступает в случае сочетания условий А, В, и С. Это сочетание (дизъюнкция) обозначает операцию соединения двух и более высказываний при помощи логического союза «или» для производства более сложного высказывания. Союз «или» не предполагает здесь связи между высказываниями по смыслу, а только по их истинности или ложности. Если из двух высказываний хотя бы одно является истинным, то и полученное сложное высказывание является так же истинным. То есть, если А+В=F, то F=1 при А=1 и В=1 или при А=1 и В=0, или при А=0 и В=1. Другими словами в булевой алгебре 1+1=1, 1+0=1 и 0+1=1. Высказывание А+В=F читается: если А истинно или В истинно, то F также истинно. При двух ложных высказываниях полученное высказывание является также ложным, т.е. 0+0=0. Следовательно, для описания гипотезы, предложенной в таблице истинности логическое высказывание будет иметь вид F=А+В+С.
Высказывание, соединенное логическим оператором «и» является логическим произведением и описывается с помощью простого соположения (АВ). Прописными буквами обозначаются истинные высказывания (наличие качества), а строчными – ложные (отсутствие качества). Таким образом, второй ряд приведенной таблицы истинности может быть представлен логическим выражением Abc. Для нашего примера, используя логические операторы «и» и «или», можно записать суммарное выражение для F следующей формулой:
F=Аbc+aBc+ abC+ABc+AbC+aBC+ABC
После представления таблицы истинности в виде формулы, гипотеза о наступлении следствия F, в случае сочетания условий А,В и С, подвергается проверке с помощью техники булевой минимизации. Основное правило минимизации, используемое в качественном сравнительном исследовании, состоит в следующем: Если два булевых выражения, говорящих об одном и том же следствии, различаются между собой только одним условием, тогда оно может быть упразднено при построении более простого объединенного выражения. Например, высказывания АВс и Abc оба производят результат F, но при этом отличаются наличием и отсутствием одного и того же условия b и В. Итогом минимизации этих двух выражений станет произведение Ас. Процедура минимизации продолжается пока это возможно. В окончательном варианте процесс минимизации нашего гипотетического выражения производит редуцированное равенство: F=А+В+С, что доказывает нашу гипотезу.
Таким образом, использование булевой алгебры в сравнительном исследовании позволяет решать ряд задач. Во-первых, булева алгебра позволяет фальсификацию и определение гипотез сравнительного исследования. Во-вторых, булева алгебра позволяет включить в анализ максимальное число возможных комбинаций условий. В-третьих, она позволяет осуществлять типологию процессов и феноменов, вовлеченных в сравнительное исследование. В-четвертых, булев подход позволяет осуществить оценку взаимодополняющих или конкурирующих гипотез. В-пятых, техника булевого анализа помогает одновременно исследовать целостность причин и следствий, а также отдельных элементов этой целостности.
Исследование Аракана по рабочему движению в западной европпе вызванному рабочим движением после октябрьской революции. Условия: устанавливало ли национальную церковь или католики, участие церкви в массовом образовании, ориентировано ли гос-во на буржуа или земельных собственников, время формирования единого гос-ва(время объединения новое время) по 6 комбинациям примеров не было не удалось…получилось 3 комбинации с расколом…небольшое участие церкви в массовом образов. В молод го свах ориентированных на италия норвегия финляндия исландия
Небольшое участие церкви в массовом обр с длит гос в католич испания и франция
Значит уч церкви в протестантских странах с зашитой буржуа а германии
Становление институтов гос.всеобщего благосостояния
А.Хикс., Джуайямиксра как законодательство 20гг повлияло на становление государства всеобщего благосостояния
1. патриархальная гос-ть
2. унитарная демократия
3. мобилизация рабочего класса
4. наличие либерального правительства
5. наличие католического правительства
3 пути когда патриархальное гос-ть сочит с высок мобил отсут катол прав и тоталитарной демокр в австрии и германии(бисмеровский)
Либер прав мобил рабоч класса т тоталитарн бемокр в дани швец и брит(либерально-демократич)
Католического правительства без тотал прав бельгия и нидерланды(католическо-патреналистский)
Тема 9. КОНТЕНТ-АНАЛИЗ ТЕКСТОВ В ГУМАНИТАРНЫХ ИССЛЕДОВАНИЯХ
Контент-анализ – это формализованный метод исследования содержания информации посредством выявления устойчиво повторяющихся смысловых единиц текста (названий, понятий, имён, суждений и т.д.). Он предполагает перевод в количественные показатели массовой текстовой информации с последующей статистической ее обработкой для оценки и интерпретации формы и содержания информационного источника. В основе метода лежит подсчет частот появления в тексте определенных смысловых единиц (переменных) содержания, а также изучение характера использования этих смысловых единиц автором текста и контекста их употребления. Возможны и варианты, когда выводы могут быть сделаны даже на основании единственного присутствия или отсутствия определенной смысловой единицы в тексте.
Смысловыми единицами текстаобычно являются:понятия, выраженные в отдельных терминах;группы понятий, объединенных тематической областью (категорией);темы, выраженные в целых смысловых абзацах, частях текстов;имена собственные;отдельные факты;аппеляции к потенциальному адресату.
Самостоятельное значение имеет подсчет общего количества употребленных в тексте слов – имен существительных, прилагательных, глаголов и т.п. Это позволяет оценить «выразительность» языка документа, его сложность и организованность. При этом слово (словосочетание) выступает простейшей единицей анализа.
Распространенными ошибками в применении контент-анализа являются: 1) Оперирование нестандартизированными мерами при сравнении разных текстов (например, использование в выводах не относительных, а абсолютных частот); 2) Многозначительность некоторых слов, которая может быть прояснена только из контекста употребления.
Виды контент-анализа: 1) Автоматическая классификация документов по содержанию – используется при составлении рубрикаторов, каталогов, библиографических баз данных; 2) Семантический анализ, изучающий организацию слов вокруг некой идеи, для чего изучаемый текст сводится к ограниченному набору определенных элементов, которые затем подвергаются анализу на базе фиксации частоты повторяемости символов и их корреляции друг с другом; 3) Структурный анализ обращает внимание не на то, что говорится в тексте, а на то, как говорится. В этом случае единицами измерения становятся: количество времени или печатного пространства (колонок, статей) уделенного в тексте (корпусе текстов) интересующему исследователя предмету, место различных сюжетов в тексте (например на какой странице газеты размещен текст и сопровожден ли иллюстрацией), размер заголовка; 4) Концептуальный анализ, при котором, слова, описывающие изучаемые явления, сводятся в обобщенные концептуальные образования (категории или тематические области) и производится анализ частот уже не отдельных слов, а этих категорий; 5) Анализ co-occurency, ориентированный на изучение совместной встречаемости отдельных слов различных категорий в тексте; 6) Concordens -анализ, изучающий частоту встречаемости в тексте различных классов лексики; 7) Когнитивное картирование, использующееся при изучении системы аргументации автора текста, позволяющее преобразовать линейную аргументацию в иерархическое древо и построить иерархическую модель понятийных структур; 8) Анализ Data Mining и Контент-мониторинг, занимающиеся обнаружением качественно новых данных в общем непрерывном потоке информации на основе методов математической и структурной лингвистики
Процедура контент-анализа предполагает проведение предварительной подготовительной работы над изучаемым текстом, которая заключается в поиске в документе смысловых единиц и их индикации. Если смысловой единицей выступает понятие (имя существительное), то для подготовки к анализу необходимо составить словарь синонимов (тезаурус), а также изучить возможность употребления данного слова в различны падежах, или в виде прилагательного (например, крестьянин – крестьянский). Каждый вариант написания в тексте изучаемого понятия требует соответствующей индикации. Когда смысловой единицей текста выступают явления или тематические области (категории), выраженные в различных терминах, например, тематическая область «экономика» может включать такие понятия как: производство,собственность, промышленность, инвестиции, капитал, налог и др.,в таком случае, требуется индикация всех слов, входящих в данную тематическую область. При этом, каждая изучаемая тематическая область требует отдельной индикации. Данная подготовительная работа позволяет избежать погрешностей в последующих интерпретациях полученных цифровых данных. Результаты подсчета частот сведенные в таблицы сопряженности могут быть проанализированы с помощью статистическогокритерия согласия хи-квадрат (χ2) (См. Тема 5.).
Каждая смысловая единица должна быть изучена с точки зрения контекста ее употребления. Простейшим вариантом данной процедуры является определение положительности, отрицательности или нейтральности контекста употребления конкретного понятия или факта (явления). Для иллюстрации контекста используется словарь прилагательных, характеризующих употребление отдельных понятий (имен существительных). При изучении текстов, в которых присутствует специфическая (например, профессиональная или жаргонная) лексика обычно возникает проблема соотнесения данного текста с некой нормой, которой может служить относительная частота употребления специфической лексики средним носителем языка (информация об этом сводится в частотные словари). Статистически значимые отклонения от норм могут быть отслежены с помощью компьютеризованной статистической оценки z-score.