Условия эксперимента и предлагаемые процедуры сравнения

⇐ Назад

Пусть A = - множество сравниваемых ПС, - множество экспертов, участвующих в эксперименте; n₁- число ПС, оцениваемых одним экспертом.

1. Эксперимент не сбалансирован. Степень доминирования ПС a₁ над a_jпо показателю K_rточно количественно установить невозможно.

Процедура сравнения 1. В этом случае по результатам экспертных оценок может быть построен ориентированный граф, отражающий взаимное доминирование ПС по заданному критерию K_r. Вершины графа отождествляются со сравниваемыми ПС. Если программное средство a_iпревосходит a_jпо качеству (признаку, критерию) K_r, то в матрице непосредственных путей графа на местеij-го элемента ставится единица.

Матрица доминирования, построенная по соответствующему графу, является алгебраической формой записи отношения доминирования. Численно степень доминирования, т.е. степень превосходства (значимость) ПСa_iпо критерию K_r, определяется рангом, равным сумме элементов i-й строки матрицы S:

S = D + D²,

где D- матрица доминирования.

Если отказаться от требования доминирования, допустив наличие двухсторонних связей (эксперт не видит разницы между ПСa_i и a_j) и петель при вершинах, то ранг программного средства a_i определится как сумма элементов i-й строки матрицы S1:

S1 = A + A²,

где A - матрица непосредственных путей исходного ориентированного графа.

Процесс построения матрицы непосредственных путей A сводится к следующему:

1) определяется порядок матрицы Aпо числу вершин в исходном графе (равен n- числу сравниваемых ПС); 2) вершины исходного графа (сравниваемые ПС) нумеруются в произвольном порядке; этими же номерами обозначаются строки и столбцы матрицы A; 3)если из вершиныi графа к вершине j имеется один или несколько непосредственных путей, то элемент матрицы A на пересеченииi-й строки и j-го столбца будет равен единице или некоторому натуральному числу, равному количеству непосредственных путей из вершины a_i к вершине a_j; в противном случае (если непосредственных путей нет) этот элемент будет равен нулю.

В практических расчетах, чтобы получить характеристику числовой меры ПС из качественного превосходства одного ПС над другим, достаточно возвести матрицу непосредственных путей орграфа в невысокую степень, например, четвертую, а затем суммы элементов строк полученной матрицы разделить на сумму всех элементов матрицы.

Пример расчета. Пусть при сравнительной экспертной оценке пяти ПС по одному из показателей, характеризующих качество эксплуатационной документации, получена нижеследующая матрица непосредственных путей А:

е₁₁

е₁₀

е₈

е₁₀

е₈

2. n > 2; n1 = 2; m = n(n-1)/2. Степень доминирования ПС a_iнад a_jпо показателю K_r можно характеризовать числом.

Процедура сравнения 2. Если по некоторому показателю (критерию) каждой паре программных продуктов a_i - a_j некоторой группы A, экспертами может быть дана количественная оценка S_ij > 0, означающая превосходство a_iнад a_j соответственно вS_ijраз, то совокупность элементов образует матрицу превосходства Относительные веса (значимость) объектов группы Aотождествляются (см. [5]) с компонентами собственного вектора матрицы S.

Поскольку собственные векторы определяются с точностью до произвольного множителя, то компоненты вектора П_j целесообразно нормировать так, чтобы

Если оценка ПС проводится по совокупности показателей, например, по надежности, удобству сопровождения и т.д., то после экспертной количественной оценки парных предпочтений по каждому показателю отдельно для каждой пары вершин a_i-a_j мультиграфа превосходства, соответствующего группе ПС, получаем mдуг ((ij); (ji))с оценками . Запись означает, что ПС a_j превосходит ПС a_i по показателю K_rв q раз, при этом , а веса показателей заданы, т.е.

Пример расчета. Пусть сравнивается группа ПС по критерию удобства сопровождения. Экспертная оценка дала следующие результаты:S₁₂ = 2,5;S₁₃ = 5;S₂₃ = 0,125.

Матрица превосходства для рассматриваемых ПС имеет вид:

Пусть далее для той же группы объектов парные предпочтения оценивались по совокупности критериев

Вычислим элементыS_ij матрицы превосходства.

Замечание. При использовании рассмотренных процедур следует учитывать, что ранг (вес, значимость) объекта - это относительный показатель, и ранг отдельного программного средства должен сопоставляться с рангами всех n участвующих в эксперименте ПС.

3. n = n₁ = 2; m > n.Сравниваемые ПС по каждому выбранному показателю оцениваются экспертами определенным числом баллов.

Процедура сравнения 3.1. Результаты эксперимента могут быть представлены двумя связанными рядами оценок (табл.1):

Таблица 1

План эксперимента (для условий 3)

Эксперимент	Результаты эксперимента
	ПС а₁	ПС а₂
	a₁	b₁
	a₂	b₂
…	…
i	a_i	b_i
…	…
m	a_m	b_m

Случай 1. Распределение подчиняется нормальному закону. Проверку значимости различия между двумя ПС по заданному показателю можно осуществить с использованием t-критерия с (m - 1) степенями свободы.

Нуль-гипотеза: математическое ожидание разности d равно нулю (сравниваемые ПС равноценны).

Случай 2. Если нет уверенности в том, что распределение dявляется нормальным для проверки значимости различия между ПС можно использовать ранговый критерий УИЛКОКСОНА.

Напомним, что нулевые значения d_iисключаются из рассмотрения и при расчетах число наблюдений n сокращается соответственно до числа ненулевых значений d_i(до m_r). Абсолютное значение|d_i| упорядочивают по рангам Ri. Если среди ненулевых значений |d_i| есть равные, то им приписывается средний ранг. Вычисляются суммы положительных SRi⁽⁺⁾ и отрицательныхSRi^(-) рангов, и меньшая из сумм используются в качестве статистики.

При m_r> 25 можно воспользоваться аппроксимацией нормальным распределением.

Замечание. Преимущества описанной процедуры заключаются в том, что при обработке парных наблюдений по сравнению со стандартными методами сравнения средних значений независимых выборок уменьшается рассеяние внутри выборок. Кроме того, распределение и может значительно отличаться от нормального, в то время как распределение будет достаточно хорошо аппроксимироваться нормальным распределением.

Процедура сравнения 3.2.Гораздо меньший объем вычислений потребуется для проверки значимости различия между системами, если воспользоваться критерием знаков Диксона и Муда. Здесь постулируется лишь независимость результатов измерений изучаемой переменной у отдельных систем.

Нуль-гипотеза: разности результатов оценки обеих систем (разности парных сравнений) в среднем (статистически) не отличаются от нуля, а значение медианы распределения разности равно нулю, т.е. число положительных и число отрицательных разностей должны быть равными. Нулевые разности исключаются из рассмотрения. Вероятность определенного числа плюсов и минусов определяется на основе биноминального распределения при ð=q=0.5. При m_r>50 биноминальные значения могут быть аппроксимированы с помощью критерия c², вычисляемого по формуле:

c² =((|fo⁽⁺⁾-fe|-0.5)²+(|fo^(-)-fe|-0.5)²)/fe,

гдеfo⁽⁺⁾, fo^(-) - соответственно фактические (полученные в эксперименте) частоты знаков «плюс» и «минус», fe - ожидаемая частота, равная 0,5*m_r.

Если расчетное значение c² меньше табличного значения, то нулевая гипотеза принимается.

Следует, однако, учитывать, что с ростом объема выборки эффективность критерия уменьшается. Поэтому при больших m_rдля оценки вероятности определенного числа знаков можно использовать нормальное распределение, рассчитывая его параметр по формуле:

Z=(|2x-m_r|-1)/ Ö m_r,

где x- наблюдаемая частота более редких знаков, m_r- число полученных в результате экспертизы значений d_i , iÎm_r (экспертных оценок), уменьшенное на число нулевых разностей.

Процедура сравнения 3.3.В качестве быстрого критерия можно воспользоваться модификацией критерия знаков, в которой статистикой служит величина Т=|(число плюсов)-(число минусов)|.

Если T>2Ö m_r , то на 5% уровне при двустороннем критерии разница должна рассматриваться как значимая.

Пример расчета. При сравнении двух программных систем были опрошены специалисты отделов компьютеризации ряда коммерческих и финансовых организаций. Экспертам предлагалось на основании рекламных проспектов оценить каждую из сравниваемых систем по 100 балльной шкале. Чтобы элиминировать (или уменьшить) влияние субъективных факторов и повысить заинтересованность участников в результатах экспертизы, каждой организации была обещана помощь в освоении и внедрении лучшей системы.

Результаты эксперимента представлены в нижеследующей таблице.

Номер эксперимента	ПП1	ПП2	d_i ПП1-ПП2
			-3
			-12
			-15
			+10
			-5
			+15
			-10
			+8
			-9
			-21

Как уже отмечалось, при обработке парных наблюдений уменьшается рассеяние внутри выборок и распределение разности значений оценок d_i приближается к нормальному распределению. Поэтому при проверке значимости различия средних значений воспользуемся t-критерием, вычисляемым по формуле:

с числом степеней свободы (m-1),

где d_ср, - соответственно среднее значение и среднее квадратическое отклонение.

Статистический критерий: t-критерий, двусторонний. Уровень значимости t_табл.= 2,3; t_расч.= 0,8 <t_табл_.

Таким образом, потенциальные пользователи не могут отдать предпочтение какой-либо из систем. Проверка значимости различия по непараметрическому критерию Уилкоксона для разностей пар дала такие же результаты.

4. n = n₁ = 2; m > n. Сравниваемые ПС оцениваются экспертами по альтернативному признаку (зависимая выборка).

Процедура сравнения 4.1 При заданных условиях результаты эксперимента целесообразно представить в виде таблицы сопряженности признаков (табл.2) и использовать для определения значимости различия между программными системами методы статистического анализа категоризованных переменных.

Таблица 2

План эксперимента (для условий 4)


I (превосходит по i-му показателю)	I (не I)
I	a	b
I (не I)	n	d

Пример.Пусть оценивается качество n₁(n₁=2) программных продуктов a₁ и a₂ двумя группами специалистов. Причем первую группу (из m₁ специалистов) составляют разработчики программных систем (a₁), а вторую (из m₂специалистов) - программисты-пользователи (a₂).

Нулевая гипотеза H₀: доли специалистов из первой и второй групп, предпочитающих системуa₁(a₂) совпадают. Альтернативная гипотеза H₁: доли специалистов из каждой группы, отдающих предпочтение системе a₁ (a₂) в генеральной совокупности разные.

Результаты оценки представляются в таблице сопряженности признаков вида:

	а1	а2	Итого
Г1	А	В	A+B = m₁
Г2	С	Д	C+Д = m₂
Итого:	А+С	В+Д	m

Статистический критерий: если m =(m₁ + m₂) Ј 30 и при этомm₁,m₂ Ј 15, то можно использовать точный критерий Фишера. Еслиm > 30 иA –Д і 15, то целесообразно использовать приближенный критерий c².

c²= ее(|F₀ - F_L| - 0,5) / F_L. При c²>c²_табл. принимается гипотеза H₁(суммирование производится по всем клеткам таблицы). Значения ожидаемой частоты F_LIдля каждой клетки вычисляется по формулам:

F_LA = ((A+B)(A+C))/N;

F_LB = ((A+B)(B+D))/N и т.д.

Еслиn₁>2, то поправка на непрерывность не производится и c² вычисляется по формуле:

c²= ее(F₀ – F_L)² /F_L.

Замечание. С целью элиминировать влияние на результаты экспертизы очередности, в которой программные системы предъявляются эксперту, целесообразно проводить попарные сравнения систем разными группами специалистов и представлять результаты оценки в виде нескольких таблиц сопряженности признаков с последующим статистическим анализом адекватности результатов сравнения.

Предположим, что в условиях предыдущего примера подгруппы Г11 и Г21 сравнивали системы в последовательности a₁-a₂ ,а подгруппы Г12 и Г22 - в последовательности a₂-a₁ . Результаты экспертизы представлены в двух нижеследующих таблицах:

	а1	а2	Итого
Г11	25(А)	7(В)	A+B = m₁₁
Г21	12(С)	36(Д)	C+Д = m₂₁
Итого:	А+С	В+Д	m1

	а1	а2	Итого
Г12	6(А)	2(В)	A+B = m₁₂
Г22	5(С)	17(Д)	C+Д = m₂₂
Итого:	А+С	В+Д	m2

Спрашивается, совпадают ли результаты сравнения. ГипотезаHo: результаты совпадают, ожидаются лишь различия, обусловленные случайной изменчивостью.

В описанной ситуации вполне допустимым является использование критерия c². В соответствии с гипотезой Hoожидаемые значения в клетках второй таблицы должны быть такими же, как в первой, т.е.ð₁₁=0.3125; ð₁₂=0.087; ð₂₁=0.15; ð₂₂=0.45.

Тогда ожидаемые частоты f_e для второй таблицы будут соответственно равны:

f_e11=30*0.3125=9.375;f_e12=2.625; f_e21=4.5;f_e22=13.5.

Вычислив c² по формуле

c²_расч=S(½ f_o-f_e½-0.5)²/f_e,

найдем, что c²_расч<<c²_табл , т.е. нет оснований отклонить гипотезу Ho.

Процедура сравнения 4.2.При сравнении сложных ПС по нескольким показателям, например, по таким показателям, как качество документации, интерфейс, удобство сопровождения, трудоемкость освоения и др. результаты экспертизы могут быть представлены в виде k*2-таблицы сопряженности признаков.

Характеристика качества	Сравниваемые системы
	ПС1	ПС2
Качество документации	a1	b1
Интерфейс	a2	b2
Удобство сопровождения	a3	b3
Трудоемкость освоения	a4	b4

Здесьa_i, b_i - соответственно количество экспертов, отдавших предпочтение поi-му показателю системе ПС1 (a_i ) и системе ПС2 (b_i ).

Нуль-гипотеза: в структуре результатов экспертизы обеих систем нет статистически значимых различий, т.е. по совокупности рассматриваемых признаков (характеристик) качество ПС1 и ПС2 одинаково.

Для проверки нуль-гипотезы можно использоватьc²-критерий Брандта и Снедекора c (k-1) степенями свободы.

Пример. Пусть при сравнении ПС1 и ПС2 получены следующие результаты:

Характеристика качества	Сравниваемые системы
	ПС1	ПС2
Качество документации	10 (a1)	10 (b1)
Интерфейс	15 (a2)	10 (b2)
Удобство сопровождения	9 (a3)	12 (b3)
Трудоемкость освоения	5 (a4)	7 (b4)

Спрашивается, являются ли оба столбца оценок статистически однородными. Сравнение выполнить со статистической достоверностью 99%.

Нуль гипотеза Ho: в структуре результатов экспертизы нет статистически значимых различий.

c²_расч=[(Sa_i/(a_i+b_i))-a²/n]*n²/a*b=2.01.

Здесь a=Sa_i , b=Sb_i_,n=(a+b).

Так как расчетное значение c²_расч меньше, чем табличное c²_3;0.01, нет оснований отклонитьHo.

Замечание. Если мы представляем исходные данные в виде таблиц сопряженности признаков (номинальная шкала), то при оценке связи между переменными могут использоваться различные модели, включая логарифмически-линейную, и меры связи (сравнительное исследование некоторых из широко используемых мер связи проведено в [7]). Однако, как отмечается в [6, с.139]), "с точки зрения оценки статистической значимости связи между строками и столбцами традиционный и логлинейный подходы к таблицам сопряженности, с одной стороны, и дуальное шкалирование, с другой стороны, дают сравнительно близкие результаты".

5. n > 2; n₁ і 2; m > n. ПС оцениваются экспертами определенным числом баллов, причем участие одного эксперта в сравнении более чем 2-3 ПС нежелательно или невозможно по условиям эксперимента.

Процедура сравнения 5. В описанных условиях, по-видимому, единственно возможным и при этом достаточно корректным способом сравнения и выбора ПС оказывается применение методов неполноблочного планирования экспериментов в активно-пассивной постановке [2,3]. В частности, для устранения влияния неоднородностей и сокращения затрат времени и средств на проведение эксперимента можно использоватьBIB-схемы, квадраты Юдена, решетчатые планы.

Процедура сравнения может осуществляться в такой последовательности:

1. В зависимости от числа сравниваемых ПС-претендентов и возможной (исходя из реальных условий) величины n₁выбирается конкретный план эксперимента.

2. В соответствии с требованиями плана формируется множество M ={b_j}(j О z) пользователей-экспертов, каждый из которых проработал с любой из n₁ ПС не менее заданного срока. Множество Mсостоит из k групп экспертов

M = U M_t , (t О k), а M_t = U M_t^(e), (e О s).

Если, например,n₁ = 2, то и s = 2. Тогда окажется, что эксперты, составляющие множество , испытывали сравниваемые типы ПС (работали с ними) в последовательности , а множество - в последовательности .

Поясним содержание п.2 на примере. Предположим, что по выбранной характеристике или группе характеристик необходимо провести сравнение четырех ПС при условии, что каждый эксперт знаком только с двумя системами. При n = 4 иn₁ = 2 целесообразно использовать BIB-схему с параметрами m =18, = 3,k = 6. Здесь m-число экспертов; - число повторений каждой пары сравниваемых ПС; k=n(n - 1)/2 - число групп экспертов, каждый из которых оценивает одну пару ПС.

Тогда

M_t = M_t⁽¹⁾, U M_t⁽²⁾; (t О g),

M_t⁽¹⁾, M_t⁽²⁾ ={b_j}, (j О d, d > l)

Условие d> желательно выполнять для того, чтобы облегчить выбор экспертов из dс учетом требований к структуре экспертной группы. Экспертам каждой группы присваиваются номера с использованием таблицы случайных чисел.

3. После того, как всем сравниваемым ПС экспертами, составляющими множество M, даны соответствующие оценки s_ij (для нашего примера ), приступают к заполнению двух таблиц планирования эксперимента, причем первая из таблиц заполняется оценкамиs_ij, случайно выбранными из множеств , а вторая - оценками s_ij⁽¹⁾, из множеств M_t⁽²⁾. Каждая из заполненных таким образом таблиц может обрабатываться раздельно. В дальнейшем результаты статистической обработки обеих таблиц сопоставляются и анализируются совместно. Возможно и объединение таблиц в одну с последующим статистическим анализом представленных в ней данных (тем самым элиминируется влияние на результаты сравнения "эффекта очередности").

Для экспериментальных данных, представленных в табл.3, в результате статистической обработки получены следующие значения F-критерия: F₁₂=67,1; F₁₃=18,0; F₁₄=30,3; F₂₃=15,6; F₂₄=7,2; F₃₄=1,6. Табличное значение для 1-процентного уровня значимости F_кр^табл=8,68.

Таблица 3

⇐ Назад

Далее ⇒