Методы оценки качества речи в IP-телефонии

Основными требованиями к качеству передаваемой речи, являются [9]:

· разборчивость (внятность);

· натуральность;

· громкость.

Первое и основное требование отображает выполнение линией связи своей главной функции – обеспечить, чтобы слушающий правильно понял смысл того, что ему передается. Для этого речь должна быть достаточно разборчива.

Второе требование – натуральность – оценивает способность системы воспроизводить не только смысл передаваемой речи, но и ее тембр, индивидуальные особенности голосов различных говорящих. В IP-телефонии это требование очень актуально, т.к. вокодерные системы, обеспечивающие высокую разборчивость речи, много теряют на натуральности, что причиняет неудобства пользователям.

Третье требование – громкость – определяет желательный уровень принимаемых сигналов, который в оптимальном случае должен быть таким, чтобы разборчивость (понятность) речи достигалась без напряжения слухового аппарата со стороны принимающего.

Методы оценки качества принято разделять на субъективные (качество передачи информации не измеряется какими-либо числовыми единицами, а оценивается условным балом) и объективные – основанные на получении, в качестве результата измерений, определенной числовой величины, не зависящей от того, кем производятся измерения.

Основными методами оценки качества связи, применяемыми к IP-телефонии, являются:

1) Наиболее широко используемый подход анализа искажений от компрессии/декомпрессии оперирует оценкой MOS (Mean Opinion Score), которая определяется для конкретного кодека как средняя оценка качества большой группой слушателей по пятибалльной шкале [1]. Для прослушивания предъявляются разные звуковые фрагменты – речь, музыка, речь на фоне различного шума и другие варианты. Недостатком данного метода является то, что он не объективный и одна и та же речь различными группами слушателей может быть оценена по-разному. Оценки интерпретируют следующим образом:

– высокое качество; аналогично качеству передачи речи в ISDN, или еще выше;

– качество ТфОП (toll quality); аналогично качеству речи, передаваемой с помощью кодека АДИКМ при скорости 32 Кбит/с. Такое качество обычно обеспечивается в большинстве телефонных разговоров. Мобильные сети обеспечивают качество чуть ниже toll quality;

– качество речи, по-прежнему, удовлетворительно, однако его ухудшение явно заметно на слух;

– речь разборчива, однако требует концентрации внимания для понимания. Такое качество обычно обеспечивается в системах связи специального применения (например, в вооруженных силах). Соответствует синтезированному звуку [2].

Значения MOS для различных стандартов кодеков приведены в табл.3.1.

Таблица 3.1 – Средние субъективные оценки качества различных методов кодирования

Кодек	Скорость передачи, кбит/с	MOS	Размер кадра, мс
G.711 PCM		4.3	0.125
G.726 Multi-rate ADPCM	16-40	2-4.3	0.125
G.723 MP-MLQ ACELP	5.3; 6.3	3.7; 3.8
G.728 LD-CEL		4.1	0.625
G.729 CS-ACELP
G.729a CS-ACELP		3.4
GSM RPE-LPC		3.9

Поскольку в IP-телефонии качество предоставляемой услуги тесно связано с ее стоимостью, то проект TIPHON предлагает возможность предоставления услуг с разным уровнем качества и соответствующими тарифами.

Для этого вводятся 4 класса обслуживания [2]:

– наилучший (4) – обеспечивающий качество передачи речи лучше, чем G.711;

– высокий (3) – качество не хуже, чем G.726 (32 кбит/с);

– средний (2) – качество не хуже, чем GSM-FR;

– низкий (1) – качество связи не определено.

2) В системах цифровой связи и IP-телефонии применяется артикуляционный метод, в чистом виде не являющийся достаточным [9] (не обеспечивает оценку натуральности). Метод артикуляции основан на обеспечении разборчивой передачи речи. Мерой разборчивости служит разборчивость элементов речи – величина, определяемая как отношение числа правильно принятых элементов речи (звуков, слогов, фраз, а применительно к IP – речевых пакетов) к достаточно большому общему числу переданных элементов. Разборчивость выражается в процентах или в долях единицы.

Особое место в теории разборчивости занимает мера разборчивости формант, которая характеризует долю формант, воспринятых слушателем, от их общего числа, содержащегося в выборке исходной речи [10]. В отличие от перечисленных ранее мер разборчивости она непосредственно не измеряется (в рамках классических подходов), однако является единственной из всех перечисленных мер разборчивости, которая может быть аналитически рассчитана.

Кроме разборчивости система оценки качества должна предусматривать оценку по критерию натуральности [9]. Под натуральностью переданной речи понимают ее свойство сохранять особенности произношения абонента [10]. Натуральной может считаться такая речь, которая звучит естественно и позволяет узнавать диктора по голосу с высокой вероятностью.

В соответствии со сказанным выше в качестве одного из показателей натуральности речи может быть принята средняя вероятность ошибки автоматической верификации абонента Р_ош.вер. по переданному речевому сигналу заданной длительности. Отметим, что в теории опознавания речи задача верификации дикторов (абонентов) состоит в принятии решения о том, принадлежит ли заданный фрагмент речи конкретному диктору, против альтернативы, что данный фрагмент речи принадлежит другому человеку. Для ее оценки требуется наличие комплекса программ, реализующих алгоритмы автоматической верификации дикторов. С помощью такого комплекса программ среднюю вероятность ошибочной верификации дикторов можно оценить как

, (3.1)

где k – число правильных решений о дикторе; n – общее число предъявленных на верификацию сегментов речевых сигналов. Естественно, что чем больше значение показателя данного показателя, тем выше натуральность речи.

Для оценки качества переданной речи в целом важно установление взаимной эквивалентности измерений указанных двух критериев [9].

Последнее требование предполагает возможность оценить, какому снижению процента разборчивости может соответствовать определенный прирост натуральности, чтобы общая оценка качества с точки зрения абонента осталась неизменной или возросла.

3) ITU-T в рекомендации G.114 определил метод оценки качества передачи речи через суммарную (сквозную) задержку [1]. Качество считается хорошим, если сквозная задержка при передаче сигнала в одну сторону не превышает 150 мс (рис. 3.7). Современное оборудование IP-телефонии при включении «спина к спине» (два устройства – шлюза – соединяются напрямую) вносит задержку порядка 60-70 мс. Таким образом, остается еще около 90 мс на сетевую задержку при передаче IP-пакета от отправителя к пункту назначения, что говорит о возможности обеспечить при современном уровне технологии (обмен в локальной сети) передачу речи с достаточно хорошим качеством.

Рисунок 3.7 – Задержка при передаче

На рисунке 3.7 приведены также характеристики спутниковой передачи, при которой требуется примерно 250 мс для того, чтобы сигнал достиг спутника и вернулся обратно к Земле (без учета затрат времени на обработку сигнала). Полное время задержки превышает 250-300 мс и согласно рекомендации G.114, выходит за границы диапазона, приемлемого для передачи речи. Тем не менее, ежедневно значительное количество разговоров ведется по спутниковым линиям связи. Следовательно, приемлемое качество речи определяется, прежде всего, требованиями пользователей.