Преобразование речевых данных при сжатии

 

Среди существующих методов сокращения объемов битовых представлений речевых данных важную роль играют методы, обеспечивающие сжатие (кодирование) речи. В таких системах речевой сигнал, преобразованный в цифровой вид, перед записью на носитель или передачей кодируется при помощи специального алгоритма сжатия, а при воспроизведении с носителя или на приеме – декодируется.

Это позволяет значительно разгрузить каналы связи и системы обработки и хранения речевых данных за счет исключения ненужных или дублирующих сведений, что эквивалентно повышению пропускной способности систем сбора, передачи и обработки данных или увеличению емкости запоминающих устройств (ЗУ).

Проблема сжатия речевых данных рассматривается в работах многих авторов, что подтверждается результатами анализа научно-технической литературы. При этом отмечаются два основных аспекта: необходимость удаления пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуковых данных.

В первом случае задача сводится к построению решающей процедуры, позволяющей на основе предварительно (при отсутствии звуков речи) оцененных вероятностных характеристик последовательностей данных в паузе (шумов) определить является ли анализируемый отрезок порождением шума или содержит аддитивную смесь сигнал + шум.

Применяемые (в основном в телекоммуникациях) в настоящее время решающие процедуры обнаружения пауз основываются на использовании так называемых фильтров линейного предсказания. Среди несовершенств такого подхода можно выделить: принципиальную невозможность построения фильтра линейного предсказания конечного порядка для «белого» шума; наличие в решающей функции «мертвых зон», когда изменение одних параметров компенсируется изменениями других; возможное совпадение максимумов энергетических спектров шума и звука, что приводит к совместному их подавлению и ошибочному отнесению анализируемого участка к паузе и т.д.

Можно указать и другие особенности использования фильтров линейного предсказания, которые для повышения достоверности принятия решения о наличии паузы приводят к необходимости анализа достаточно больших отрезков (до 0,6 с), что не позволяет достигать максимального сжатия данных.

Для сжатия участков звуковых данных тоже разработаны различные процедуры обработки, обычно применяемые для уменьшения объемов трафика в телекоммуникациях.

Существуют два типа систем сжатия данных:

- системы сжатия без потерь информации (обратимое сжатие);

- системы сжатия с потерями информации (необратимое сжатие).

Сжатие данных без потерь (lossless coding) – это способ кодирования (уплотнения) цифровой аудиоинформации, позволяющий осуществлять 100%-ное восстановление исходных данных из сжатого потока (под понятием «исходные данные» здесь подразумевается исходный вид оцифрованных аудиоданных). К такому способу уплотнения данных прибегают в случаях, когда требуется абсолютное сохранение качества оригинального звучания аудиоданных. Существующие сегодня алгоритмы сжатия без потерь позволяют сократить занимаемый данными объем на 20-50%. Механизмы работы подобных кодеров сходны с механизмами работы архиваторов общих данных, таких, как, например, ZIP или RAR, но при этом адаптированы специально для сжатия аудиоданных. Кодирование без потерь, хотя и идеально с точки зрения сохранности качества аудиоматериалов, неспособно обеспечить высокий уровень компрессии.

Необходимо отметить, что практически все методы сжатия данных без потерь основываются на учете статистических (вероятностных) свойств кодируемых данных и поэтому называются статистическими или энтропийными.

Основой процедур, реализуемых в системах сжатия с потерями, являются необратимые преобразования исходных данных либо за счет более грубого квантования по уровню, либо путем построения моделей генерации, позволяющих осуществить их воспроизведение (вокодеры). Наибольшей степени сжатия удается достичь в случае применения вокодеров. Однако, при этом, наряду с разборчивостью воспроизводимой речи существенно искажается тембр и другие характеристики, что неприемлемо для качественного воспроизведения звукозаписей и аудиоконференций.

Поэтому представляется целесообразным при сжатии речевых данных использовать процедуру квантования по уровню, т.к. тогда появляется возможность варьирования количеством сохраняемых двоичных разрядов для достижения приемлемого качества звучания воспроизводимой речи.

Существующие методы сжатия звуковых данных с использованием грубого квантования по уровню основываются на описанной выше психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха.

В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. После квантования этих данных по уровню они могут либо сохраняться, либо подвергаться статистическому обратимому кодированию для достижения большей степени сжатия. Восстановление исходных данных для воспроизведения речи принято осуществлять с использованием специально рассчитанных КИХ-фильтров.

Не вдаваясь в подробности, можно отметить, что такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи.