Технологии и средства обработки звуковой информации

 

Первые персональные компьютеры отличались от калькуляторов и больших ЭВМ тем, что могли издавать звуки с помощью маленького динамика, установленного в их корпусе. И хотя акустические возможности этих компьютеров были более чем скромными, уже на заре компьютерной эры появились музыкальные редакторы, с помощью которых можно было создать звуковой файл для подключения к той или иной программе, написанной пользователем.

С появлением в 1989 году звуковых карт перед пользователями открылись новые возможности. На порядок улучшилось качество звука. Появилась звуковая подсистема – комплекс программно-аппаратных средств, предназначенный для:

· записи звуковых сигналов, поступающих от внешних источников (микрофона или магнитофона);

· воспроизведения записанных ранее звуковых данных с помощью внешней акустической системы или головных телефонов (наушников);

· микширования (смешивание) при записи или воспроизведении сигналов от внешних источников;

· одновременной записи и воспроизведения звуковых сигналов;

· обработки звуковых сигналов: редактирования, объединения или разъединения фрагментов сигнала, фильтрации, изменения уровня и т.п.;

· управления панорамой стереофонического звукового сигнала и уровнем сигнала в каждом канале при записи и воспроизведении;

· обработки звукового сигнала в соответствии с алгоритмами объемного звучания;

· генерирования с помощью синтезатора звучания музыкальных инструментов через специальный интерфейс MIDI;

· воспроизведения звуковых компакт-дисков;

· управления компьютером и ввода текста с помощью микрофона.

Звуковая система компьютера обычно выполняется в виде самостоятельных звуковых карт, устанавливаемых на материнской плате, но может быть размещена и на другой карте расширения. Отдельные функциональные модули звуковой системы могут выполняться в виде дочерних плат, устанавливаемых в соответствующие разъемы звуковой карты. Дочерняя плата обычно расширяет базовые возможности звуковой системы.

К аппаратным средствам обработки звуковой информации относятся:

· модуль записи и воспроизведения звука, который осуществляет аналого-цифровое и цифроаналоговое преобразование звуковых данных;

· модуль синтезатора;

· модуль интерфейсов, обеспечивающий взаимодействие программных и аппаратных средств;

· модуль микшера, который позволяет осуществить смешивание сигналов от разных источников;

· акустическая система (микрофон, наушники, колонки и т.п.).

Первые четыре модуля, как правило, устанавливаются на звуковой карте. Каждый из модулей может быть выполнен в виде отдельной микросхемы или входить в состав многофункциональной микросхемы.

Программные средства обработки звуковой информации включают в себя:

· музыкальные редакторы;

· синтезаторы звуков;

· системы автоматического распознавания речи;

· звуковые редакторы;

· голосовые навигаторы;

· программы диктовки, позволяющие преобразовывать речь в «письменный» текст;

· программы для улучшения качества фонограмм.

Создание (синтез) звука в основном преследует две цели:

· имитацию различных естественных звуков (шум ветра и дождя, звук шагов, пение птиц и т. п.), а также акустических музыкальных инструментов;

· получение принципиально новых звуков, не встречающихся в природе.

Обработка звука обычно направлена на получение новых звуков из уже существующих (например, голос робота), либо придание им дополнительных качеств или устранение существующих (например, добавление эффекта хора, удаление шума или щелчков).

Так же, как создание всевозможных анимационных эффектов и эффектов трехмерной графики базируется на использовании разнообразных математических методов, каждый из методов синтеза и обработки звука имеет свою математическую и алгоритмическую модель.

К основным программам обработки цифрового звука относят Cool Editor, Sound Forge, Samplitude, Software Audio Workshop дают возможность прослушивать выбранные участки, делать вырезки и вставки, амплитудные и частотные преобразования, звуковые эффекты, наложение других оцифровок, изменение частоты оцифровки, генерировать различные виды шумов, синтезировать звук.

Для обработки звука используются следующие основные методы [1, с. 392].

Монтаж. Состоит в вырезании из записи одних участков, вставке других, их замене, размножении и т. п. Называется также редактированием. Практически каждый музыкальный редактор имеет такие возможности редактирования. Все современные звуко- и видеозаписи в той или иной мере подвергаются монтажу.

Амплитудные преобразования заключаются в усилении или ослаблении звука.

Частотные (спектральные) преобразования – усиление или ослабление определенных полос частот.

Фазовые преобразования. Слуховой аппарат человека использует фазу для определения направления от источника звука. Фазовые преобразования стереозвука позволяют получить эффекты вращающегося звука, движущегося источника звука и им подобные.

Временные преобразования. Заключаются в добавлении к основному сигналу его копий, сдвинутых во времени на различные величины. При небольших сдвигах (порядка менее 20 мс) это дает эффект размножения источника звука (эффект хора), при больших – эффект эха.

Формантные преобразования оперируют с формантами – характерными полосами частот, встречающимися в звуках, произносимых человеком. Каждому звуку соответствует свое соотношение амплитуд и частот нескольких формант, которое определяет тембр и разборчивость голоса. Изменяя параметры формант, можно подчеркивать или затушевывать отдельные звуки, менять одну гласную на другую, сдвигать регистр голоса и т. п.

Обработка речевой информации включает в себя синтез речи и автоматическое распознавание речи.

Устное сообщение можно представить как последовательность элементарных звуков, называемых фонемами, и пауз между ними. От числа фонем, выделяемых в устной речи, зависит точность ее описания. На практике для кодирования русской устной речи выделяют порядка 40-45 фонем, каждой из которых ставится в соответствие кодирующее ее обозначение. Последовательность кодов, описывающих фонемы устного сообщения, вводится и хранится в памяти ЭВМ и при необходимости выводится из нее через специальные устройства, называемые синтезаторами речи.

В настоящее время сфера применения синтезаторов речи непрерывно расширяется – используются различные автоматизированные информационно-справочные системы, системы автоматизированного контроля, способные голосом предупредить человека о состоянии контролируемого объекта, и другие системы.

Разработаны устройства, позволяющие преобразовать письменный текст в соответствующее ему фонемное представление, что дает возможность воспроизводить в виде речи произвольный текст, хранящийся в памяти компьютера.

Немало усилий было положено на то, чтобы снабдить программы и операционные системы графическим интерфейсом пользователя. Сейчас развивается новое направление – речевой интерфейс пользователя. Различные голосовые навигаторы управляют программами, в какой-то мере заменяя клавиатуру и мышь.

Растет популярность средств автоматического распознавания речи. Эти средства преобразуют речь в закодированный «письменный» текст. Для этого производится спектральный анализ оцифрованной речи и определяются при помощи специальных математических методов минимальные звуковые единицы языка.

Существующие системы распознавания речи ориентированы или на слитную, или на дискретную речь. Слитная (непрерывная) речь – это нормальная плавная человеческая речь. Если система рассчитана на дискретную речь, то говорить надо с паузами между словами.

Большинство систем зависимы от диктора – перед началом работы пользователь должен «обучить» программу, произнося определенный текст. Но есть и разработки, которые не требуют этого.

Сегодня анализ звука и речи применяется во многих областях человеческой деятельности. Это биометрия, судебная экспертиза, медицина, обучение, конструкторская деятельность, научные исследования и другие. Голос человека можно использовать как пропуск в системах с ограничением доступа. При производстве судебной экспертизы материалов звукозаписи часто нужно провести идентификацию личности, то есть ответить на вопрос – принадлежит ли голос на двух фонограммах одному и тому же человеку? Можно определять эмоциональное состояние человека (уровень стресса) по параметрам устной речи. Этот способ имеет то преимущество, что человеку не нужно подсоединять датчики. Речевое сопровождение обучающих программ позволяет сделать процесс восприятия учебного материала более полным.