Обнаружение и кодированию пауз на основе технологии VAD
Рисунок 2.1 – График исходного сигнала
Рисунок 2.2 – График сигнала с удалёнными паузами при длине окна 50
Рисунок 2.3 – График сигнала с восстановленными паузами при длине окна 50
Рисунок 2.4 – График сигнала восстановленный и исходный при длине окна 50
Критерии оценки сигналов:
5 – качество звука практически не изменилось.
4 – заметны незначительные изменения в качестве звучания речи.
3 – плохое качество звучания речи, слова полностью разборчивы, наблюдаются различного рода шипения.
2 – низкое качество звучания, полная неразборчивость речи.
Вывод:
Речь разборчива, но качество низкое. Слышится высокий уровень шума. Голос диктора не распознаваем.
Рисунок 2.5 – График сигнала с удалёнными паузами при длине окна 100
Рисунок 2.6 – График сигнала с восстановленными паузами при длине окна 100
Рисунок 2.7 – График сигнала восстановленный и исходный при длине окна 100
Вывод:
Качество записи лучше. Уровень шума ниже, диктора можно узнать.
Рисунок 2.8 – График сигнала с удалёнными паузами при длине окна 200
Рисунок 2.9 – График сигнала с восстановленными паузами при длине окна 200
Рисунок 2.10 – График сигнала восстановленный и исходный при длине окна 200
Вывод:
Качество записи лучше. Уровень шума ниже, диктора можно узнать.
Рисунок 2.11 – График сигнала с удалёнными паузами при длине окна 300
Рисунок 2.12 – График сигнала с восстановленными паузами при длине окна 300
Рисунок 2.13 – График сигнала восстановленный и исходный при длине окна 300
Вывод:
Речь практически без помех, но шум на восприятие звучит слишком резко.
Рисунок 2.14 – График сигнала с удалёнными паузами при длине окна 500
Рисунок 2.15 – График сигнала с восстановленными паузами при длине окна 500
Рисунок 2.16 – График сигнала восстановленный и исходный при длине окна 500
Вывод:
Качество практически не отличается от исходного
Таблица 1 - Оценка качества преобразованных сигналов на слух
Наименование | Оценка |
Сигнал 50 | |
Сигнал 100 | |
Сигнал 200 | |
Сигнал 300 | |
Сигнал 500 |
2.1.2 Сигнал+ шум различной интенсивности
Рисунок 2.17 – График исходного сигнала с добавленным шумом
Рисунок 2.14 – График сигнала + шум при q=7 с удалёнными паузами при длине окна 50
Рисунок 2.15 – График сигнала + шум при q=7 с восстановленными паузами при длине окна 50
Рисунок 2.16 – График сигнала+ шум при q=7 восстановленный и исходный при длине окна 50
Вывод:
Речь разборчива, качество низкое. Слышится высокий уровень шума. Голос диктора распознаваемый.
Рисунок 2.17 – График сигнала+ шум при q=7 с удалёнными паузами при длине окна 500
Рисунок 2.18 – График сигнала+ шум при q=7 с восстановленными паузами при длине окна 500
Рисунок 2.19 – График сигнала+ шум при q=7 восстановленный и исходный при длине окна 500
Вывод:
Речь разборчива, качество записи лучше.. Слышится высокий уровень шума. Голос диктора распознаваемый.
Критерии оценки сигналов:
5 – качество звука практически не изменилось.
4 – заметны незначительные изменения в качестве звучания речи.
3 – плохое качество звучания речи, слова полностью разборчивы, наблюдаются различного рода шипения.
2 – низкое качество звучания, полная неразборчивость речи.
Увеличим
Таблица 2.2 - Оценка качества преобразованных сигналов на слух при q=7
Наименование | Оценка |
Сигнал 50 | |
Сигнал 500 |
Рисунок 2.20 – График сигнала+ шум при q=8 с удалёнными паузами при длине окна 50
Рисунок 2.21 – График сигнала+ шум при q=8 с восстановленными паузами при длине окна 50
Рисунок 2.22 – График сигнала+ шум при q=8 восстановленный и исходный при длине окна 50
Рисунок 2.23 – График сигнала+ шум при q=8 с удалёнными паузами при длине окна 500
Рисунок 2.24 – График сигнала+ шум при q=8 с восстановленными паузами при длине окна 500
Рисунок 2.25 – График сигнала+ шум при q=8 восстановленный и исходный при длине окна 500
.Вывод:
Речь разборчива, качество записи плохое . Слышится высокий уровень шума. Голос диктора распознаваемый.
Критерии оценки сигналов:
5 – качество звука практически не изменилось.
4 – заметны незначительные изменения в качестве звучания речи.
3 – плохое качество звучания речи, слова полностью разборчивы, наблюдаются различного рода шипения.
2 – низкое качество звучания, полная неразборчивость речи.
Увеличим
Таблица 2.3 - Оценка качества преобразованных сигналов на слух при q=8
Наименование | Оценка |
Сигнал 50 | |
Сигнал 500 |
Заключение
В ходе выполнения курсового проекта проведено исследование на обнаружение и кодирование пауз .Для этого была использована технология Voice Activity Detector , который выделяет во входном речевом сигнале активную речь и паузы, а также производить их восстановление.
Тем самым, технология VAD уменьшает количество отсчетов сигнала, позволяя экономить на передаче данных по каналу связи, так как перерыв в речи не оцифровывается и не кодируется, таким образом «пустые» пакеты с тишиной не передаются по сети.
1) Технология VAD уменьшает количество отсчетов сигнала, позволяя экономить на передаче данных по каналу связи, так как перерыв в речи не оцифровывается и не кодируется, и, таким образом «пустые» пакеты с тишиной не передаются по сети.
2) Исходя из полученных сигналов следует, что если длинна окна маленькая 50 отчётов ,то появляется опасность потери невокализованных звуков, т.е. принятие их за шум , что приведёт к тому что разборчивость речи упадёт ,что бы невокализованные звуки не пропали при восстановлении нужно выбирать длину окна 100 отчётов
3) Анализируя воздействия шумов на сигнал следует, что с увеличением мощности шума активную речь и паузы труднее находить и могут пропадать некоторые звуки