Базові технології мультимедіа: звук

Як вже говорилося у розділі «Цифрове представлення звуку», звук – це хвильові коливання густини пружного середовища, переважно повітря, в частотному діапазоні від 16 до 20000 Гц. За наявності у комп’ютері аудіовходу, аудіовиходу та відповідного апаратного і програмного забезпечення персональний комп’ютер здатний виконувати функції сучасної студії звукозапису. Нині не існує єдиного додатку, який міг би розглядатися як міжплатформовий стандарт для роботи зі звуком; використовується кілька пакетів, що забезпечують оцифровування, редагування та відтворення різних типів звуку, які потребують спеціальної апаратної підтримки. Натомість всі сучасні ПК обладнані звуковими картами і електроакустичними системами відтворення звуку, який становить нині невід’ємну складову мультимедійної продукції.

Звук на ПК можна отримати через вбудований динамік (PC Speaker); через підключений до паралельного порта чи встановлений на системній платі простий ЦАП; за допомогою ЦАП чи синтезатора звукової карти або зовнішнього синтезатора, що керується від комп’ютера, використовуючи MIDI-порт чи стандартний послідовний порт, або спеціальні карти-адаптери.

Для роботи зі звуком на ПК необхідно забезпечити його переведення у цифрову форму за допомогою аналого-цифрового перетворювача (АЦП); специфіка такого перетворення звуку описана у відповідному розділі. При здійсненні на ПК запису перш за все необхідно, виходячи із заданих кінцевим призначенням аудіопродукції розмірів звукового файлу і ширини смуги частот, обрати частоту дискретизації і кількість рівнів квантування (розмір, чи розрядність вибірки) в межах, дозволених апаратним забезпеченням. При цьому слід пам’ятати, що кількість рівнів квантування впливає на якість запису і відтворення звуку сильніше за частоту дискретизації.

Щоб оцінити розмір оцифрованого аудіо, достатньо знати кількість генерованих за секунду відліків, яка дорівнює частоті дискретизації fд в герцах, кількість розрядів кодового слова, використовуваних при записі звукового сигналу в цифровій формі rд (яка не може перевищувати розрядність АЦП) і загальну тривалість звукового сигналу t. Добуток fд×rд дає швидкість передачі даних, яку повинен забезпечувати цифровий канал запису/відтворення звуку, а добуток швидкості передачі даних на загальну тривалість звукового сигналу в секундах fд×rд×t ¾ об'єм пам'яті на магнітному носієві, наприклад, на жорсткому диску, який потрібний для зберігання звукових даних. У разі запису стереосигналу по двох (лівому і правому) стереоканалах, швидкість передачі даних і необхідний обсяг пам'яті подвоюються.

При первинному кодуванні використовується зазвичай рівномірне квантування відліків звукового сигналу (ЗС) з розрядністю дискретизації 8–24 біт/відлік при частоті дискретизації fд = 44,1–96 кГц. За студійної якості при записі звука застосовують rд =16 біт/відлік, f = 48 кГц. У каналах такої якості смуга частот кодованого звукового сигналу DF = 20–20000 Гц; динамічний діапазон такого цифрового каналу складає близько 54 дБ. При записі звуку на ПК виконується налагодження рівня запису сигналу для запобігання відсікання сигналу у разі перевищення амплітудою звукового сигналу максимально доступного рівня запису. Для аудіо CD-якості, яке застосовується у мультимедійній продукції, стандартом є частота дискретизації 44.1 КГц та розрядність дискретизації 16 бітів. Тоді хвилина звуку у цифровій формі при монозаписі у такому форматі займе 44100×2×60=5292000 байтів, а при стереозаписі – удвічі більше, тобто 10,584 Мбайт. Відповідно тривалі записи легко заповнюють весь CD диск, що робить неможливим автономну доставку мультимедійної продукції. Щодо неавтономної доставки, якщо fд = 48 кГц і rд = 16 біт/відлік, то швидкість цифрового потоку при передачі одного такого сигналу рівна V = fд×rд = 48x16 = 768 Кбіт/с, що вимагає сумарної пропускної здатності каналу зв'язку при передачі звукового сигналу форматів 5.1 (Dolby Digital) чи 3/2 більше за 3,840 Мбит/с. Це набагато більше, ніж можуть забезпечити канали Інтернету. Тому, якщо аудіо використовується в мультимедіа, особливо з передачею через Інтернет, необхідно передбачити його стиснення.

Стиснення звукових сигналів. Природа звуку та специфіка слухового апарату людини забезпечує можливість ефективного стиснення звуку без втрат. Дійсно, людина своїми органами чуття здатна свідомо обробляти лише близько 100 біт/с інформації, що набаго менше розрахованої вище пропускної здатності каналу для передачі аудіоінформації. Тому можна говорити про те, що первинним цифровим звуковим сигналам притаманна значна надлишковість.

Статистична надмірність обумовлена наявністю кореляційного зв'язку між сусідніми відліками часової функції звукового сигналу при його дискретизації [32, с. 3]. Для її зменшення застосовують достатньо складні алгоритми обробки, зокрема, при стисненні мови, - алгоритми адаптивної диференційної імпульсно-кодової модуляції (АДІКМ) [110, с. 297]. Ці алгоритми забезпечують стиснення без втрат, даючи змогу закодувати вихідний сигнал меншою кількістю бітів. Якщо амплітуда звуку не сягає максимального рівня, який можна записати за даної розрядності, ефективним може виявитися стиснення звуку за методами кодування змінної довжини, зокрема, за методом Хофмана, описаним у попередньому підрозділі. Методом стиснення без втрат можна вважати також такий метод стиснення, як усунення пауз, яке можна розглядати як різновид метода групового кодування: замість всіх відліків, що заповнюють паузу, вказують лише її тривалість.

Однак навіть при використанні достатньо складних процедур обробки стиснення звукових сигналів без втрат дозволяє зменшити необхідну пропускну здатність каналу зв'язку лише на 15–30 %. Результуюча швидкість цифрового потоку при передачі високоякісних звукових сигналів і можливості людини з їх обробки все ще відрізняються на декілька порядків. Це свідчить про істотну психоакустичну надмірність первинних цифрових звукових сигналів і, отже, про можливість її зменшення. Основна ідея, покладена в основу всіх алгоритмів психоакустичного звукового стиснення – нехтування деталями, які лежать за межами чутності вуха людини. Найперспективнішими з цього погляду виявилися методи, які базуються на наступних ефектах людського слуху:

наявність порогу чутності, залежність цього порогу від частоти та зміна частотної характеристики слуху залежно від сили звукового тиску – на різних частотах звук однакової сили сприймається людиною як звук різної гучності, про що свідчать експериментально отримані ізофони. Звідси випливає, що для збереження природнього звучання, яке відповідає умовам запису, необхідне відтворення запису з тим же рівнем гучності;

різне сприйняття звуку різного рівня голосності – тихіші звуки сприймаються гірше і для їх цифрового представлення з однаковою якістю потрібно більше рівнів квантування;

несприйняття людським вухом звуків, що поступають одночасно і знаходяться у тому ж частотному діапазоні, що і значно гучніший звук. Цей ефект називається маскуючим ефектом, чи ефектом маскування. Його прояв залежить від частоти і гучності звуку, близькості частот основного та маскуючого тону: маскування тим сильніше, чим вище частота основного та маскуючого звуків, чим менше різниця у їх частотах і чим більше гучність маскуючого звуку. Цифровим представленням «тихіших» звуків можна знехтувати;

інерційність слуху, адаптація слуху та похідний від неї ефект часового маскування звуку. При зникненні звуку слухове відчуття зникає не відразу, а поступово, зменшуючись до нуля (інерційність слуху); постійна часу слуху (час, протягом якого відчуття по рівню гучності зменшується на 9–10 фон) в середньому складає 30–50 мс. При дії на барабанну перетинку вуха достатньо тривалого звуку великої інтенсивності, сприймана гучність поступово зменшується, тобто під час дії такого звуку чутливість вуха падає; після припинення дії звуку чутливість слуху поступово відновлюється (адаптація слуху|). Завдяки адаптації слуху гучні звуки можуть маскувати, роблячи практично нечутними, звуки, що йдуть за ними; деколи маскуються попередні звуки. Вид маскування, за якого звуки не перекриваються за часом, називається часовим маскуванням; воно позділяється на передмаскування і післямаскування. Післямаскування проявляється на інтервалі часу 100–200 мс після закінчення маскуючого звуку; передмаскування - на значно коротших часових проміжках близько 10 мс;

частотні обмеження на можливість визначення напрямку звуку (поблизу меж діапазона чутності людина сприймає звуки як фонові і нездатна визначити їх джерело і напрямок), завдяки яким стереозапис можна здійснювати виключно для частот в середній частині діапазону чутності.

Досить широко застосовується методика зменшення звукового файлу за рахунок зменшення розрядності дискретизації, яка грунтується на припущенні, що певних деталей людина все одно не почує чи для даної задачі допустима зменшена якість звучання. Цей спосіб застосовується у залежності від виду та призначення звукового сигналу.

Для стискання мовного сигналу застосовують запозичений з систем телефонії метод компандування, який базується на різному сприйнятті людиною звуків різного рівня гучності. Суть методу полягає у використанні нелінійних рівнів квантування, тобто розташування вищих рівнів квантування на більшій відстані один від одного, як нижчих, завдяки чому тихіші звуки представляються детальніше за гучніші. Висота рівнів квантування і відповідні значення сигналів зростають логарифмічно; як наслідок, для представлення всього можливого діапазону вхідних значень використовується менше бітів, чим за лінійної схеми квантування.

Найефективнішими методами стиснення, які базуються на психоакустичних моделях, є методи, що враховують такі ефекти слуху, як маскування, передмаскування і післямаскування. Якщо відомо, які саме частини звукового сигналу вухо сприймає, а які ні, внаслідок маскування можна вичленити і передати каналом зв'язку лише ті частини сигналу, які вухо здатне сприйняти, відкинувши нечутні складові вихідного сигналу. Крім того, сигнали можна квантувати з якомога меншим розділенням по рівнях так, щоб спотворення квантування, змінюючись по величині зі зміною рівня самого сигналу, ще залишалися б нечутними, тобто маскувалися вихідним сигналом. Проте після усунення психоакустичної надмірності точне відновлення форми часової функції звукового сигналу при декодуванні вже неможливе.

Всі сучасні аудіоформати, що стискають звуковий сигнал, враховують сприйняття звуку людиною. Відповідно у них із звукового потоку вилучаються звуки, які завідомо не сприймаються вухом людини внаслідок того чи іншого ефекту слуху; із більшою ретельністю та точністю кодуються звукові частоти, на які людина звертає свою основну увагу (діапазон 1000÷4000 Гц), та враховуються часові обмеження на локалізацію звуку шляхом запровадження механізму суміщеного стерео, за якого середні частоти кодуються в стереосигнал, а фонові – в моносигнал.

Більшість сучасних аудіоформатів застосовує поділ загальної частотної смуги сигналу на кілька підсмуг (переважно використовують 32 смуги), у кожній із яких визначається середній рівень та найгучніше звучання сигналу і обраховується поріг маскування за припущення, що крива маскування у кожній підсмузі може бути апроксимована одним значенням. Якщо сигнал у підсмузі повністю опиняється нижче порогу маскування цієї підсмуги, вся підсмуга відкидається; у протилежному випадку сигнал квантується з використанням меншої кількості бітів, що забезпечує маскування шуму квантування. Деякі аудіоформати враховують вплив ефекту маскування сусідніх підсмуг, тобто дуже гучний звук на одній із них може вплинути на кодування звукового сигналу сусідніх підсмуг.

Сьогодні найкраще алгоритми стискання аудіо реалізовані в алгоритмах стандартів сімейства MPEG («Moving Picture Coding Experts Group»).

Стандарт MPEG-1 (ISO/IEC 11172-3) містить три алгоритми різних рівнів складності: Layer (рівень) I, Layer II та Layer III; ступінь стискання і складність кодування за однаковості загального підходу до кодування зростає від першого рівня до третього; відповідно падає потрібна швидкість передачі даних від 192 Кбіт/с на кожному каналі на рівні 1 до 128 та 64 Кбіт/с на рівнях 2 та 3 відповідно. Для стереосигналу ці швидкості подвоюються. Аудіо MPEG-1. чи, як його називають, МР3 забезпечує ступінь стискання 10:1, за якої типову доріжку компакт-диску можна стиснути до 3 Мбайт; якість звуку за такої передачі даних називають CD-якістю.

Рівні MPEG-1 відрізняються цільовим використанням і внутрішніми механізмамами. MPEG-1 нормує для всіх трьох рівнів такі номінали швидкостей цифрового потоку: 32, 48, 56, 64, 96, 112, 192, 256, 384 і 448 кбіт/с, кількість рівнів квантування вхідного сигналу – від 16 до 24. Стандартним вхідним сигналом для кодера MPEG-1 прийнятий цифровий сигнал AES/EBU (двоканальний цифровий звуковий сигнал з розрядністю квантування 20–24 бита на відлік). Передбачаються такі режими роботи звукового кодера: одиночний канал (моно); подвійний канал (стерео чи два моноканали); joint stereo (сигнал з частковим розділенням правого і лівого каналів). Найважливішою властивістю MPEG-1 є цілковита зворотня сумісність всіх трьох рівнів: кожний декодер може декодувати сигнали не лише свого, але й нижчих рівнів. MPEG-1 був першим міжнародним стандартом цифрового стиснення звукових сигналів, що зумовило його широке застосування в багатьох областях: віщанні, звукозаписі, зв'язку і мультимедійних додатках. Найширше використовується Рівень II, який увійшов складовою частиною в європейські стандарти супутникового, кабельного і наземного цифрового ТБ, в стандарти звукового віщання, записи на DVD, Рекомендації МСЕ BS.1115 и J.52. Рівень III (МР3) широко застосовується у цифрових мережах з інтегральним обслуговуванням (ISDN) і мережі Інтернет; більшість музичних файлів у мережі записана саме у цьому стандарті.

Стандарт MPEG-2 є розширенням MPEG-1 для багатоканального звука, повністю сумісним з MPEG-1 за рівнями та схемою кодування. MPEG-2 окреслює відмінності режиму передачі багатоканального звуку, зокрема, п'яти- і семиканального, їх розширення з низькочастотним каналом, а також багатомовного звукового супроводу, який може розглядатися як різновид багатоканального звуку, якщо здійснюється не передачею окремого цифрового потоку для кожної мови, а додаванням кількох (до 7) мовних каналів із швидкістю 64 кбит/с до багатоканального потоку 384 Кбіт/с. Можлива передача додаткових звукових каналів для людей з погіршенням зору і слуху [32, с. 7].

Стандарт MPEG-4 забезпечує вищий ступінь стискання використанням комбінації алгоритмів кодування MPEG-2 ААС, TwinVQ, HVXC та CELP. Він не має зворотної сумісності з MPEG-1 та MPEG-2, але за рахунок складнішої і довершенішої технології реалізації психоакустичної моделі стискання у комбінації з алгоритмами стискання мови HVXC та CELP на основі АДІКМ та виділення і окремого кодування повільно змінних складових мови забезпечує вищу якість звучання за менших швидкостей передачі даних.

Подальшим розширенням стандартів сімейства MPEG на різні типи звуку та операції з ним є стандарт MPEG-7, який специфікує п’ять основних технологій роботи зі звуком: засоби опису структури звука; засоби опису тембру музичного інструменту; засоби розпізнавання звуку; засоби опису голосового матеріалу і засоби опису мелодії. Стандарт надає спільну платформу структури описів різних типів звуку та технологій його обробки, створює підґрунтя для сумісності створених з дотриманням MPEG-7 Audio довільних додатків різного призначення.

Психоакустичну модель стиснення звуку зі втратами реалізують також методи OggVorbis та MusePack (MPC). Ці розробки є некомерційними (тобто повністю відкритими і безкоштовними на засадах генеральної публічної ліцензії GNU GPL) і, завдяки іншим засобам математичної обробки та механізмам кодування, досягають кращого за МР3 звучання при тих же швидкостях передачі (OggVorbis) та вищих швидкостях кодування / декодування (MusePack). При кодуванні кодеки OggVorbis, як і деякі кодеки МР3, застосовують кодування зі змінною кількістю інформації для опису 1 с звуку VBR (variable bitrate[9]), за якого фрагменти, що складно піддаються стисненню, кодуються з більшим бітрейтом, ніж ті, що стискати легше, що дає змогу суттєво збільшити ступінь стискання за незначної втрати у якості; можна також у широких межах змінювати частоту дискретизації, від 2 до 192 кГц. Кодеком MusePack (MPC) передбачено кодування лише в режимі змінної швидкості потоку; механізм кодування суттєво відрізняється від МР3. МР3 при кодуванні розбиває сигнал на частотні підсмуги, розкладає сигнал кожної підсмуги в ряд косинусів (що є частковим випадком перетворення Фур’є) і записує закруглені (квантовані) значення. МРС після розбиття сигналу на частотні підсмуги просто переквантовує його в кожній підсмузі на основі психоакустичної моделі сигналу і записує отримані закруглені (квантовані) значення у вихідний потік. Це забезпечує значно вищу швидкість компресії/декомпресії і кращу якість кодування на високих швидкостях (160 Кбіт/с і вище) у порівнянні з MP3.

Останнім часом з’явився стандарт стиснення аудіоданих Windows Media Audio (WMA), який реалізує алгоритм кодування Voxware, шо ідеально підходить для стискання мови: при швидкості 64 кбіт/с складова «розбірливість голосу» сягає 90%, у той час, як в інших форматах аудіостиснення подібний показник спостерігається при швидкості в 2–2,5 рази більшій, тобто 128 – 160 кбіт/с. Підтримка кодека «Voxware Audio CODEC» включена компанією Microsoft у безкоштовний Media Player. WMA зі швидкістю 64 кбіт/с щонайменш не поступається якістю МРЗ на 128 кбіт/с. Кодек дає змогу легко перекодовувати МРЗ в WMA з довільною швидкістю. Загалом можна очікувати, що формат WMA досить скоро може замінити МР3 для платформи Windows.

Редагування звуку. При роботі зі звуком на персональному комп’ютері, окрім запису, передачі та відтворення цифрових звукових файлів, виконуються операції з амплітудного (зміна амплітуди чи огинаючої), частотного (зміна частоти), фазового (зсув фази), часового (додавання до основного сигналу його копій, зсунутих в часі на різні величини) та формантного (зміна параметрів формант – характерних смуг частот, що зустрічаються в звуках людської мови) перетворення. Проте найрозповсюдженішою специфічною для мультимедіа операцією є монтаж, чи інакше, редагування звукозаписів, яке полягає у вирізанні із запису одних ділянок, вставці інших, їх заміні, перевпорядкуванні, розмноженні тощо. Внаслідок часової природи звуку використовується інтерфейс редагування на основі часової шкали: зміна звуку у часі відбивається графічно на моделях доріжок на екрані компютера; редагування зводиться до вирізання, вставки чи перетягування фрагментів доріжок, комбінування фрагментів з різних доріжок, багаторазове повторення окремих фрагментів (створення циклів). Існують також спеціальні засоби коригування звуку, у першу чергу видалення небажаних шумів на основі фільтрів, що відсікають шуми відомих частот, чи методів інтелектуального пригнічення шумів.

При редагуванні звуку у цифровій формі значно легше реалізувати різні спеціальні звукові ефекти, наприклад, ефект штучного еха за рахунок додавання до сигналу його сильно зсунутих у часі копій (більше 50 мкс) з меншою інтенсивністю. Якщо зсув по часу менший, співставний з періодом сигналу, часові перетворення переходять у фазові, при невеликих зсувах за межами періоду (трохи менших 20 мс) це дає ефект, близький до хорового (розмноження джерела звуку), при більших – ефекти багаторазового відбиття: реверберації (20..50 мс) і відлуння (більше 50 мс).

Оскільки слуховий апарат людини визначає локалізацію джерела звуку за фазою, фазові перетворення стереозвуку дозволяють отримати ефекти обертового звуку, хору і подібних. За допомогою зсуву фази на 90…180 градусів (останнє отримується простим інвертуванням відліків) реалізується ефект “псевдооб’ємності” звуку (Surround). Змінюючи параметри формант, можна підкреслювати або затушовувати окремі звуки, змінювати одну голосну на іншу, зсувати регістр голосу тощо. Додаючи відліки, можна розтягувати звук у часі; змінюючи частоти, можна змінювати тональність звуку.

Існують засоби створення спеціальних (креативних) ефектів, типу ефектів «хорус», «фленжер», «фейзер», «вау-вау» тощо. Ефект «хорус» (Chorus) виявляється як ефект виконання одного і того ж звуку або всієї партії не одним інструментом або співаком, а декількома і відтворюється моделлю звучання справжнього хору. Реалізація ефекту передбачає розділення звукового сигналу на 2 чи більше каналів, зсув спектру сигналу у кожному каналі по частоті на різні величини та додавання отриманих таким чином сигналів. У результуючому сигналі звукові хвилі ніби «пливуть» із різними швидкостями, додаючися з різним зсувом по фазі, від фази до протифази; спектр сумарного сигналу безперервно змінюється з періодом повного циклу цієї зміни таким великим, що повторюваність спектральних властивостей сигналу не відчувається.

Ефект «вау-вау» (Wah-Wah) виникає, коли змінюється частота зрізу фільтра високих частот. В основу звукових ефектів «фленжер» (Flanger) та «фейзер» (Phaser) також покладена затримка сигналу і неоднакова для різних спектральних складових зміна частот в процесі поширення внаслідок ефекту Доплера. І фленжер, і фейзер імітують прояви взаємного переміщення трьох елементів: джерела, приймача і відбивача звуку, і являють собою поєднання затримки звукового сигналу із частотною чи фазовою модуляцією. Різниця між цими ефектами кількісна, у часі затримки копій і розмірі зміни частот: час затримки копії (або часи затримок копій) і зміна частот сигналу для ефекту фленжера значно більші, ніж для фейзера. Образно кажучи, фленжер відчувався б у тому випадку, коли співак рухався би до глядача, що сидить в залі, із швидкістю автомобіля, а для відчуття фейзера рухоме джерело звуку непотрібне, глядачеві достатньо часто-часто вертіти головою з одного боку в інший.

Прості, поширені ефекти типу відлуння чи розтягування звуку можна створювати на стандартному програмному забезпеченні для роботи зі звуковими файлами; для створення складних звукових ефектів використовують спеціальне програмне і апаратне забезпечення, наприклад, вокалстресори, генератори вібрато, енхансери тощо.

Програмне забезпечення для роботи із звуком. Виділяють чотири типи програм для роботи зі звуком: програми-секвенсори, звукові редактори, програми-трекерип та допоміжні.

Програми-секвенсори призначені для програмування (кодування) музичних п’єс. Програмами такого типу є, наприклад, Cubase компанії Steinberg Software und Hardware і Cakewalk компанії Twelve Tone Systems. З допомогою таких програм прописуються окремі партії, призначаються тембри інструментів, встановлюються рівні і баланси каналів (треків), вводяться нюанси, музичні штрихи (акценти голосності, часове зміщення, відхилення від настройки, модуляція тощо) Ефективне використання секвенсора вимагає від композитора-аранжувальника спеціальних інженерних знань.

Звукові редактори, прикладом яких є, зокрема, SAW компанії Innovative Quality Software, Cool Edit компанії Syntrillium Software, Sound Forge компанії Sonic Foundry і WaveLab компанії Steinberg, забезпечують ефективну реалізацію технології запису звуку і дають змогу записувати і відтворювати звук аналогічно тому, як це робиться на звичайному магнітофоні, тобто перетворюють комп’ютер в цифровий багатоканальний магнітофон.

Програми-трекери дозволяють створювати музику людьми, які не володіють музичною графікою. Трекер певною мірою нагадує багатодоріжковий магнітофон: за допомогою команд на кожній з доріжок записуються фрагменти звучання інструментів або музичні уривки (семпли), параметри яких (голосність, частоту) можна змінювати. Унікальність методики використання трекерів полягає в тому, що можна складати композиції, просто слухаючи, як звучить той або інший музичний інструмент, і вибираючи потрібний звук. Серед програм цієї групи найбільш відоміScream Tracker, Fast Tracker, Impulse Tracker.До допоміжних відносять програми типу WinAmp від Nullsoft Inc., яка є лідером серед музичних програвачів і Windows Media Player від Microsoft, який є складовою частиною операційної системи Windows. Ці програми підтримують практично всі звукові формати (MP3, MP2, MOD, WAV, VOC, CD-Audio та ін.),

Записувати звукову інформацію на CD можна за допомогою пакету Nero 6.0 з додатковими утилітами. Використовуючи утиліти AudioCD Burner 1.0, ACE – HIGH CD Burner 1.20, можна в режимі реального часу формувати аудіо-CD, перетворюючи музичні файли у аудіоформат.

Формати звукових файлів. Цифровими звуковими форматами називають формати файлів для збереження звукових даних у комп'ютерних системах. Файли таких форматів називають також аудіофайлами, або звуковими файлами. Основними ознаками звукового формату є спосіб кодування, частота дискретизації, кількість каналів та розрядність відліку (кодового слова). За способом кодування виділяють 3 основні групи аудіоформатів: формати без стиснення (WAV, AIFF, AU, PCM тощо); формати зі стисненням без втрат (FLAC, APE, MPEG-4 SLS, WMA Lossless тощо) і формати зі стисненням із втратами (MP3, Ogg Vorbis, Musepack, AAC, WMA тощо). Характеристики найпоширеніших звукових форматів наведені у табл. 7.2.

Формат аудіофайлу слід відрізняти від аудіокодеку, хоча часто кодек однозначно задає відповідний формат і навпаки. Кодек здійснює кодування чи розкодування звукових даних, тоді як самі дані зберігаються у файлі відповідного звукового формату. Більшість форматів підтримують лише один тип кодування звукових даних, проте мультимедійні контейнери типу MKV чи AVI можуть підтримувати різні типи аудіо і відео даних.

 

Таблиця 7.2