Пристрій і спосіб заснованого на геометрії просторового кодування звуку

 

Даний винахід відноситься до обробки звуку, і конкретніше, до пристрою і способу геометричного кодування просторового звуку.

Обробка звуку, і в особливості, кодування просторового звуку, стає все більш і більш важливим. Традиційна запис просторового звуку ставить своїм завданням захоплення звукового поля, такого, як у репродуцируемой стороні, слухач сприймає звукове зображення так, як якщо б він знаходився в місці запису. На сучасному рівні розвитку техніки відомі різні підходи до способів запису та відтворення просторового звуку, які бувають засновані на канальних, об'єктних або параметричних виставах.

Подання, засновані на каналах, що становлять звукову сцену коштами N дискретних звукових сигналів, призначених для програвання на N гучномовцях, розставлених у відомій компонуванні, наприклад, компонуванні 5.1 surround sound («звук навколо»). У цьому підході для запису просторового звуку зазвичай застосовують встановлені на відстані всеспрямовані мікрофони, наприклад, AB стереофонії, або поєднані спрямовані мікрофони, наприклад, в интенсивностной стереофонії. В іншому випадку, можноп. Ambisonics in multichannel and video broadcasting. J. Audio Eng. Soc, 33(11):859-871, 1985.

Необхідні сигнали гучномовців для відомої компонування можна отримувати безпосередньо з записаних сигналів мікрофонів і потім передавати або зберігати у дискретному вигляді. Більш ефективне представлення досягається шляхом застосування до дискретним сигналами кодування звуку, яке, в окремих випадках, кодує інформацію різних каналів спільно, для підвищення ефективності, наприклад, в MPEG-Surrond для 5.1, див.:

[21] J. Herre, K. Kjorling, J. Breebaart, З Faller, S. Disch, H. Pumhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, K. S. Chong: MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.

Великим недоліком цих способів є неможливість модифікації звукової сцени після завершення обчислення сигналів гучномовців.

Об'єктні подання, наприклад, використовують у кодуванні просторових звукових об'єктів (SAOC), див.:

[25] Jeroen Breebaart, Jonas Engdegard, Cornelia Falch, Oliver Hellmuth, Johannes Hiipert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.

Об'єктні подання становлять звукову сцену з N дискретними звуковими об'єктами. Це предстзменяя, наприклад, позицію і гучність для кожного об'єкта. Незважаючи на те, що таке подання може бути доступний в даний момент, наприклад, многодорожечной запису, його дуже складно отримати складної звукової сцени, записаної з декількох мікрофонів (див. наприклад, [21]). Фактично, говорять сторони (або інші випускають звук об'єкти) спочатку необхідно локалізувати і потім витягти з суміші, що може викликати артефакти.

Параметричні подання для визначення одного або більше малоканальних сигналів разом з просторовою інформацією боку, описує просторовий звук, часто застосовують просторові мікрофони. Прикладом є спрямоване кодування звуку (DirAC), як описано в

[22] Vilie Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.

Термін "просторовий мікрофон" відноситься до будь-якого пристрою для отримання просторового звуку, здатному витягувати напрямок приходу звуку (наприклад, комбінація спрямованих мікрофонів, масив мікрофонів, тощо).

Термін "непросторовий мікрофон" відноситься до будь-якого пристрою, яке не пристосоване для вилучення напрямку приходу звуку, такого як один всеспрямований илиrnational Convention, San Francisco, Oct. 2008.

У DirAC, інформація просторового сигналу включає в себе напрямки приходу (DOA) звуку і дифузність звукового поля, обчислену в частотно-часовій області. Для відтворення звуку сигнали програвання звуку можна отримати на підставі параметричного опису. Ці способи пропонують дуже велику гнучкість в стороні відтворення, оскільки можна використовувати довільну компонування гучномовців, оскільки подання особливо гнучко і компактно, так як воно включає в себе малоканальний монозвуковой сигнал і інформацію про стороні, і оскільки воно дозволяє легко здійснювати модифікації звукової сцени, наприклад, акустичне масштабування, спрямовану фільтрацію, об'єднання сцени і т. п.

Однак, ці способи по -, як і раніше обмежені в тому, що просторове зображення завжди записано щодо використаного просторового мікрофона. Таким чином, акустичну точку огляду не можна змінити, і позицію слухача в звуковий сцені не можна змінити.

Підхід з віртуальним мікрофоном, викладений в

[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered distributed by arrays. In Third Joint Workshop on Hands-free Speech Соммипісространственного мікрофона, віртуально розміщеного в навколишньому просторі довільним чином (тобто, з довільним розташуванням і спрямованістю). Гнучкість, що характеризує підхід з віртуальним мікрофоном (VM), дозволяє довільний віртуальний захоплення звукової сцени на етапі постобробки, але не робить доступним подання звукового поля, яке можна використовувати для ефективних передачі, та/або зберігання, та/або модифікації звукової сцени. Більш того, передбачається активним лише одне джерело на кожен частотно-часовий елемент вибірки, і, таким чином, він не може коректно описати звукову сцену, якщо в одному і тому ж частотно-часовому елементі вибірки активно два або більше джерел. Додатково, якщо віртуальний мікрофон (VM) застосовують на стороні приймача, всі сигнали мікрофона необхідно посилати по каналу, що робить подання неефективним, в той же час при застосуванні мікрофона на стороні передавача, звуковий сценою можна додатково маніпулювати, і модель втрачає гнучкість і стає обмеженою певною компонуванням гучномовців. Більш того, вона не дозволяє маніпулювати звуковий сценою на підставі параметричної інформації.

В

[24] Emmanuel Gallпозиции звукового джерела засновують на попарної різниці в часі надходження, виміряного за допомогою розподілених мікрофонів. Додатково, приймач залежимо від запису і вимагає для синтезу всі сигнали мікрофонів (наприклад, генерування сигналів гучномовців).

Спосіб, представлений в

[28] Svein Berge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151,

використовує, аналогічно DirAC, напрямок приходу як параметр, таким чином, обмежуючи подання певною точкою зору звукової сцени. Більш того, він не пропонує можливості передавати/зберігати подання звукової сцени, оскільки і аналіз, і синтез необхідно застосовувати на одній і тій же стороні системи зв'язку.

Завданням цього винаходу є надання поліпшених концепцій по захопленню просторового звуку і опис, шляхом вилучення геометричної інформації. Завдання цього винаходу досягається пристроєм для генерації, щонайменше, одного вихідного звукового сигналу, заснованого на потоці звукових даних по 1 п. формули винаходу, пристроєм для генерації потоку звукових даних з п. 10 формули винаходу, системою п. 19 формули винаходу, потоком звукових даних з п. 20 формули винаходу, способом генерації, щонайменше, одного в�ли винаходи і комп'ютерною програмою за п. 25 формули винаходу.

Надано пристрій для генерування, щонайменше, одного вихідного звукового сигналу, заснованого на потоці звукових даних, що включає в себе звукові дані, що відносяться до одного або більше джерел звуку. Пристрій включає в себе приймач для прийому потоку звукових даних, що включає в себе звукові дані. Звукові дані включають в себе одне або більше значень тиску для кожного з джерел звуку. Додатково, звукові дані включають в себе одне або більше значень розташування, що вказують розташування одного з джерел звуку для кожного з джерел звуку. Більш того, пристрій включає в себе модуль синтезу, для генерування, щонайменше, одного вихідного звукового сигналу, заснованого на, щонайменше, одному з одного або більше значень розташування звукових даних з потоку звукових даних. У варіанті здійснення, кожен з одного або більше значень розташування може включати в себе, щонайменше, два значення координат.

Звукові дані можна визначити для частотно-тимчасового елемента вибірки з безлічі частотно-часових елементів вибірки. Інакше, звукові дані можна визначити для моменту часу з безлічі ожна визначити для моменту часу з безлічі моментів часу, в той час як відповідні параметри (наприклад, значення місця розташування) можна визначити в частотно-часовій області. Цього можна легко досягти шляхом перетворення назад у часову область значень тиску, інакше визначених у частотно-часовому. Для кожного з джерел звуку, щонайменше одне значення тиску включають в звукові дані, причому, щонайменше, одне значення тиску може представляти собою значення тиску, що відноситься до испущенной звукової хвилі, наприклад, витікає з джерела звуку. Значення тиску може представляти собою значення звукового сигналу, наприклад, значення тиску вихідного звукового сигналу, генерованого пристроєм для генерування вихідного звукового сигналу віртуального мікрофона, причому цей віртуальний мікрофон розміщений в місці розташування джерела звуку.

Вищеописаний варіант здійснення дозволяє розрахувати подання звукового поля, яке в дійсності не залежить від розташування записів і надає можливість ефективної передачі і зберігання складної звукової сцени, а також можливість простих модифікацій і підвищену гнучкість в системі відтворення.

Поряд з ін�про вибирати своє становище в записаної звуковий сцені, використовувати будь-яку компонування гучномовців і додатково маніпулювати звуковий сценою на підставі геометричної інформації, наприклад, здійснювати позиційну фільтрацію. Іншими словами, в запропонованому способі акустичну точку зору можна змінювати, і розташування прослуховування в звуковий сцені можна змінювати.

Згідно з вищеописаним варіантом здійснення, звукові дані, включені в потік звукових даних, що включають у себе одну або більше значень тиску для кожного з джерел звуку. Таким чином, значення тиску вказують звуковий сигнал щодо одного з джерел звуку, наприклад, звуковий сигнал, що виходить із джерела звуку, і безвідносно розташування записуючих мікрофонів. Аналогічно, одне або більше значень розташування, які включені в потік звукових даних, що вказують розташування джерел звуку, а не мікрофонів.

Таким чином, здійснюють безліч переваг: наприклад, досягнуте подання звукової сцени можна кодувати, використовуючи трохи біт. Якщо звукова сцена включає в себе тільки єдине джерело звуку в певному частотно-часовому елементі вибірки, разом зі значенням мо�нного звукового сигналу, відноситься до єдиного джерела звуку. На відміну, у звичайних способах може виявитися необхідним кодувати безліч значень тиску з безлічі записаних сигналів мікрофона, для реконструкції звукової сцени на приймачі. Більш того, вищеописаний варіант здійснення дозволяє легко модифікувати звукову сцену на передавачі, а також на стороні приймача, як буде описано нижче. Таким чином, композиція сцени (наприклад, визначення місця розташування прослуховування в звуковий сцені), також можна виконувати і на стороні приймача.

У варіантах здійснення застосовують принцип моделювання складної звукової сцени допомогою джерел звуку, наприклад, точкових джерел звуку (PLS = точкове джерело звуку), наприклад, ізотропних точкових джерел звуку (IPLS), які активні у певних осередках частотно-часового подання, такого як те, яке надано віконним перетворенням Фур'є (STFT).

У відповідності з варіантом здійснення, приймач може бути виконаний з можливістю прийому потоку звукових даних, що включає в себе звукові дані, причому звукові дані, в свою чергу, включають в себе одне або більше значень дифузності для кожного одного звукового сигналу, заснованого на, щонайменше, одному або більше значеннях дифузності.

В іншому варіанті здійснення, приймач може додатково включати в себе модуль модифікації для модифікації звукових даних прийнятого потоку звукових даних шляхом модифікації, щонайменше, одного з, одного або більше значень тиску звукових даних, шляхом модифікації, щонайменше, одного з, одного або більше значень розташування із звукових даних або шляхом модифікації, щонайменше, одного із значень дифузності із звукових даних. Модуль синтезу може бути виконаний з можливістю генерування, щонайменше, одного вихідного звукового сигналу, на підставі, щонайменше, одного модифікованого значення тиску, на підставі, щонайменше, одного модифікованого значення місця розташування або на підставі, щонайменше, одного модифікованого значення дифузності.

У подальшому варіанті здійснення, кожне із значень розташування кожного з джерел звуку може включати в себе, щонайменше, два значення координат. Додатково, модуль модифікації може бути виконаний з можливістю модифікації значень координат шляхом додавання по меншій мо�покладено місцеположення знаходиться в заздалегідь певній галузі навколишнього простору.

Згідно з іншим варіантом здійснення, кожне із значень розташування кожного з джерел звуку може включати в себе, щонайменше, два значення координат. Більш того, модуль модифікації виконаний з можливістю модифікації значень координат шляхом застосування для значень координат детермінованої функції, коли значення координат вказують, що джерело звуку розташований у розташування, що знаходиться в заздалегідь певній галузі навколишнього простору.

У додатковому варіанті здійснення, кожне із значень розташування кожного з джерел звуку може включати в себе, щонайменше, два значення координат. Більш того, модуль модифікації може бути виконаний з можливістю модифікації вибраного значення тиску з одного або більше значень тиску звукових даних, що відноситься до того ж джерела звуку, що і значення координат, коли значення координат вказують, що джерело звуку розташований у розташування, що знаходиться в заздалегідь певній галузі навколишнього простору.

У відповідності з варіантом здійснення, модул�нтеза може бути виконаний з можливістю генерування сигналу прямого тиску, включає в себе прямий звук, сигналу дифузного тиску, що включає в себе дифузний звук і інформацію про напрямку приходу, на підставі, щонайменше, одного з одного або більше значень тиску звукових даних з потоку звукових даних, на підставі, щонайменше, одного з одного або більше значень розташування із звукових даних з потоку звукових даних і на підставі, щонайменше, одного з одного або більше значень дифузності із звукових даних з потоку звукових даних. Блок другого етапу синтезу може бути виконаний з можливістю генерування, щонайменше, одного вихідного звукового сигналу на підставі сигналу прямого тиску, сигналу дифузного тиску та інформації про напрямку приходу.

У відповідності з варіантом здійснення, надають пристрій для генерування потоків звукових даних, що включає дані джерела звуку, що відносяться до одного або більше джерел звуку. Пристрій для генерування потоку звукових даних включає в себе визначник для визначення даних джерела звуку на підставі, щонайменше, одного вхідного звукового сигналу, записаного за допомогою принаймні одного мікрофона і основаннополнительно, пристрій включає в себе генератор потоку даних, для генерування потоку звукових даних, так, щоб потік звукових даних включав в себе дані джерела звуку. Дані джерела звуку включають в себе одне або більше значень тиску для кожного з джерел звуку. Більш того, дані джерела звуку додатково включають в себе одне або більше значень розташування, що вказують на місце розташування джерела звуку для кожного з джерел звуку. Додатково, дані джерела звуку визначені для частотно-тимчасового елемента вибірки з безлічі частотно-часових елементів вибірки.

У додатковому варіанті здійснення, визначник може бути виконаний з можливістю визначення даних джерела звуку на підставі інформації дифузності, щонайменше, з одного просторового мікрофона. Генератор потоку даних може бути виконаний з можливістю генерування потоку звукових даних так, щоб потік звукових даних включав в себе дані джерела звуку. У свою чергу, дані джерела звуку включають в себе одне або більше значень дифузності для кожного з джерел звуку.

В іншому варіанті здійснення, пристрій для генерування потоку звуко�енерированного генератором потоку даних, шляхом модифікації, щонайменше, одного із значень тиску звукових даних, щонайменше, одного із значень розташування із звукових даних або, щонайменше, одного із значень дифузності із звукових даних, що відносяться до, щонайменше, одного з джерел звуку.

Згідно з іншим варіантом здійснення, кожне із значень розташування кожного з джерел звуку може включати в себе, щонайменше, два значення координат (наприклад, дві координати декартової системи координат або азимут і відстань в полярній системі координат). Модуль модифікації може бути виконаний з можливістю модифікації значень координат шляхом додавання, щонайменше, одного випадкового числа до значень координат або шляхом застосування до значень координат детермінованої функції, коли значення координат вказують, що джерело звуку розташований у розташування, що знаходиться в заздалегідь певній галузі навколишнього простору.

У відповідності з наступним варіантом здійснення, надають потік звукових даних. Потік звукових даних може включати в себе звукові дані, що відносяться до одного або більше джерел звуку, причому звукові дадополнительно включати в себе, щонайменше, одне значення місця розташування, яке вказує місце розташування джерела звуку для кожного з джерел звуку. У варіанті здійснення, кожне з, щонайменше, одного значення розташування може включати в себе, щонайменше, два значення координат. Звукові дані можна визначити для частотно-тимчасового елемента вибірки з безлічі частотно-часових елементів вибірки.

В іншому варіанті здійснення, звукові дані додатково включають в себе одне або більше значень дифузності для кожного з джерел звуку.

Нижче будуть описані кращі варіанти здійснення винаходу, в яких:

на фіг.1 проілюстровано пристрій для генерації, щонайменше, одного вихідного звукового сигналу на підставі потоку звукових даних, що включає в себе звукові дані, що відносяться до одного або більше джерел звуку у відповідності з варіантом здійснення,

на фіг.2 проілюстровано пристрій для генерації потоку звукових даних, що включає в себе дані джерел звуку, що належать до одного або більше джерел звуку у відповідності з варіантом здійснення,

на фіг.3a-3c проілюстровані потоки звукових даних відповідно�ових даних, включає в себе дані джерел звуку, що відносяться до одного або більше джерел звуку згідно з іншим варіантом здійснення,

на фіг.5 проілюстрована звукова сцена, що складається з двох джерел звуку та двох рівномірних лінійних масивів мікрофонів,

на фіг.6a проілюстровано пристрій 600 для генерації, щонайменше, одного вихідного звукового сигналу на підставі потоку звукових даних у відповідності з варіантом здійснення,

на фіг.6b проілюстровано пристрій 660 для генерації потоку звукових даних, що включає в себе дані джерел звуку, що належать до одного або більше джерел звуку у відповідності з варіантом здійснення,

на фіг.7 зображений модуль модифікації у відповідності з варіантом здійснення,

на фіг.8 зображений модуль модифікації згідно з іншим варіантом здійснення,

на фіг.9 проілюстровані блоки передавача/аналізатора і блоки приймача/синтезатора у відповідності з варіантом здійснення,

на фіг.10a зображений модуль синтезу у відповідності з варіантом здійснення,

на фіг.10b зображено блок першого етапу синтезу у відповідності з варіантом здійснення,

на фіг.10c зображено блок згідно з іншим варіантом здійснення,

на фіг.12 проілюстровано пристрій для генерації вихідного звукового сигналу віртуального мікрофона у відповідності з варіантом здійснення,

на фіг.13 проілюстровані входи і виходи пристрою і спосіб для генерації вихідного звукового сигналу віртуального мікрофона у відповідності з варіантом здійснення,

на фіг.14 проілюстрована основна структура пристрою для генерації вихідного звукового сигналу віртуального мікрофона у відповідності з варіантом здійснення, яке включає в себе оцінювач розташування звукового події і модуль обчислення інформації,

на фіг.15 показаний приблизний сценарій, в якому реальні просторові мікрофони зображені як рівномірні лінійні масиви з 3 мікрофонів кожен,

на фіг.16 показані два просторових мікрофона в 3D, для оцінки напрямку приходу в 3D просторі,

на фіг.17 проілюстрована геометрія, в якій ізотропний точкове джерело звуку поточного частотно-тимчасового елемента вибірки (k, n) розташований в місці розташування PIPLS(k, n),

на фіг.18 показаний модуль обчислення інформації у відповідності з варіантом здійснення,

на фіг.19 показаний модуль обчислення інформації у відпо�ованное звукове подія і віртуального просторового розташування мікрофона,

на фіг.21 проілюстровано, як отримати напрямок приходу по відношенню до віртуального мікрофону у відповідності з варіантом здійснення,

на фіг.22 показаний можливий шлях виведення DOA звуку з точки зору віртуального мікрофона у відповідності з варіантом здійснення,

на фіг.23 проілюстрований блок обчислення інформації, що включає в себе блок обчислення дифузності у відповідності з варіантом здійснення,

на фіг.24 показано блок обчислення дифузності у відповідності з варіантом здійснення,

на фіг.25 проілюстровано сценарій, при якому неможлива оцінка місця розташування звукового події,

на фіг.26 проілюстровано пристрій для генерації потоку даних віртуального мікрофона у відповідності з варіантом здійснення,

на фіг.27 проілюстровано пристрій для генерації, щонайменше, одного вихідного звукового сигналу на підставі потоку звукових даних згідно з іншим варіантом здійснення, і

на фіг.28a-28c проілюстровані сценарії, в яких два масиву мікрофонів приймають прямий звук, звук, відбитий від стіни, і дифузний звук.

До надання докладного опису варіантів здійснення цього винаходу оповня техніки, відноситься до ідей цього винаходу.

На фіг.12 проілюстровано пристрій для генерації вихідного звукового сигналу для емуляції запису мікрофона в настроюваному віртуальному місцезнаходження posVmic в навколишньому просторі. Пристрій включає в себе оцінювач 110 розташування звукових подій і модуль 120 обчислення інформації. Оцінювач 110 розташування звукових подій приймає першу інформацію про направлення di1 з першого реального просторового мікрофона і другу інформацію про направлення di2 з другого реального просторового мікрофона. Оцінювач 110 розташування звукових подій виконаний з можливістю оцінки місця розташування джерела звуку ssp, що вказує місце розташування джерела звуку в навколишньому просторі, джерело звука випромінює звукову хвилю, причому оцінювач 110 розташування звукових подій виконаний з можливістю оцінки місця розташування ssp джерела звуку на підставі першої інформації про направлення di1, наданої першим реальним просторовим мікрофоном, розташованим в навколишньому просторі в місці розташування pos1mic першого реального просторового мікрофона, і на підставі другий інформації про направлення di2, надає�нні другого реального просторового мікрофона. Модуль 120 обчислення інформації виконаний з можливістю генерації вихідного звукового сигналу на підставі першого записаного вхідного звукового сигналу is1, записаного першим реальним просторовим мікрофоном, на підставі розташування pos1mic першого реального просторового мікрофона і на підставі віртуального розташування posVmic віртуального мікрофона. Модуль 120 обчислення інформації включає в себе компенсатор поширення, виконаний з можливістю генерації першого модифікованого звукового сигналу, шляхом модифікації першого записаного вхідного звукового сигналу is1, шляхом компенсації першої затримки чи затухання амплітуди між приходом звукової хвилі, испущенной джерелом звуку на перший реальний просторовий мікрофон і приходом звукової хвилі на віртуальний мікрофон, шляхом поправки значення амплітуди, значення магнітуди або значення фази першого записаного звукового сигналу is1, для отримання вихідного звукового сигналу.

На фіг.13 проілюстровані входи і виходи пристрою і спосіб, у відповідності з варіантом здійснення. Інформацію з двох або більше реальних просторових мікрофонів 111, 112, ..., 11N направляють в пристрій/обрабаѵнними мікрофонами, а також інформацію про напрямку з реальних просторових мікрофонів, наприклад, оцінки напрямку приходу (DOA). Звукові сигнали та інформація про напрямку, такі як оцінки напрямку приходу, можна виражати в частотно-часовій області. Якщо, наприклад, требуема реконструкція 2D геометрії і для подання сигналів обрана традиційна область STFT (короткочасне перетворення Фур'є), DOA можна виразити як кути азимута, залежні від k і n, а саме частотного і тимчасового індексів.

У варіантах здійснення, локалізацію звукового події в просторі, а також опис місця розташування віртуального мікрофона, можна проводити на підставі розташування й орієнтації реальних і віртуальних просторових мікрофонів в загальній системі координат. Цю інформацію можна представити вхідними сигналами 121...12N і вхідним сигналом 104 на фіг.13. Вхідний сигнал 104 може додатково вказувати характеристику віртуального просторового мікрофона, наприклад, його місцезнаходження та діаграму спрямованості прийому, як буде описано нижче. Якщо віртуальний просторовий мікрофон включає в себе численні віртуальні датчики, можна враховувати їх розташування і соответствуюмогут, якщо бажано, один чи більш звукових сигналів 105, які можна було прийняти просторовим мікрофоном, певним і розташованим, як зазначено 104. Більш того, пристрій (або, швидше, спосіб) може, в якості виходу, надавати відповідну просторову інформацію 106 сторони, яку можна оцінити з застосуванням віртуального просторового мікрофона.

На фіг.14 проілюстровано пристрій у відповідності з варіантом здійснення, яке включає в себе два головних блоки обробки, оцінювач 201 розташування звукових подій і модуль 202 обчислення інформації. Оцінювач 201 розташування звукових подій може виконувати геометричну реконструкцію на підставі DOA, включених до входи 111...11N, і на підставі знання місця розташування і орієнтації реальних просторових мікрофонів, де DOA були обчислені. Вихідний сигнал оцінювача 205 розташування звукових подій включає в себе оцінку місцезнаходження (або в 2D або 3D) джерел звуку, причому для кожного частотно-тимчасового елемента вибірки відбуваються звукові події. Другий блок 202 обробки являє собою модуль обчислення інформації. У відповідності з варіантом здійснення з фіг.14, другий блок 202 обр�го позначають як блок 202 обчислення сигналу віртуального мікрофона і інформації сторони. Блок 202 обчислення сигналу віртуального мікрофона та інформації боку, для обробки звукових сигналів, включених в 111...11N, використовує розташування 205 звукових подій, для вихідного сигналу звукового сигналу 105 віртуального мікрофона. Блок 202, якщо потрібно, також може обчислювати інформацію 106 просторової боку, відповідну віртуального просторового мікрофону. Варіанти здійснення нижче ілюструють можливі варіанти функціонування блоків 201 та 202.

У нижченаведеному, оцінка місця розташування звукових подій, у відповідності з варіантом здійснення, описана більш детально.

На підставі розмірності задачі (2D або 3D) і кількості просторових мікрофонів можливі кілька рішень з оцінки місця розташування.

Якщо в 2D існують два просторових мікрофона, (найпростіший з можливих випадок) можлива проста тріангуляція. На фіг.15 показаний приблизний сценарій, в якому реальні просторові мікрофони зображені як рівномірні лінійні масиви (ULA) з трьох мікрофонів кожен. DOA, виражена як кути азимута a1(k, n) і a2(k, n), розраховують для частотно-тимчасового елемента вибірки (k, n). Цього досягають, застосовуючи відповідний оцінювач DOA, такий як ESPRIT,

або (кореневої) MUSIC, див.

[14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986

до сигналів тиску, перетвореним в частотно-часову область.

На фіг.15 проілюстровані два реальних просторових мікрофона, тут, два реальних просторових масиву мікрофонів 410, 420. Два оцінюваних DOA a1(k, n) і a2(k, n) представлені двома лініями, першою лінією 430, представляє DOA a1(k, n), і другою лінією 440, представляє DOA a2(k, n). Знаючи місце розташування і орієнтацію кожного масиву, за допомогою простих геометричних принципів можлива тріангуляція.

Тріангуляція неможлива, коли дві лінії, 430, 440, в точності паралельні. Однак, в реальному застосуванні це вкрай малоймовірно. Однак, не всі результати тріангуляції відповідають фізичній або реалістичного розташування звукового події в розглянутому просторі. Наприклад, оцінене розташування звукового події може бути занадто віддалено або навіть поза передбачуваного простору, вказуючи на те, що можливо DOA не відповідають ніякому звуковому події, яке можна фізично інтерпретувати у використовуваній моделі. Такі результати можуть бути викликані шумом дЂакие небажані результати позначають так, щоб модуль 202 обчислення інформації міг обробити їх відповідним чином.

На фіг.16 зображений сценарій, в якому розташування звукового події оцінюють в 3D просторі. Застосовують відповідні просторові мікрофони, наприклад, планарний або 3D масив мікрофонів. На фіг.16, перший просторовий мікрофон 510, наприклад, є першим 3D масивом мікрофонів, і другий просторовий мікрофон 520, наприклад, є другим 3D масивом мікрофонів, як проілюстровано. DOA в 3D просторі можна, наприклад, виразити як азимут і висоту. Для вираження DOA можна застосувати блокові вектори 530, 540. Дві лінії, 550, 560 проектують згідно з DOA. У 3D, навіть при дуже достовірних оцінках, дві лінії, 550, 560, спроектовані у відповідності з DOA, не можуть перетнутися. Однак, тріангуляцію все одно можна виконати, наприклад, шляхом вибору середньої точки найменшого сегмента, що з'єднує дві лінії.

Аналогічно з випадком 2D, тріангуляція може закінчитися невдачею, або надати неправдоподібні результати для певної комбінації напрямів, які, потім, також можна позначити, наприклад, для блоку 202 обчислення інформації з фіг.14.

Якщо існує більш двох просторових меальних просторових мікрофонів (якщо N=3, 1 з 2, 1 з 3 і 2 із 3). Потім, результуючі розташування можна усереднити (вздовж x і y, і, якщо розглядається 3D, z).

Інакше, можна використовувати більш складні принципи. Наприклад, як описано в

[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.

можна застосовувати ймовірнісні підходи.

У відповідності з варіантом здійснення, звукове поле можна аналізувати в частотно-часовій області, наприклад, отриманої за допомогою віконного перетворення Фур'є (STFT), де k і n позначають частотний індекс k і тимчасової індекс n, відповідно. Складне тиск Pv(k, n) в довільному розташуванні Pvдля певних k і n моделюють, як одиночну сферичну хвилю, испущенную вузькосмуговим ізотропним точковим джерелом, наприклад, застосовуючи формулу

де PIPLS(k, n) являє собою сигнал, іспущенний IPLS в його місцезнаходження PIPLS(k, n). Складний коефіцієнт γ(k, PIPLS, Pvвисловлює поширення від PIPLS(k, n) до Pvнаприклад, представляє відповідні модифікації фази і магнітуди. Тут, можна застосувати припущення, що в кожному частотно-часовому елементі вибірки активний тільки один ивни в єдиний момент часу.

Кожен IPLS або моделює прямий звук, або чітке відображення кімнати. Його місце розташування PIPLS(k, n) може ідеально відповідати фактичному джерела звуку, що знаходиться в кімнаті, або відображеним зображення джерела, що знаходиться зовні, відповідно. Таким чином, місце розташування PIPLS(k, n) може також вказувати місце розташування звукового події.

Необхідно зазначити, що термін "реальний джерело звуку" позначає фактичні джерела звуку, фізично існуючі в навколишньому середовищі запису, такі, як співрозмовники або музичні інструменти. Навпаки, з "джерелами звуку", або "звуковими подіями", або "IPLS" позначають ефективні джерела звуку, які активні в певні моменти часу або в певних частотно-часових елементах вибірки, причому джерела звуку можуть, наприклад, являти реальні джерела звуку або відображені зображення джерел.

На фіг.28a-28b проілюстровані масиви мікрофонів, локализующие джерела звуку. Локалізовані джерела звуку можуть володіти різними фізичними інтерпретаціями, в залежності від їх природи. Коли масив мікрофонів приймає прямий звук, то вона може виявитися здатна локализоват�ажения, вони можуть локалізувати місце розташування відбитого зображення джерела. Відображені зображення джерел також є джерелами звуку.

На фіг.28a проілюстровано сценарій, в якому два масиву 151 і 152 мікрофонів приймають прямий звук з фактичного джерела звуку (фізично існуючого джерела звуку) 153.

На фіг.28b проілюстровано сценарій, в якому два масиву мікрофонів 161, 162, приймають відбитий звук, причому звук був відбитий від стіни. Відображення, масиви мікрофонів 161, 162 локалізують місце, з якого, очевидно, йде звук, місцезнаходження відбитого зображення джерела 165, яке відрізняється від місцезнаходження гучномовця 163.

І фактичний джерело 153 звуку з фіг.28a, а також відбите зображення джерела 165 являють собою джерела звуку.

На фіг 28c проілюстровано сценарій, в якому два масиву мікрофонів 171, 172 приймають дифузний звук і не можуть локалізувати джерело звуку.

Хоча ця однохвильова модель точна тільки для слабо реверберантних навколишніх середовищ, за умови, що вихідні сигнали задовольняють умові W-диз'юнктивної ортогональності (WDO), тобто частотно-тимчасове перекриття досить мало. Зазвичай, пов�l Processing, 2002. ICASSP 2002. IEEE International Conference on April 2002, vol. 1.

Однак, ця модель також надає гарну оцінку для інших навколишніх середовищ і, таким чином, застосовна для цих середовищ.

У нижченаведеному пояснюють оцінку місцезнаходжень PIPLS(k, n) згідно з варіантом здійснення. Місце розташування PIPLS(k, n) активного IPLS в певному частотно-часовому елементі вибірки, і, таким чином, оцінки звукового події в частотно-часовому елементі вибірки, оцінюють за допомогою тріангуляції, на підставі напрямку приходу (DOA) звуку, виміряного в, щонайменше, двох різних точках спостереження.

На фіг.17 проілюстрована геометрія, в якій IPLS поточного частотно-часового слоту (k, n) розташований в невідомому місцезнаходження PIPLS(k, n). Для того, щоб визначити необхідну інформацію DOA, застосовують два реальних просторових мікрофона, тут, що володіють відомою геометрії, розташування та орієнтацією два масиву мікрофонів, які розміщують у місцях розташування 610 і 620, відповідно. Вектори p1і p2вказують на розташування 610, 620, відповідно. Орієнтації масивів визначені блоковими векторами c1і c2. DOA звуку визначають розташування 610 і 620 � блоковий вектор точки зору, e1POV(k, n), і другий блоковий вектор точки зору, e2POV(k, n), з урахуванням точки зору масивів мікрофонів (обидві не показані на фіг.17), можна надати як вихідний сигнал аналізу DirAC. Наприклад, при роботі в 2D, перший блоковий вектор точки зору результирует в:

Тут, φ1(k, n) являє азимут DOA, оцінений на першому масиві мікрофонів, як зображено на фіг.17. Відповідні блокові вектори DOA e1(k, n) і e2(k, n), щодо глобальної координатної системи у вихідній точці, можна обчислити, використовуючи формулу:

де R являють собою масиви перетворення координат, наприклад,

при функціонуванні в 2D, і c1=[c1,x, c1,y]T. Для виконання тріангуляції, вектори спрямованості d1(k, n) і d2(k, n) можна розрахувати як:

де d1(k, n)=||d1(k, n)|| d2(k, n)=||d2(k, n)|| є невідомими відстанями між IPLS і двома масивами мікрофонів. Наступне рівняння

можна вирішити для d1(k, n). Нарешті, місце розташування PIPLS(k, n) IPLS дається вк, n), PIPLS(k, n) обчислюють аналогічно, застосовуючи d2(k, n).

Рівняння (6) завжди надає рішення при функціонуванні в 2D, якщо e1(k, n) і e2(k, n) не паралельні. Однак, при використанні більш ніж двох масивів мікрофонів, або при функціонуванні в 3D, рішення можна знайти, коли вектори спрямованості d не перетинаються. У відповідності з варіантом здійснення, в цьому випадку, повинна бути обчислена точка, найближча до всіх векторів спрямованості d, і результат можна використовувати як місце розташування IPLS.

У варіанті здійснення, всі точки огляду p1, p2, ... повинні розташовуватися так, щоб звук, що випускається IPLS, потрапляв в один і той же часовий блок n. Це вимога просто виконати, коли відстань Δ між будь-якими двома точками огляду менше, ніж

де nFFTявляє собою довжину вікна STFT, 0≤R<1 вказує перекриття між послідовними тимчасовими кадрами, і fsявляє собою частоту семплювання. Наприклад, для 1024-точкового STFT при 48 КГц з 50% перекриттям (R=0,5), максимальна відстань між масивами, що задовольняє вищенаведеним вимогу складе Δ=3,65 м.

У нижченаведеному, з�, �одуль обчислення сигналу віртуального мікрофона і інформації сторони.

На фіг.18 проілюстрований схематичний вигляд модуля 202 обчислення інформації, у відповідності з варіантом здійснення. Блок обчислення інформації включає в себе компенсатор 500 поширення, об'єднувач 510 і блок 520 спектрального зважування. Модуль 202 обчислення інформації приймає оцінки місця розташування джерела звуку ssp, оціненого оцінювачем розташування звукових подій, один або більше вхідних звукових сигналів записують за допомогою одного або більше реальних просторових мікрофонів, розташування posRealMic одного або більше реальних просторових мікрофонів і віртуальне місце розташування posVmic віртуального мікрофона. Він виводить вихідний звуковий сигнал os, представляє звуковий сигнал віртуального мікрофона.

На фіг.19 проілюстрований модуль обчислення інформації згідно з іншим варіантом здійснення. Модуль обчислення інформації з фіг.19 включає в себе компенсатор 500 поширення, об'єднувач 510 і блок 520 спектрального зважування. Компенсатор 500 поширення включає в себе модуль 501 обчислення параметрів поширення і модуль 504 компенсації поширення. �пектрального зважування включає в себе блок 503 обчислення спектральних ваг, модуль 506 застосування спектральних ваг і модуль 507 обчислення просторової інформації боку.

Для обчислення звукового сигналу віртуального мікрофона, геометричну інформацію, наприклад, місцеположення і орієнтацію реальних просторових мікрофонів 121...12N, місце розташування, орієнтацію і характеристики віртуального просторового мікрофона 104, та оцінки розташування звукових подій 205 направляють на блок 202 обчислення інформації, а точніше, модуль 501 обчислення параметрів поширення компенсатора 500 поширення, модуль 502 обчислення коефіцієнтів об'єднання об'єднувача 510 і блок 503 обчислення спектральних ваг блоку 520 спектрального зважування. Модуль 501 обчислення параметрів розповсюдження, модуль 502 обчислення коефіцієнтів об'єднання і блок 503 обчислення спектральних ваг обчислюють параметри, використовувані в модифікації звукових сигналів 111...11N в модулі 504 компенсації поширення, модулі 505 об'єднання і модулі 506 застосування спектрального зважування.

У модулі 202 обчислення інформації, звукові сигнали 111...11N можна модифікувати для компенсації ефектів, внесених різними відстанями розповсюдження між местополЃчшения, наприклад, відношення сигнал-шум (SNR). Нарешті, результуючий сигнал можна піддати спектрального зважуванню, для прийняття до уваги діаграми спрямованості прийому віртуального мікрофона, а також будь-які залежать від відстані функції підсилення. Ці три етапи описані нижче більш докладно.

Тепер опишемо більш докладно компенсацію поширення. У верхній частині фіг.20 проілюстровані два реальних просторових мікрофона (перший масив мікрофонів 910 і другий масив мікрофонів 920), локалізованого розташування звукового події 930 для частотно-тимчасового елемента вибірки (k, n) та місце віртуального просторового мікрофона 940.

У нижній частині фіг.20 зображена вісь часу. Передбачається, що звукове подія испущено під час t0 і потім поширюється до реальним і віртуальним просторовим мікрофонів. Тимчасові затримки приходу, а також амплітуди, змінюються з відстанню так, що чим більше довжина поширення, тим слабкіше амплітуда і триваліша тимчасова затримка.

Сигнали на двох реальних масивах можна порівнювати тільки в тому випадку, якщо відносна тимчасова затримка Dt12 між ними мала. Інакше, один з двох сигналів необхідно часів�ції різних загасань.

Компенсація затримки між приходом на віртуальний мікрофон і приходом на реальні масиви мікрофонів (на одному з реальних просторових мікрофонів) змінює затримку незалежно від локалізації звукового події, що робить її, для більшості застосувань, надлишковою.

Повертаючись до фіг.19, модуль 501 обчислення параметрів поширення виконаний з можливістю обчислення затримок, що підлягають корекції для кожного реального просторового мікрофона і для кожного звукового події. Якщо бажано, він також обчислює коефіцієнти підсилення, що підлягають розгляду для компенсації різних загасань амплітуди.

Модуль 504 компенсації поширення налаштований для використання цієї інформації для відповідної модифікації звукових сигналів. Якщо сигнали необхідно зрушити на невеликий проміжок часу (порівняно з часовим вікном банку фільтрів), то достатня проста фазова ротація. Якщо затримки більше, необхідні більш складні реалізації.

Вихідний сигнал модуля 504 компенсації поширення являє собою модифіковані звукові сигнали, виражені у вихідному частотно-часової області.

У нижченаведеному, з посиланням на фіг.17, � місцезнаходження 620 другого реального просторового мікрофона, буде описана конкретна оцінка компенсації поширення для віртуального мікрофона, згідно з варіантом здійснення.

В описуваному зараз варіанті здійснення, припускають, що доступний, щонайменше, перший вхідний записаний звуковий сигнал, наприклад, сигнал тиску з, щонайменше, одного з реальних просторових мікрофонів (наприклад, масивів мікрофонів), наприклад, сигнал тиску з першого реального просторового мікрофона. Розглянутий мікрофон буде позначений як еталонний мікрофон, його розташування як еталонне місце розташування Prefі його сигнал тиску як еталонний сигнал тиску Pref(k, n). Однак, компенсацію поширення не можна проводити по відношенню до тільки одного сигналу тиску, але також і по відношенню до сигналів тиску з безлічі або з усіх реальних просторових мікрофонів.

Відношення між сигналом тиску PIPLS(k, n), испущенного IPLS, і еталонним сигналом тиску Pref(k, n) еталонного мікрофона, розташованого в Prefможна виразити формулою (9):

Загалом, комплексний коефіцієнт γ(k, pa, pbвисловлює фазову ротацію і згас�актическое тестування показало, що розгляд в γ тільки загасання амплітуди веде до прийнятних враженням від сигналу віртуального мікрофона, з істотно меншими артефактами, порівняно з розглядом разом з фазовою ротацією.

Звукова енергія, яку можна виміряти в певній точці в просторі, сильно залежить від відстані r від джерела звуку, на фіг.6, с місцезнаходження PIPLSджерела звуку. У багатьох ситуаціях, цю залежність можна, з достатньою точністю, змоделювати, використовуючи добре відомі фізичні принципи, наприклад, загасання 1/r звукового тиску на відстані від точкового джерела. Коли відомо відстань еталонного мікрофона, наприклад, першого реального мікрофона, від джерела звуку, і коли також відомо відстань віртуального мікрофону від джерела звуку, то, з сигналу і енергії з еталонного мікрофона, наприклад, першого реального просторового мікрофона, можна оцінити звукову енергію місцезнаходження віртуального мікрофона. Це означає, що вихідний сигнал віртуального мікрофона можна отримати шляхом застосування відповідних посилень до еталонного сигналу тиску.

Припускаючи, що перший реальний просторовий мікрофон є еталонним мииг.17 відома докладно, відстань d1(k, n)=||d1(k, n)|| між еталонним мікрофоном (на фіг.17: перший реальний просторовий мікрофон) і IPLS можна легко визначити, а також відстань s(k, n)=||s(k, n)|| між віртуальним мікрофоном і IPLS, а конкретно

Звуковий тиск Pv(k, n)місцезнаходження віртуального мікрофона обчислюють за допомогою комбінування формул (1) і (9), що призводить до

Як згадано вище, в деяких варіантах здійснення, коефіцієнти γ можуть розглядати тільки загасання амплітуди при поширенні. Припускаючи, для прикладу, що звуковий тиск зменшується з 1/r, то

Коли модель з формули (1) підходить, наприклад, коли присутня тільки прямий звук, то формула (12) може точно реконструювати інформацію магнітуди. Однак, у випадку чистих дифузних звукових полів, наприклад, коли припущення моделі не виконуються, представлений спосіб дає явну дереверберацию сигналу при переміщенні віртуального мікрофона вдалину від місця розташування масивів датчиків. Фактично, як описано вище, в дифузних звукових полях, очікується, що велика частина IPLS локалізована поруч з двома массивамиувеличивается відстань s=||s|| з фіг.17. Таким чином, магнітуда еталонного тиску зменшується при застосуванні зважування у відповідності з формулою (11). Відповідно, при переміщенні віртуального мікрофона вблизь від фактичного джерела звуку, частотно-часові елементи вибірки, відповідні прямого звуку, будуть посилені, таким чином, що весь звуковий сигнал буде сприйматися як менш дифузний. Шляхом поправки правила у формулі (12), можна керувати посиленням прямого звуку і придушенням дифузного звуку довільним чином.

Шляхом виконання компенсації поширення на записаний вхідний звуковий сигнал (наприклад, сигнал тиску) першого реального просторового мікрофона, отримують перший модифікований звуковий сигнал.

У варіантах здійснення, другий модифікований звуковий сигнал можна отримати шляхом проведення компенсації поширення на додатково записані вхідні сигнали (додаткові сигнали тиску) додаткових реальних просторових мікрофонів.

Тепер більш докладно описують об'єднання в блоках 502 і 505 з фіг.19, у відповідності з варіантом здійснення. Припускають, що модифікували два або більше звукових сигналів з безлічі � двох або більше модифікованих звукових сигналів. Після того, як звукові сигнали з різних реальних просторових мікрофонів модифікували для компенсації різних шляхів поширення, їх можна об'єднати для підвищення якості звуку. Таким чином можна, наприклад, збільшити SNR або зменшити реверберацію.

Можливі рішення для об'єднання включають в себе:

- Зважене усереднення, наприклад, розглядаючи SNR, або відстань до віртуального мікрофона, або дифузність, оцінена реальними просторовими мікрофонами. Можна застосовувати традиційні рішення, наприклад, об'єднання максимального відносини (MRC), або об'єднання рівного посилення (EQC), або

- Лінійне об'єднання декількох або всіх модифікованих звукових сигналів для отримання об'єднаного сигналу. Модифіковані звукові сигнали можна зважувати в лінійному об'єднання для отримання об'єднаного сигналу, або

- Вибір, наприклад, використання тільки одного сигналу, наприклад, в залежності від SNR, або відстані, або дифузності.

Завданням модуля 502, якщо застосовно, є обчислення параметрів для об'єднання, яке виконують в модулі 505.

Тепер, описується більш детально спектральне зважування, згідно з варіантами які�ийся з об'єднання або компенсації розповсюдження вхідних звукових сигналів, зважують в частотно-часовій області згідно з просторовими характеристиками віртуального просторового мікрофона, як зазначено вхідним сигналом 104, та/або відповідно до реконструйованої геометрією (даної 205).

Для кожного частотно-тимчасового елемента вибірки геометричне реконструювання дозволяє легко отримати DOA щодо віртуального мікрофона, як показано на фіг.21. Більш того, відстань між віртуальним мікрофоном і місце розташування звукового події також легко обчислюється.

Потім обчислюють вага для частотно-тимчасового елемента вибірки, з урахуванням бажаного типу віртуального мікрофона.

У разі спрямованих мікрофонів, спектральні ваги можна обчислити відповідно до попередньо визначеної діаграмою спрямованості прийому. Наприклад, у відповідності з варіантом здійснення, кардіоїдний мікрофон може володіти діаграмою спрямованості прийому, певною функцією g(theta),

g(theta)=0,5+0,5 cos(theta),

де theta - це кут між напрямком погляду віртуального просторового мікрофона і DOA звуку з точки зору віртуального мікрофона.

Іншою можливістю є художні (не фізичні) функції загасання.�ого мікрофона, з коефіцієнтом, більшим, ніж обумовлено поширенням крізь вільну область. Для цієї мети деякі варіанти здійснення вносять додаткову взвешивающую функцію, яка залежить від відстані між віртуальним мікрофоном і звуковим подією. У варіанті здійснення, потрібно прийняти тільки звукові події в межах певної відстані (наприклад, в метрах) від віртуального мікрофона.

З урахуванням спрямованості віртуального мікрофона для віртуального мікрофона можна застосовувати довільні діаграми спрямованості. Цим способом можна, наприклад, виділити джерело з складною звукової сцени.

Оскільки DOA звуку можна обчислити місцеположення pvвіртуального мікрофона, а саме

де cvявляє собою блоковий вектор, що описує орієнтацію віртуального мікрофона, для віртуального мікрофона можна реалізовувати довільні спрямованості. Наприклад, припускаючи, що Pv(k, n) вказує об'єднаний сигнал або скомпенсований по поширенню модифікований звуковий сигнал, то формула:

обчислює вихідний сигнал віртуального мікрофон з кардіоїдною напраности оцінки місця розташування.

У варіантах здійснення, один або більше реальних, не просторових мікрофонів, наприклад, всенаправлений мікрофон або спрямований мікрофон, такий як кардиоиддний, розміщують в звуковий сцені в додаток до реальним просторовим мікрофонів для додаткового поліпшення якості звуку сигналів 105 віртуального мікрофона з фіг.8. Ці мікрофони не використовують для збору будь-якої геометричної інформації, але, навпаки, лише для надання більш чистого звукового сигналу. Ці мікрофони можна розміщувати ближче до джерел звуку, ніж просторові мікрофони. У цьому випадку, у відповідності з варіантом здійснення, звукові сигнали реальних, не просторових мікрофонів і їх розташування просто направляють для обробки в модуль 504 компенсації поширення з фіг.19, замість звукових сигналів з реальних просторових мікрофонів. Потім проводять компенсацію поширення, для одного або більше записаних звукових сигналів не просторових мікрофонів, щодо місця розташування одного або більше не просторових мікрофонів. Таким чином, варіант здійснення реалізують з використанням додаткових просторових не мікрофонів.

В додат�крофона. Для обчислення просторової інформації 106 сторони для мікрофона, модуль 202 обчислення інформації з фіг.19 включає в себе модуль 507 обчислення просторової інформації боку, який виконаний з можливістю прийому, в якості вхідного сигналу, місцезнаходжень 205 джерел звуку, і місцеположення, орієнтації і характеристик 104 віртуального мікрофона. В деяких варіантах здійснення, згідно з інформацією 106 сторони, яку необхідно обчислити, звуковий сигнал віртуального мікрофона 105 також можна взяти до уваги, як вхідний сигнал в модуль 507 обчислення просторової інформації боку.

Вихідний сигнал модуля 507 обчислення просторової інформації боку являє собою інформацію сторони віртуального мікрофона 106. Цією інформацією боку може бути, наприклад, DOA або дифузність звуку для кожного частотно-тимчасового елемента вибірки (k, n) з точки зору віртуального мікрофона. Іншою можливою інформацією сторони може, наприклад, бути активний вектор звукової інтенсивності Ia(k, n), який був би виміряний в розташування віртуального мікрофона. Тепер описується, як можна вивести ці параметри.

У відповідності з варіантом ос�іі виконаний з можливістю оцінки напрямку приходу на віртуальний мікрофон як просторову інформацію боку, на підставі вектора розташування віртуального мікрофона і на підставі вектора розташування звукового події, як показано на фіг.22.

На фіг.22 зображено можливий шлях по висновку DOA звуку з точки зору віртуального мікрофона. Розташування звукового події, надане блоком 205 з фіг.19, можна описати для кожного частотно-тимчасового елемента вибірки (k, n) за допомогою вектора розташування r(k, n), вектора розташування звукового події. Аналогічно, розташування віртуального мікрофона, надане як вхідний сигнал 109 з фіг.19, можна описати за допомогою вектора розташування s(k, n), вектора розташування віртуального мікрофона. Напрям погляду віртуального мікрофона можна описати вектором v(k, n). DOA щодо віртуального мікрофона задається вектором a(k, n). Він являє кут між v і шляхом поширення звуку h(k, n). h(k, n) можна обчислити, застосувавши формулу:

Тепер можна вирахувати необхідний DOA a(k, n) для кожного (k, n), наприклад, за допомогою визначення точкового продукту h(k, n) і v(k, n), а саме

В іншому варіанті здійснення, модуль 120 обчислення інформації може бути виконаний з возможони, на підставі вектора розташування віртуального мікрофона і на підставі вектора розташування звукового події, як показано на фіг.22.

З DOA a(k, n), визначеного вище, можна вивести інтенсивність активного звуку Ia(k, n), місцезнаходження віртуального мікрофона. Для цього передбачають, що звуковий сигнал 105 віртуального мікрофона з фіг.19 відповідає вихідному сигналу всеспрямованого мікрофона, наприклад, припускають, що віртуальний мікрофон є всеспрямований мікрофон. Крім того, напрям погляду v з фіг.22 припускають паралельним осі x системи координат. Оскільки необхідний вектор інтенсивності активного звуку Ia(k, n) описує чистий потік енергії через розташування віртуального мікрофона, можна обчислити Ia(k, n), наприклад, обчислюючи за формулою:

де []Tпозначає транспонований вектор, rho являє собою щільність повітря, Pv(k, n) являє собою звуковий тиск, виміряний віртуальним просторовим мікрофоном, наприклад, вихідний сигнал 105 блоку 506 з фіг.19.

Якщо активний вектор інтенсивності необхідно обчислити вираженим в загальній системі координат, але як і раніше

Дифузність звуку виражає, наскільки дифузним є звукове поле в даній частотно-часової клітинці (див. наприклад, [2]). Дифузність виражається значенням Ψ, де 0≤Ψ≤1. Дифузність у 1 вказує, що вся енергія звукового поля повністю дифузна. Ця інформація важлива, наприклад, при відтворенні просторового звуку. Зазвичай, дифузність обчислюють у певній точці простору, де розміщений масив мікрофонів.

У відповідності з варіантом здійснення, дифузність можна обчислити як додатковий параметр до інформації боку, згенерованої для віртуального мікрофона (VM), який можна розмістити в звуковий сцені в довільному розташуванні. Так, пристрій, яке обчислює, у віртуальному місцезнаходження віртуального мікрофона, крім звукового сигналу, також і дифузність, можна розглядати як зовнішній інтерфейс віртуального DirAC, оскільки можливе створення потоку DirAC, а саме звукового сигналу, напрямки приходу, і дифузності, для довільної точки в звуковий сцені. Крім того, потік DirAC можна обробляти, зберігати, передавати і програвати на наборі гучномовців довільній компонування. У цьому випадку, слухач відчуває звукову �и в напрямку, певним його орієнтацією.

На фіг.23 проілюстрований блок обчислення інформації у відповідності з варіантом здійснення, що включає в себе блок 801 обчислення дифузності для обчислення дифузності на віртуальному мікрофоні. Блок 202 обчислення інформації виконаний з можливістю прийому вхідних сигналів з 111 по 11N, включаючи, додатково до вхідним сигналам з фіг.14, дифузність на реальних просторових мікрофонах. Нехай ці значення позначають c Ψ(SM1)за Ψ(SMN). Ці додаткові вхідні сигнали надсилають в модуль 202 обчислення інформації. Вихідний сигнал 103 блоку 801 обчислення дифузності являє собою параметр дифузності, обчислений місцезнаходження віртуального мікрофона.

Блок 801 обчислення дифузності, по варіанту здійснення, проиллюстрированному на фіг.24, зображений більш докладно. У відповідності з варіантом здійснення, оцінюють енергію прямого та дифузного звуку на кожному з N просторових мікрофонів. Потім, використовуючи інформацію про об'єкти IPLS, та інформацію про об'єкти просторових і віртуального мікрофонів, отримують N оцінок цих енергій в розташування віртуального мікрофона. Нарешті, оцінки можна об'єднай�з Edir(SM1)по Edir(SMN)і з Ediff(SM1)по Ediff(SMN)позначають оцінки енергій прямого та дифузного звуку для N просторових мікрофонів, обчислених блоком 810 аналізу енергії. Якщо Piявляє собою складний сигнал тиску, і Ψiявляє собою дифузність для i-того просторового мікрофона, то енергії можна, наприклад, обчислити згідно з формулами:

Енергія дифузного звуку повинна бути дорівнює в усіх розташуваннях отже, оцінка енергії дифузного звуку Ediff(VM)на віртуальному мікрофоні можна обчислити просто усередненням з Ediff(SM1)по Ediff(SMN)наприклад, в блоці 820 об'єднання дифузності, наприклад, за формулою:

Можна виконати більш ефективне об'єднання з Ediff(SM1)по Ediff(SMN)шляхом розгляду дисперсії оцінювачів, наприклад, розглядаючи SNR.

Через поширення, енергія прямого звуку залежить від відстані до джерела. Таким чином, для того щоб прийняти це до уваги, з Edir(SM1)по Edir(SMN)можна модифікувати. Це можна вя прямого звукового поля затухає з 1 через квадрат відстані, то оцінку для прямого звуку на віртуальному мікрофоні для i-того просторового мікрофона можна обчислити за формулою:

Аналогічно блоку 820 об'єднання дифузності, оцінки енергії прямого звуку, отримані на різних просторових мікрофони, можна об'єднувати, наприклад, за допомогою блоку 840 об'єднання прямого звуку. Результатом є Edir(VM)наприклад, оцінка енергії для прямого звуку на віртуальному мікрофоні. Дифузність на віртуальному мікрофоні Ψ(VM)можна обчислити, наприклад, допоміжним обчислювачем 850 дифузності, наприклад, у відповідності з формулою:

Як згадано вище, в деяких випадках, оцінка місця розташування звукових подій, виконувана оцінювачем розташування звукових подій не вдається, наприклад, у випадку неправильної оцінки напрямку приходу. На фіг.25 проілюстрований такий сценарій. У цих випадках, незалежно від параметрів дифузності, оцінених на різних просторових мікрофонах і прийнятих як вхідні сигнали з 111 по 11N, дифузність для віртуального мікрофона 103 можна встановити в 1 (тобто повністю дифузний), оскільки неможливо адекват�нственних мікрофонах. Це можна виразити, наприклад, у термінах дисперсії в оцінювача DOA або SNR. Таку інформацію можна прийняти в розрахунок у допоміжному вичислителе 850 дифузності, так, що дифузність 103 VM можна штучно збільшити, в тому випадку, якщо оцінки DOA ненадійні. Фактично, як наслідки, оцінки місця розташування 205 також ненадійні.

На фіг.1 проілюстровано пристрій 150 для генерації, щонайменше, одного вихідного звукового сигналу, на підставі потоку звукових даних, що включає в себе звукові дані, що відносяться до одного або більше джерел звуку, згідно з варіантом здійснення.

Пристрій 150 включає в себе приймач 160 для прийому потоку звукових даних, що включає в себе звукові дані. Звукові дані включають в себе одне або більше значень тиску для кожного з одного або більше джерел звуку. Крім того, звукові дані включають в себе одне або більше значень розташування, що вказують розташування одного з джерел звуку для кожного з джерел звуку. Більш того, пристрій включає в себе модуль 170 синтезу для генерації, щонайменше, одного вихідного звукового сигналу, на підставі, щонайменше, одного з одного або більше значень дее значень розташування із звукових даних з потоку звукових даних. Звукові дані визначені для частотно-тимчасового елемента вибірки з безлічі частотно-часових елементів вибірки. Для кожного з джерел звуку, щонайменше, одне значення тиску включено в звукові дані, причому, щонайменше, одне значення тиску може представляти собою значення тиску, що відноситься до испущенной звукової хвилі, наприклад, почалася з джерела звуку. Значення тиску може представляти собою значення звукового сигналу, наприклад, значення тиску вихідного звукового сигналу, генерованого пристроєм для генерації вихідного звукового сигналу віртуального мікрофона, причому цей віртуальний мікрофон розміщують у розташування джерела звуку.

Таким чином, на фіг.1 проілюстровано пристрій 150, яке можна застосовувати для прийому або обробки цього потоку звукових даних, тобто, пристрій 150 можна застосовувати на стороні приймача/синтезу. Потік звукових даних включає в себе звукові дані, які включають одне або більше значень тиску і одне або більше значень розташування для кожного з безлічі джерел звуку, тобто, кожне із значень тиску та значень розташування відноситься до конкретного истоѾположения вказують розташування джерел звуку, замість розташування записуючих мікрофонів. По відношенню до значень тиску це означає, що потік звукових даних включає в себе один або більше значень тиску для кожного з джерел звуку, тобто значення тиску вказують звуковий сигнал, який відноситься до джерела звуку, замість того, щоб ставитися до запису реального просторового мікрофона.

У відповідності з варіантом здійснення, приймач 160 може бути виконаний з можливістю прийому потоку звукових даних, що включає в себе звукові дані, причому звукові дані, додатково включають в себе одне або більше значень дифузності для кожного з джерел звуку. Модуль 170 синтезу може бути виконаний з можливістю генерації, щонайменше, одного вихідного звукового сигналу, на підставі, щонайменше, одного або більше значень дифузності.

На фіг.2 проілюстровано пристрій 200 для генерації потоку звукових даних, що включає в себе дані звукових джерел, що відносяться до одного або більше джерел звуку, згідно з варіантом здійснення. Пристрій 200 для генерації потоку звукових даних включає в себе визначник 210 для визначення даних джерела звуку, на підставі, �офоном, і на підставі інформації звукової сторони, наданої на, щонайменше, двох просторових мікрофонах. Додатково, пристрій 200 включає в себе генератор 220 потоку даних для генерації потоку звукових даних так, що потік звукових даних включає в себе дані джерел звуку. Дані джерел звуку включають в себе одне або більше значень тиску для кожного з джерел звуку. Крім того, дані джерела звуку додатково включають в себе одне або більше значень розташування, що вказують місце розташування джерела звуку для кожного з джерел звуку. Додатково, дані джерела звуку визначені для частотно-тимчасового елемента вибірки з безлічі частотно-часових елементів вибірки.

Потім, потік звукових даних, що генерується пристроєм 200, можна передати. Таким чином, пристрій 200 можна застосовувати на стороні аналізу/передавача. Потік звукових даних включає в себе звукові дані, які включають одне або більше значень тиску і одне або більше значень розташування для кожного з безлічі джерел звуку, тобто, кожне із значень тиску та значень розташування відноситься до конкретного джерела звуку з одного або�, значення місця розташування вказують розташування джерел звуку, замість записуючих мікрофонів.

У додатковому варіанті здійснення, визначник 210 може бути виконаний з можливістю визначення даних джерела звуку, на підставі інформації дифузності на, щонайменше, одному просторовому мікрофоні. Генератор 220 потоку даних може бути виконаний з можливістю генерації потоку звукових даних так, щоб потік звукових даних включав би в себе дані джерела звуку. Дані джерела звуку додатково включають у себе, для кожного з джерел звуку, одне або більше значень дифузності.

На фіг.3a проілюстрований потік звукових даних у відповідності з варіантом здійснення. Потік звукових даних включає в себе звукові дані, що відносяться до двох джерел звуку, активним в одному частотно-часовому елементі вибірки. Зокрема, на фіг.3 проілюстровані звукові дані, які передають для частотно-тимчасового елемента вибірки (k, n), де k позначає частотний індекс, і n позначає тимчасової індекс. Звукові дані включають в себе значення тиску P1, значення місця розташування Q1, і значення дифузності Ψ1 першого джерела звуку. Значення местополнительно, звукові дані включають в себе значення тиску P2, значення місця розташування Q2 і значення дифузності Ψ2 другого джерела звуку. Значення місця розташування Q2 включає в себе три значення координат X2, Y2 і Z2, що вказують положення другого джерела звуку.

На фіг.3b проілюстрований потік звукових даних згідно з іншим варіантом здійснення. Знову, звукові дані включають в себе значення тиску P1, значення місця розташування Q1 і значення дифузності Ψ1 першого джерела звуку. Значення місця розташування Q1 включає в себе три значення координат X1, Y1 і Z1, які вказують положення першого джерела звуку. Додатково, звукові дані включають в себе значення тиску P2, значення місця розташування Q2 і значення дифузності Ψ2 другого джерела звуку. Значення місця розташування Q2 включає в себе три значення координат X2, Y2 і Z2, що вказують положення другого джерела звуку.

На фіг.3c надана ще одна ілюстрація потоку звукових даних. Оскільки потік звукових даних надає інформацію геометричного просторового кодування звукового (GAC), його також позначають як "потік геометричного просторового кодування звукового" або "потік GAC". Потік звукових даних�е ізотропним точкових джерел (IPLS). Як вже описано вище, потік GAC може включати в себе наступні сигнали, де k і n позначають частотний індекс і часовий індекс розглянутого частотно-тимчасового елемента вибірки:

P(k, n): Складне тиск на джерелі звуку, наприклад, на IPLS. Можливо, цей сигнал включає в себе прямий звук (звук, витікаючий з самого IPLS) і дифузний звук.

Q(k, n): місце Розташування (наприклад, декартові координати в 3D) джерела звуку, наприклад, IPLS: місце Розташування може, наприклад, включати в себе декартові координати X(k, n), Y(k, n), Z(k, n).

Дифузність на IPLS: Ψ(k, n). Цей параметр відноситься до співвідношення потужності прямого до дифузного звуку, включеному в P(k, n). Якщо P(k, n)=Pdir(k, n)+Pdiff(k, n), то одна з можливостей висловити дифузність - це Ψ(k, n)=|Pdiff(k, n)|2/|P(k, n)|2. Якщо |P(k, n)|2відомо, то можливі інші еквівалентні подання, наприклад, прямого відношення до дифузному (DDR) Р=|Pdir(k, n)|2/|Pdiff(k ,n)|2.

Як уже зазначено, k і n позначають частотний та тимчасової індекси, відповідно. Якщо бажано, і якщо аналіз це дозволяє, в даній частотно-часової осередок можна представити більш ніж один IPLS. Це зображено на фіг.3c як M кілька рівнів, так що сигнал�иразить як вектор Qi(k ,n)=[Xi(k, n), Yi(k, n), Zi(k, n)]T. На відміну від прийнятого в даній області техніки, всі параметри в потоці GAC виражені по відношенню до одного або більше джерел звуку, наприклад, по відношенню до IPLS, таким чином, досягаючи незалежності від місця розташування запису. На фіг.3c, як і на фіг.3a і 3b, усі кількості на кресленні розглядають в частотно-часовій області; позначення (k, n) опустили з причин простоти, наприклад, Piпозначає Pi(k, n), наприклад, Pi=Pi(k, n).

У цьому, пристрій для генерації потоку звукових даних, у відповідності з варіантом здійснення, описують більш докладно. Як і пристрій з фіг.2, пристрій з фіг.4 включає в себе визначник 210 і генератор потоку даних 220, який може бути аналогічний засобу визначення 210. По мірі того як визначник аналізує вхідні звукові дані для визначення даних джерела звуку, на підставі яких генератор потоку даних генерує потік даних, визначник і генератор потоку даних можна позначати як "модуль аналізу" (див. модуль 410 аналізу на фіг.4).

Модуль 410 аналізу обчислює потік GAC із записів N просторових мікрофонів. в залежності від необхідного кільк� вибірки потоку звукових даних необхідно включати інформацію), типу і кількості N просторових мікрофонів, можливі різні способи аналізу. Нижче подано кілька прикладів.

В якості першого прикладу розглядають, оцінку параметрів для одного джерела звуку, наприклад, одного IPLS, для кожної частотно-часової осередку. У випадку M=1, потік GAC можна легко отримати за допомогою ідей, викладених вище, для пристрою для генерації вихідного звукового сигналу віртуального мікрофона, в якому віртуальний просторовий мікрофон можна розмістити у розташування джерела звуку, наприклад, розташування IPLS. Це дозволяє обчислювати сигнали тиску в місці розташування IPLS, разом з відповідними оцінками розташування і, можливо, дифузності. Ці три параметри групують разом в потоці GAC і далі, ними може маніпулювати модуль 102 з фіг.8, перед передачею або збереженням.

Наприклад, визначник може визначити місцезнаходження джерела звуку шляхом застосування ідей, запропонованих для оцінки місця розташування звукових подій пристрої для генерування вихідного звукового сигналу віртуального мікрофона. Крім того, визначник може включати в себе пристрій для генерування вихідного звукового сигналу і може испоения значень тиску (наприклад, значень вихідного звукового сигналу, що підлягає генерування) і дифузності в розташування джерела звуку.

Зокрема, визначник 210, наприклад, з фіг.4), конфігурують для визначення сигналів тиску, відповідних оцінок розташування, і відповідної дифузності, в той час як генератор 220 потоку даних конфігурують для генерування потоку звукових даних на підставі обчислених сигналів тиску, оцінок розташування і дифузності.

В якості іншого прикладу розглядаємо, оцінку параметра для 2 джерел звуку, наприклад, 2 IPLS, для кожної частотно-часової осередку. Якщо модуль 410 аналізу повинен оцінювати два джерела звуку для кожного частотно-тимчасового елемента вибірки, то можна використовувати наведений нижче принцип, заснований на оцінювачів, відомих в даній області техніки.

На фіг.5 проілюстрована звукова сцена, створена з двох джерел звуку та двох рівномірних лінійних масивів мікрофонів. З посиланням на ESPRIT, дивитися

[26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7):984-995, My 1989.

ESPRIT ([26]) можна застосовувати окремо на кожному масиві, для отримання двох оцінок DOA для кожного частот�вим рішенням за місцем розташування джерел. Як можна бачити на фіг.5, два можливих рішення дані (1, 2) і (1', 2'). Для вирішення цієї невизначеності можна застосовувати наступне рішення. Сигнал, випущене на кожному джерелі, оцінюють за допомогою формувача пучка, орієнтованого напрямку оцінених розташування джерел, і застосування відповідного коефіцієнта для компенсації поширення (наприклад, множачи на зворотне загасання, яке хвилею). Це можна виконувати для кожного джерела на кожному масиві для кожного з можливих рішень. Потім, можна визначити помилку оцінки для кожної пари джерел (i, j) так:

де (i, j) ∈ {(1, 2), (1', 2')} (див. фіг.5) і Pi,1позначає компенсовану потужність сигналу, видиму масив r з джерела звуку i. Для цієї пари джерел звуку помилка буде мінімальною. Після вирішення проблеми парності і обчислення коректних оцінок DOA, їх групують, разом з відповідними сигналами тиску та оцінками дифузності, потім GAC. Сигнали тиску і оцінки дифузності можна отримувати, використовуючи такий спосіб, як описано для оцінки параметрів для одного джерела звуку.

На фіг.6a проілюстровано пристрій 600 для генерування, за меньшосуществления. Пристрій 600 включає приймач 610 і модуль 620 синтезу. Приймач 610 включає в себе модуль 630 модифікації для модифікації звукових даних з прийнятого потоку звукових даних, шляхом модифікації, щонайменше, одного із значень тиску звукових даних, щонайменше, одного із значень розташування із звукових даних або, щонайменше, одного із значень дифузності із звукових даних, що відносяться до, щонайменше, одного з джерел звуку.

На фіг.6b проілюстровано пристрій 660 для генерування потоку звукових даних, що відносяться до одного або більше джерел звуку, згідно з варіантом здійснення. Пристрій для генерування потоку звукових даних включає в себе визначник 670, генератор 680 потоку даних і, додатково, модуль 690 модифікації, для модифікації потоку звукових даних, згенерованого генератором потоку звукових даних, шляхом модифікації, щонайменше, одного із значень тиску звукових даних, щонайменше, одного із значень розташування із звукових даних або, щонайменше, одного із значень дифузності із звукових даних, що відносяться до, щонайменше, одного з джерел звуку.

У той час як модулчика/аналізатора.

Модифікації потоку звукових даних, що проводяться модулями 610, 660 модифікації, також можна розглядати як модифікації звукової сцени. Таким чином, модуль 610, 660 модифікації також можна позначати як модулі маніпулювання звуковий сценою.

Подання звукового поля, що надається потоком GAC, дозволяє різні види модифікацій потоку звукових даних, тобто, як наслідок, маніпуляції звуковий сценою. Ось деякі приклади в цьому контексті:

1. Розширення довільних секцій простору/обсягів звуковий сцені (наприклад, розширення точкового джерела звуку для того, щоб слухачеві він представлявся більш широким);

2. Перетворення обраної секції простору/обсягу в будь-яку іншу довільну секцію простору/обсягу звуковий сцені (перетворене простір/обсяг може, наприклад, містити джерело, який необхідно перенести на нове місце);

3. Фільтрація на підставі місця розташування, в якій вибрані області звукової сцени посилюють або частково/повністю пригнічують.

У цьому допускається, що рівень потоку звукових даних, наприклад, потоку GAC, включає в себе всі звукові дані одного з джерел звуку отношениѸи з варіантом здійснення. Блок модифікації з фіг.7 включає в себе демультиплексор 401, процесор 420 маніпуляції і мультиплексор 405.

Демультиплексор 401 налаштований для поділу різних рівнів M-рівня потоку GAC і формування M однорівневих потоків GAC. Крім того, процесор 420 маніпуляції включає в себе блоки 402, 403 та 404, які застосовують до кожного з потоків GAC окремо. Крім того, мультиплексор 405 налаштований для формування результуючого M-рівня потоку GAC з сманипулированних однорівневих потоків GAC.

На підставі даних розташування з потоку GAC і знання про місцезнаходження реальних джерел (наприклад, дикторів) енергію можна асоціювати з певним реальним джерелом для кожного частотно-тимчасового елемента вибірки. Потім, відповідно зважують значення тиску P, для модифікації гучності відповідного реального джерела (наприклад, диктора). Це потребує апріорної інформації чи оцінки місця розташування реальних джерел звуку (наприклад, дикторів).

В деяких варіантах здійснення, якщо доступна інформація про місцезнаходження реальних джерел, то, на підставі розташування з потоку GAC, енергію можна асоціювати з певним реальним джерелом д GAC, може відбуватися в модулі 630 модифікації пристрою 600 для генерації, щонайменше, одного вихідного звукового сигналу з фіг.6a, тобто на стороні приймача/синтезу та/або в модулі 690 модифікації пристрою 660 для генерації потоку звукових даних з фіг.6b, тобто, на стороні передавача/аналізу.

Наприклад, потік звукових даних, тобто, потік GAC, можна модифікувати до передачі або перед синтезом після передачі.

На відміну від модуля 630 модифікації з фіг.6a на стороні приймача/синтезу, модуль 690 модифікації з фіг.6b на стороні передавача/аналізу може користуватися додатковою інформацією з вхідних сигналів з 111 по 11N (записаними сигналами) і з 121 по 12N (відносним місцем розташування та орієнтацією просторових мікрофонів), оскільки ця інформація доступна на стороні передавача. Використовуючи цю інформацію, можна реалізувати блок модифікації, згідно з альтернативним варіантом здійснення, який зображений на фіг.8.

На фіг.9 зображено варіант здійснення, шляхом ілюстрування схематичного загального плану системи, в якій потік GAC генерують на стороні передавача/аналізу, причому, необов'язково, потік GAC можна модифікувати модулем 102 модифікації на стороні перед�одификации, і причому потік GAC використовують для генерування безлічі вихідних звукових сигналів 191...19L.

На стороні передавача/аналізу, подання звукового поля (наприклад, потік GAC) обчислюють в блоці 101 з вхідних сигналів з 111 по 11N, тобто, сигналів, записаних з N≥2 просторових мікрофонів, і з вхідних сигналів з 121 по 12N, тобто, відносного розташування і орієнтації просторових мікрофонів.

Вихідний сигнал блоку 101 являє собою раніше згадане подання звукового поля, яке наступне позначають як потік геометричного просторового звукового кодування. Аналогічно пропозицією в

[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered distributed by arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edinburgh, United Kingdom, May 2011,

і, як описано для пристрою для генерації вихідного звукового сигналу віртуального мікрофона в настроюваному віртуальному місцезнаходження, складну звукову схему моделюють засобами джерел звуку, наприклад, ізотропних точкових джерел звуку (IPLS), які активні в конкретних клітинках в частотно-часовому поданні, такому, як надає віконне перетворення Фур'є (STFT).

блок маніпулювання. Модуль 102 модифікації дозволяє виконувати безліч операцій. Потім, потік GAC можна передати або зберегти. Параметрична сутність потоку GAC дуже ефективна. На стороні синтезу/приймача можна застосовувати ще один необов'язковий модуль 103 модифікації. Результуючий потік GAC входить блок 104 синтезу, який генерує сигнали гучномовців. З цією незалежністю подання від запису, кінцевий користувач на стороні відтворення може, потенційно, маніпулювати звуковий сценою і вільно визначати звуковий сцені місцеположення і орієнтацію прослуховування.

Модифікація/маніпуляція потоком звукових даних, наприклад, потоком GAC, може мати місце в модулях 102 та/або 103 модифікації, з фіг.9, шляхом модифікації потоку GAC, відповідно, або до передачі в модулі 102 або після передачі до синтезу 103. На відміну від модуля модифікації 103 на стороні приймача/синтезу, модуль 103 модифікації на стороні передавача/аналізу може використовувати додаткову інформацію з вхідних сигналів з 111 по 11N (звукові дані, надані просторовими мікрофонами) і з 121 по 12N (відносне розташування та орієнтація просторових мікрофонів), оскільки на стороні передатчІии, який використовує цю інформацію.

Приклади різних ідей щодо маніпуляції потоком GAC описані в наступне, з посиланням на фіг.7 і фіг.8. Блоки з однаковими позначають сигналами володіють однаковими функціями.

1. Розширення обсягу

Припускають, що певна енергія в сцені розташована всередині об'єму V. Обсяг V може вказувати на попередньо визначену область навколишнього середовища. Θ позначає набір частотно-часових елементів вибірки (k, n), для яких відповідні джерела звуку, наприклад, IPLS, локалізовані всередині об'єму V.

Якщо бажано розширення обсягу V до іншого об'єму V', його можна досягти шляхом додавання випадкового умови до даних розташування в потоці GAC, кожен раз, коли (k, n) ∈ Θ (обчислюється в блоках 403 рішень), і підставляючи Q(k, n)=[X(k, n), Y(k, n), Z(k, n)]T(рівень індексів опущений для спрощення), що вихідні сигнали з 431 43M блоків 404 з фіг.7 та 8 стають

де Фх, Фyі Фzє випадковими змінними, чий діапазон залежить від геометрії нового об'єму V' по відношенню до об'єму V. Цей принцип можна, наприклад, застосовувати для розширення сприйманого джерела звуку. У цьому прим�, )=[X(k, n), Y(k, n), Z(k, n)]Tдля всіх (k, n) ∈ Θ. Цей механізм можна розглядати як форму тремтіння параметра розташування Q(k, n).

У відповідності з варіантом здійснення, кожне із значень розташування кожного з джерел звуку включає в себе, принаймні, два значення координат, і модуль модифікації виконаний з можливістю модифікації значення координат шляхом додавання, щонайменше, одного випадкового числа до значень координат, коли значення координат вказують, що джерело звуку розташований у розташування в межах заздалегідь визначеної області навколишнього середовища.

2. Перетворення об'єму

На додаток до розширення обсягу, дані про розташування з потоку GAC можна модифікувати для перенесення секцій простору/обсягів всередині звукового поля. І в цьому випадку дані, що підлягають маніпуляції, включають в себе просторові координати локалізованій енергії.

V знову визначає об'єм, що підлягає переміщенню, і Θ позначає набір всіх частотно-часових елементів вибірки (k, n) для яких енергія локалізована в об'ємі V. Знову, об'єм V може вказувати попередньо певну область навколишнього середовища.

Перенесення об'єму можна досягти шляхом� вихідних сигналах з 431 43M блоків 404, де f являє собою функцію від просторових координат (X, Y, Z), що описує маніпуляцію з об'ємом, що підлягає виконанню. Функція f може представляти просте лінійне перетворення, таке як поворот, трансляцію, або будь-який інший складний нелінійний перенесення. Цей спосіб можна використовувати, наприклад, для переміщення джерел звуку з одного місця в звуковий сцені в інше, шляхом гарантії того, що Θ відповідає набору частотно-часових елементів вибірки, в яких джерела звуку були локалізовані в об'ємі V. Спосіб дозволяє різні інші складні маніпуляції всієї звукової сценою, такі як відображення сцени, поворот сцени, збільшення сцени і/або стиск, і т. п. Наприклад, шляхом застосування відповідного лінійного перенесення на об'єм V, можна досягти ефекту, зворотного розширенню обсягу, тобто, зменшення обсягу. Це можна виконати шляхом перенесення Q(k,n) для (k,n) ∈ Θ в f(Q(k,n)) ∈ V' V, де V' ⊂ V і V' становить істотно менший об'єм, ніж V.

У відповідності з варіантом здійснення, модуль модифікації виконаний з можливістю модифікації значень координат, шляхом застосування детермінованої функції на значення координат, коли значення координат вказують, що істо. �ильтрация на підставі розташування

Ідея фільтрації на підставі геометрії (або фільтрації на підставі розташування), пропонує спосіб підсилити або повністю/частково прибрати секції простору/обсягів з звукової сцени. Порівняно зі способами розширення і трансформації обсягу, в цьому випадку, модифікують дані тиску з потоку GAC, шляхом застосування відповідних скалярних ваг.

У фільтрації на підставі геометрії, можна зробити відмінність між стороною передавача 102 стороною приймача модуля 103 модифікації, у тому, що попередній може використовувати вхідні сигнали з 111 по 11N і з 121 по 12N, для сприяння обчислення відповідних ваг фільтрів, як показано на фіг.8. Припускаючи, що стоїть завдання придушити/посилити енергію, що виникає з обраної секції простору/об'єму V, фільтрацію на підставі геометрії можна застосовувати наступним чином:

Для всіх (k, n) ∈ Θ, складне тиск P(k, n) в потоці GAC модифікують в ηP(k, n) у вихідних сигналах 402, де η являє собою реальний коефіцієнт зважування, наприклад, обчислений блоком 402. В деяких варіантах здійснення, модуль 402 може бути виконаний з можливістю обчислення коефіцієнта взвешивани�ожестве застосувань, таких як поліпшення сигналу і поділ джерела. Деякі з застосувань і необхідної апріорної інформації включають в себе:

- Дереверберацию. Знаючи геометрію кімнати, просторовий фільтр можна використовувати для придушення енергії, локалізовані за межами кімнати, яка може бути викликана многолучевим поширенням. Це застосування може бути цікаво, наприклад, для гучного зв'язку в конференц-залах і автомобілях. Необхідно відзначити, що для придушення пізньої реверберації, досить закрити фільтр у разі високого дифузності, в той час як для придушення ранніх відбиттів фільтр, заснований на місцезнаходження, більш ефективний. У цьому разі, як уже згадувалося, геометрія кімнати повинна бути відома апріорі.

- Придушення фонового шуму. Аналогічну концепцію також можна використовувати для придушення фонового шуму. Якщо потенційні області, де можна виявити джерела (наприклад, крісла учасників в конференц-залах або місця в машині) відомі, то енергія, розташована поза цих областей, пов'язана з фонових шумів і, отже, пригнічена просторовим фільтром. Це вимагає застосування апріорну інформацію або оцінку, на підставі доступних данниик перешкод не є дифузним, а суто локалізований в просторі, фільтрацію на підставі розташування можна застосовувати для ослаблення енергії, локалізованої в розташування джерела перешкод. Це потребує апріорної інформації чи оцінки місця розташування джерела перешкод.

- Управління луною. У цьому випадку джерела перешкод, які потрібно подолати, є сигналами гучномовців. Для цієї мети, аналогічно випадку з точковими джерелами перешкод, пригнічують енергію, локалізовану точно або в безпосередній близькості від розташування гучномовців. Це потребує апріорної інформації чи оцінки розташування гучномовців.

- Поліпшене визначення голосу. Способи покращення сигналу з винаходом геометричної фільтрації, можна реалізовувати як етап попередньої обробки у звичайній системі визначення голосової активності, наприклад, в машинах. Для поліпшення ефективності системи, в додаток можна використовувати дереверберацию або придушення шуму.

- Спостереження. Збереження тільки енергії з певних галузей або придушення всіх інших являє собою зазвичай використовується спосіб застосування спостереження. Це потребує апріорної інформації про геометрії і місцеположення ін�очниками, для поділу джерел можна застосовувати геометричну просторову фільтрацію. Розміщення відповідним чином розробленого просторового фільтра, центрованного місцеположення джерела, результирует у придушенні/ослабленні інших одночасно активних джерел. Цю інновацію можна використовувати, наприклад, як зовнішній інтерфейс в SAOC. Це потребує апріорної інформації чи оцінки місця розташування джерела.

- Залежне від місця розташування автоматичне регулювання посилення (AGC). Розташування залежить від ваги можна використовувати, наприклад, для вирівнювання гучності різних дикторів у застосуваннях для конференц-зв'язку.

У нижченаведеному описують модулі синтезу у відповідності з варіантами здійснення. У відповідності з варіантом здійснення, модуль синтезу може бути виконаний з можливістю генерації, щонайменше, одного вихідного звукового сигналу, на підставі, щонайменше, одного значення тиску звукових даних з потоку звукових даних і на підставі, щонайменше, одного значення місця розташування із звукових даних з потоку звукових даних. Щонайменше одне значення тиску може представляти собою значення тиску �мі про сприйняття просторового звуку, даними в

[27] WO 2004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.

Зокрема, просторові напрямки, необхідні для правильного сприйняття просторового зображення звукової сцени, можна отримати шляхом правильного відтворення одного напрямку приходу недиффузного звуку для кожного частотно-тимчасового елемента вибірки. Таким чином, синтез, зображений на фіг.10a, розділений на два етапи.

На першому етапі розглядають місцеположення і орієнтацію слухача в звуковий сцені і визначають, який з M IPLS домінує в кожному частотно-часовому елементі вибірки. Отже, можна обчислити його сигнал тиску Pdirі напрямок θ. Залишилися джерела і дифузний звук збирають у другій сигнал тиску Pdiff.

Другий етап ідентичний другій половині синтезу DirAC, описаного в [27]. Недиффузний звук відтворюють з механізмом переносу, який виробляє точкове джерело, в той час як дифузний звук відтворюють з усіх гучномовців після декорреляции.

На фіг.10a зображений модуль синтезу у відповідності з варіантом здійснення, ілюструє синтез потоку GAC.

Блок 501 першого етапу синтезу вичак Pdirвключає в себе звук, який треба програвати в просторі когерентно, Pdiffвключає в себе дифузний звук. Третій вихідний сигнал блоку 501 першого етапу синтезу являє собою напрямок приходу (DOA) θ 505, з точки зору необхідного розташування прослуховування, тобто інформація про напрямку приходу. Необхідно відзначити, що напрямок приходу (DOA) можна виразити як азимутальний кут в 2D просторі або як пару азимутального і висотного кута в 3D. Еквівалентно, можна використовувати блоковий нормальний вектор, що показує на DOA. DOA вказує, з якого напрямку (по відношенню до потрібного розташування прослуховування) повинен приходить сигнал Pdir. Блок 501 першого етапу синтезу приймає як вхідний сигнал потік GAC, тобто, параметричне подання звукового поля, і обчислює згадані вище сигнали, на підставі розташування слухача і орієнтації, зазначеної вхідним сигналом 141. Фактично, кінцевим користувач може вільно визначати місце розташування прослуховування і орієнтацію в звуковий сцені, описаної потоком GAC.

Блок 502 другого етапу синтезу обчислює L сигналів гучномовців з 511 по 51L, на підставі знання компонування 131 гучномовців. Не�ок першого етапу синтезу у відповідності з варіантом здійснення. Вхідний сигнал, що надається на блок, являє собою потік GAC, складений з M шарів. На першому етапі, блок 601 демультиплексирует M шарів у M паралельних потоків GAC з одного рівня кожен.

i-тий потік GAC включає в себе сигнал тиску Pi, дифузність Ψiі вектор розташування Qi=[Xi, YiZi]T. Сигнал тиску Piвключає в себе один або більше значень тиску. Вектор розташування являє собою значення місця розташування. Тепер, на підставі цих значень, генерують, щонайменше, один вихідний звуковий сигнал.

Сигнал тиску для прямого та дифузного звуку Pdirі Pdiff,iотримують з Piшляхом застосування відповідного коефіцієнта, виведеного з дифузності Ψi. Сигнали тиску, що включають в себе прямий звук, входять у блок 602 компенсації розповсюдження, який обчислює затримки, відповідні поширення сигналу від місця розташування джерела звуку, наприклад, розташування IPLS, до місця розташування слухача. На додаток до цього, блок також обчислює коефіцієнти підсилення, необхідні для компенсації різних угасаний магнітуди. В інших варіантах здійснення, компенсують тільки разниаченние, входять у блок 603, який виводить індекс imaxнайбільш сильного вхідного сигналу

Основна ідея за цим механізмом полягає в тому, що M IPLS, активних у розглянутому частотно-часовому елементі вибірки, лише найбільш сильний (по відношенню до розташування слухача) буде програно когерентно (тобто, як прямий звук). Блоки 604 і 605 вибирають з їх вхідних сигналів той, який визначений imax. Блок 607 обчислює напрямок приходу від imax-ного IPLS, по відношенню до розташування і орієнтації слухача (вхідний сигнал 141). Вихідний сигнал блоку 604відповідає вихідному сигналу блоку 501, а саме звуковому сигналу Pdir, який буде програно блоком 502 як прямий звук. Дифузний звук, а саме вихідний сигнал 504 Pdiffвключає в себе суму всього дифузного звуку в M гілках, а також всі сигнали прямого звукукрім imax-того, а саме ∀j≠imax.

На фіг.10c проілюстрований блок 502 другого етапу синтезу. Як уже зазначено, цей етап ідентичний другій половині модуля синтезу, запропонованого в [27]. Недиффузний звук Pdir503 відтворюють як точкове джерело за допомогою, нни, дифузний звук, Pdiff, проходить через L чітких декорреляторов (c 711 по 71L). Для кожного з L сигналів гучномовців, шляхом прямого та дифузного звуку складають, до проходження через набір зворотних фільтрів (703).

На фіг.11 проілюстрований модуль синтезу згідно з альтернативним варіантом здійснення. Усі кількості на кресленні розглядають в частотно-часовій області, запис (k, n) пропущена через спрощення, наприклад, Pi=Pi(k, n). Для підвищення якості відтворення звуку в разі особливо складних звукових сцен, наприклад, численних активних в один і той же час джерела, модуль синтезу, наприклад, модуль 104 синтезу можна, наприклад, реалізувати так, як показано на фіг.11. Замість вибору найбільш домінуючого IPLS для когерентного відтворення, синтез з фіг.11 виконує повний синтез кожного з M рівнів окремо. L сигналів гучномовців з i-того рівня являють собою вихідний сигнал блоку 502 і позначені з 191iза 19Li. h-тий сигнал гучномовця 19h, на виході блоку 501 першого етапу синтезу являє собою суму з 19h1за 19hM. Необхідно відзначити, що, на відміну від фіг.10b, етап оцінки DOA в блоці 607 необхідно виконувати дл мікрофона у відповідності з варіантом здійснення. Пристрій 950 для генерації потоку даних віртуального мікрофона включає в себе пристрій 960 для генерації вихідного звукового сигналу віртуального мікрофона згідно з одним з вищеописаних варіантів здійснення, наприклад, у відповідності з фіг.12, і пристрій 970 для генерації потоку звукових даних у відповідності з одним з вищеописаних варіантів здійснення, наприклад, у відповідності з фіг.2, де потік звукових даних згенерований пристроєм 970 для генерації потоку звукових даних являє собою потік даних віртуального мікрофона.

Пристрій 960, наприклад, з фіг.26, для генерації вихідного звукового сигналу віртуального мікрофона включає в себе оцінювач розташування звукового події і модуль обчислення інформації, як на фіг.12. Оцінювач розташування звукового події виконаний з можливістю оцінки місця розташування звукового події, вказуючи місце розташування джерела звуку в навколишньому середовищі, при цьому оцінювач розташування звукового події виконаний з можливістю оцінки місця розташування джерела звуку на підставі інформації першого напряму, наданої першим реальним просторовим мікрофоном, розташованим в місці розташування пер�другим реальним просторовим мікрофоном, розташованим в місці розташування другого реального мікрофона в навколишньому середовищі. Модуль обчислення інформації виконаний з можливістю генерації вихідного звукового сигналу на основі записаного вхідного звукового сигналу, на підставі розташування першого реального мікрофона, і на підставі обчисленого розташування мікрофона.

Пристрій 960 для генерації вихідного звукового сигналу віртуального мікрофона скомпоновано для надання вихідного звукового сигналу на пристрій 970 для генерації потоку звукових даних. Пристрій 970 для генерації потоку звукових даних включає в себе визначник, наприклад, визначник 210, описаний з посиланням на фіг.2. Визначник пристрою 970 для генерації потоку звукових даних визначає дані джерела звуку на підставі вихідного звукового сигналу, наданого пристроєм 960 для генерації вихідного звукового сигналу віртуального мікрофона.

На фіг.27 проілюстровано пристрій 980 для генерації, щонайменше, одного вихідного звукового сигналу на підставі потоку звукових даних у відповідності з одним з вищеописаних варіантів здійснення, наприклад, пристрої за п. 1, настроєний для генераци� наданого пристрій 950 для генерації потоку даних віртуального мікрофона, наприклад, пристроєм 950 з фіг.26.

Пристрій 950 для генерації потоку даних віртуального мікрофона направляє згенерований сигнал віртуального мікрофона в пристрій 980 для генерації, щонайменше, одного вихідного звукового сигналу на підставі потоку звукових даних. Необхідно відзначити, що потік даних віртуального мікрофона являє собою потік звукових даних. Пристрій 980 для генерації, щонайменше, одного вихідного звукового сигналу, на підставі потоку звукових даних, генерує вихідний звуковий сигнал на підставі потоку даних віртуального мікрофона як потоку звукових даних, наприклад, як описано з посиланням на пристрій з фіг.1.

Незважаючи на те, що деякі аспекти були описані в контексті пристроїв, повинно бути зрозуміло, що ці аспекти також представляють опис відповідного способу, причому блок, або пристрій відповідають етапу способу або ознакою етапу способу. Аналогічно, аспекти, описані в контексті етапу способу, також являють собою опис відповідного блоку або предмета або ознаки відповідного пристрою.

Розкладений сигнал згідно винаходу можна зберегти на цифровому носії зберігання або мі, такий як Інтернет.

В залежності від визначених вимог до реалізації, варіанти здійснення винаходу можна реалізовувати в апаратному забезпеченні або у програмному забезпеченні. Реалізацію можна виконати, використовуючи цифровий носій зберігання, наприклад, гнучкий диск, DVD, CD-ROM, PROM, EPROM, EEPROM або флеш-пам'ять, що містить зчитуються електронним чином керуючі сигнали, збережені на них, які взаємодіють (або здатні до взаємодії) з програмованою комп'ютерною системою так, що виконується відповідний спосіб.

Деякі варіанти здійснення у відповідності з винаходом включають в себе некратковременний носій даних, що містить зчитуються електронним чином керуючі сигнали, які здатні взаємодіяти з програмованою комп'ютерною системою так, що виконують один із способів, описаних у цьому документі.

Звичайно, варіанти здійснення цього винаходу можна реалізувати як комп'ютерний програмний продукт з програмним кодом, причому програмний код виконаємо для виконання одного із способів, коли комп'ютерну програму виконують на комп'ютері. Програмний код, наприклад, можна зберегти на машиночитае�про способів, описаних у цьому документі міститься на машиночитаемом носії.

Іншими словами, варіант здійснення способу згідно винаходу - це, отже, комп'ютерна програма, що містить програмний код для виконання одного із способів, описаних у цьому документі, при виконанні програми на комп'ютері.

Додатковий варіант здійснення способів згідно винаходу - це, отже, носій даних (або цифровий носій зберігання, або зчитаний комп'ютером носій), що включає в себе, на якому записана, комп'ютерну програму для виконання одного із способів, описаних у цьому документі.

Ще одним варіантом здійснення способу згідно винаходу, отже, є потік даних або послідовність сигналів, що представляє комп'ютерну програму для виконання одного із способів, описаних у цьому документі. Потік даних або послідовність сигналів можна, наприклад, використовувати для передачі по з'єднанню зв'язку даних, наприклад, Інтернет.

Ще один варіант здійснення способу згідно винаходу включає в себе засіб обробки, наприклад, комп'ютер, або програмований логічний устройѼ документі.

Ще один варіант здійснення включає в себе комп'ютер, що містить встановлену на ньому комп'ютерну програму для виконання одного із способів, описаних у цьому документі.

В деяких варіантах здійснення, програмований логічний пристрій (наприклад, програмовану користувачем вентильну матрицю) можна використовувати для виконання деяких або всіх функціоналів способів, описаних у цьому документі. В деяких варіантах здійснення програмується користувачем вентильна матриця може взаємодіяти з мікропроцесором, з метою виконання одного із способів, описаних у цьому документі. Звичайно, способи переважно виконують будь-яким пристроєм апаратного забезпечення.

Вищеописані варіанти здійснення лише ілюструють ідеї цього винаходу. Необхідно розуміти, що зміни і модифікації компоновок і подробиць, описаних у цьому документі, будуть очевидні іншим фахівцям у даній галузі техніки. Таким чином, винахід повинен обмежуватися тільки об'ємом нижченаведеної формули винаходу, але не певними подробицями, представленими шляхом опису і пояснення варіантів здійснено="162" />

1. Пристрій (150) для генерації, щонайменше, одного вихідного звукового сигналу на підставі потоку звукових даних, що включає в себе звукові дані, що відносяться до одного або більше джерел звуку, причому пристрій (150) включає в себе:
приймач (160) для прийому потоку звукових даних, що включає в себе звукові дані, причому звукові дані включають у себе, для кожного з одного або більше джерел звуку, одне або більше значень тиску звуку, причому звукові дані додатково включають у себе, для кожного з одного або більше джерел звуку, одне або більше значень розташування, що вказують розташування одного з джерел звуку, причому кожне з одного або більше значень місцезнаходження включає в себе, щонайменше, два значення координат і причому звукові дані додатково включають в себе одне або більше значень дифузності звуку для кожного з джерел звуку;
модуль (170) синтезу для генерації, щонайменше, одного вихідного звукового сигналу на підставі, щонайменше, одного з одного або більше значень тиску звуку звукових даних з потоку звукових даних, на підставі, щонайменше, одного иньшей міру, одного з одного або більше значень дифузності звуку звукових даних з потоку звукових даних.

2. Пристрій (150) за п. 1, в якому звукові дані визначені в частотно-часовій області.

3. Пристрій (150) за п. 1,
в якому приймач (160; 610) додатково включає в себе модуль (630) модифікації для модифікації звукових даних з прийнятого потоку звукових даних шляхом модифікації, щонайменше, одного з одного або більше значень тиску звуку звукових даних, шляхом модифікації, щонайменше, одного з одного або більше значень розташування із звукових даних або шляхом модифікації, щонайменше, одного з одного або більше значень дифузності звуку звукових даних та
в якому модуль (170; 620) синтезу виконаний з можливістю генерації, щонайменше, одного вихідного звукового сигналу на підставі, щонайменше, одного значення тиску звуку, яке було модифіковано, на підставі, щонайменше, одного значення місцеположення, яке було модифіковано, або на підставі, щонайменше, одного значення дифузності звуку, яке було модифіковано.

4. Пристрій (150) за п. 3, в якому кожне із значень розташування кожного з джерел з�можностью модифікації значень координат шляхом додавання, щонайменше, одного випадкового числа до значень координат, коли значення координат вказують, що джерело звуку розміщений у розташування в межах заздалегідь визначеної області навколишнього середовища.

5. Пристрій (150) за п. 3, в якому кожне із значень розташування кожного з джерел звуку включає в себе, принаймні, два значення координат і в якому модуль (630) модифікації виконаний з можливістю модифікації значень координат шляхом застосування до значень координат детермінованої функції, коли значення координат вказують, що джерело звуку розміщений у розташування в межах заздалегідь визначеної області навколишнього середовища.

6. Пристрій (150) за п. 3, в якому кожне із значень розташування кожного з джерел звуку включає в себе, принаймні, два значення координат і в якому модуль (630) модифікації виконаний з можливістю модифікації вибраного значення тиску звуку з одного або більше значень тиску звуку звукових даних, причому вибране значення тиску звуку відноситься до того ж джерела звуку, що і значення координат, коли значення координат вказують, що джерело звуку розміщений в місці розташування всередині предвариѿолнен з можливістю модифікації вибраного значення тиску звуку з одного або більше значень тиску звуку звукових даних на підставі одного з одного або більше значень дифузності звуку, коли значення координат вказують, що джерело звуку розміщений у розташування в межах заздалегідь визначеної області навколишнього середовища.

8. Пристрій (150) за п. 1, в якому модуль синтезу включає в себе
блок (501) першого етапу синтезу для генерації сигналу тиску прямого звуку, що включає в себе прямий звук, сигналу тиску дифузного звуку, що включає в себе дифузний звук, та інформації про напрямку приходу на підставі, щонайменше, одного з одного або більше значень тиску звуку звукових даних з потоку звукових даних, на підставі, щонайменше, одного з одного або більше значень розташування із звукових даних з потоку звукових даних і на підставі, щонайменше, одного з одного або більше значень дифузності звуку звукових даних з потоку звукових даних;
блок (502) другого етапу синтезу для генерації, щонайменше, одного вихідного звукового сигналу на підставі сигналу тиску прямого звуку, сигналу тиску дифузного звуку та інформації про напрямку приходу.

9. Пристрій (200) для генерації потоку звукових даних, що включає в себе дані джерела звуку, що відносяться до одного або більше джерел звуку, причому устройчника звуку на підставі, щонайменше, одного вхідного звукового сигналу, записаного за допомогою принаймні одного мікрофона, та на підставі інформації звукової сторони, наданої, щонайменше, двома просторовими мікрофонами, причому інформація звукової сторони є інформацією просторової боку, описує просторовий звук;
генератор (220; 680) потоку даних для генерації потоку звукових даних так, що потік звукових даних включає в себе дані джерела звуку;
причому кожен із, щонайменше, двох просторових мікрофонів являє собою пристрій для отримання просторового звуку, здатний витягувати напрямок приходу звуку, і
причому дані джерела звуку включають в себе одне або більше значень тиску звуку для кожного з джерел звуку, причому дані джерела звуку додатково включають в себе одне або більше значень розташування, що вказують місце розташування джерела звуку для кожного з джерел звуку.

10. Пристрій (200) з п. 9, в якому дані джерела звуку визначені в частотно-часовій області.

11. Пристрій (200) з п. 9, в якому дані джерела звуку додатково включають в себе одне або більше значень визначення одного або більше значень дифузності звуку з даних джерела звуку на підставі інформації дифузності звуку, відноситься до, щонайменше, одного просторового мікрофону з, щонайменше, двох просторових мікрофонів, причому інформація дифузності звуку вказує дифузність звуку на, щонайменше, один із, щонайменше, двох просторових мікрофонів.

12. Пристрій (200) з п. 11, причому пристрій (200) додатково включає в себе модуль (690) модифікації для модифікації потоку звукових даних, згенерованого генератором потоку звукових даних, шляхом модифікації, щонайменше, одного із значень тиску звуку звукових даних, щонайменше, одного із значень розташування із звукових даних або, щонайменше, одного із значень дифузності звуку звукових даних, що відносяться до, щонайменше, одного з джерел звуку.

13. Пристрій (200) з п. 12, в якому кожне із значень розташування кожного з джерел звуку включає в себе, принаймні, два значення координат і в якому модуль (690) модифікації виконаний з можливістю модифікації значень координат шляхом додавання, щонайменше, одного випадкового числа до значень координат або шляхом застосування до значень координат детермінованої функції, коли значення координат вказую�ди.

14. Пристрій (200) з п. 12, в якому кожне із значень розташування кожного з джерел звуку включає в себе, принаймні, два значення координат, і, коли значення координат одного з джерел звуку вказують, що зазначений джерело звуку розташований у розташування всередині попередньо певній галузі навколишнього простору, модуль (690) модифікації виконаний з можливістю модифікації вибраного значення тиску звуку зазначеного джерела звуку звукових даних.

15. Пристрій (200) з п. 12, в якому модуль (690) модифікації виконаний з можливістю модифікації значень координат шляхом застосування до значень координат детермінованої функції, коли значення координат вказують, що джерело звуку розташований у розташування всередині попередньо певній галузі навколишнього простору.

16. Пристрій (950) для генерації потоку даних віртуального мікрофона, що включає в себе:
пристрій (960) для генерації вихідного звукового сигналу віртуального мікрофона та
пристрій (970) по одному з пп. 9-12 для генерації потоку звукових даних як потоку звукових даних віртуального мікрофона, причому потік звукових даних включає в себе звукові дан�начений місцезнаходження, вказують місце розташування джерела звуку, причому кожне з одного або більше значень місцезнаходження включає в себе, принаймні, два значення координат,
причому пристрій (960) для генерації вихідного звукового сигналу віртуального мікрофона включає в себе:
оцінювач (110) місцезнаходження звукових подій для оцінки місця розташування джерела звуку, що вказує місце розташування джерела звуку в навколишньому середовищі, при цьому оцінювач (110) місцезнаходження звукових подій виконаний з можливістю оцінки місця розташування джерела звуку на підставі першого напрямку приходу звуку, испущенного першим реальним просторовим мікрофоном, розташованим в навколишньому середовищі в місці розташування першого реального мікрофона, і на підставі другого напрямку приходу звуку, испущенного другим реальним просторовим мікрофоном, розташованим в навколишньому середовищі в місці розташування другого реального мікрофона;
модуль (120) обчислення інформації для генерації вихідного звукового сигналу на основі записаного вхідного звукового сигналу, записуваного першим реальним просторовим мікрофоном, на підставі розташування першого реального мікрофона і на підставі виртуальног�ний просторовий мікрофон являють собою пристрої для отримання просторового звуку, здатні витягувати напрямок приходу звуку, і
причому пристрій (960) для генерації вихідного звукового сигналу віртуального мікрофона скомпоновано для надання вихідного звукового сигналу на пристрій (970) для генерації потоку звукових даних,
і причому визначник пристрою (970) для генерації потоку звукових даних визначає дані джерела звуку на підставі вихідного звукового сигналу, наданого пристроєм (960) для генерації вихідного звукового сигналу віртуального мікрофона, причому вихідний звуковий сигнал являє собою один із, щонайменше, одного вхідного звукового сигналу пристрою (970) по одному з пп. 9-12 для генерації потоку звукових даних.

17. Пристрій (980) за п. 1, сконфігуроване для генерації вихідного звукового сигналу на основі потоку даних віртуального мікрофона як потоку звукових даних, наданого пристроєм (950) для генерації потоку звукових даних віртуального мікрофона по п. 16.

18. Система для генерації потоку звукових даних, що включає в себе:
пристрій по одному з пп. 1-8 або 17 та
пристрій по одному з пп. 9-15.

19. Потік звукових даних, що включає в себе звукові дані, що відносяться до одному�ів звуку, одне або більше значень тиску звуку,
причому звукові дані додатково включають у себе, для кожного з одного або більше джерел звуку, одне або більше значень розташування, що вказують розташування джерела звуку, причому кожне з одного або більше значень місцезнаходження включає в себе, принаймні, два значення координат та
причому звукові дані додатково включають в себе одне або більше значень дифузності звуку для кожного з одного або більше джерел звуку.

20. Потік звукових даних з п. 19, в якому звукові дані визначені в частотно-часовій області.

21. Спосіб генерації, щонайменше, одного вихідного звукового сигналу на підставі потоку звукових даних, що включає в себе звукові дані, що відносяться до одного або більше джерел звуку, причому спосіб включає в себе етапи, на яких:
приймають потік звукових даних, що включає в себе звукові дані, причому звукові дані включають у себе, для кожного з одного або більше джерел звуку, одне або більше значень тиску звуку, і причому звукові дані додатково включають у себе, для кожного з одного або більше джерел звуку, одне або більше значень розташування, указя включає в себе, щонайменше, два значення координат, і причому звукові дані додатково включають в себе одне або більше значень дифузності звуку для кожного з джерел звуку;
генерують, щонайменше, один вихідний звуковий сигнал на підставі, щонайменше, одного з одного або більше значень тиску звуку звукових даних з потоку звукових даних, на підставі, щонайменше, одного з одного або більше значень розташування із звукових даних з потоку звукових даних і на підставі, щонайменше, одного з одного або більше значень дифузності звуку звукових даних з потоку звукових даних.

22. Спосіб за п. 21,
причому спосіб додатково включає в себе етап, на якому модифікують звукові дані з прийнятого потоку звукових даних шляхом модифікації, щонайменше, одного з одного або більше значень тиску звуку звукових даних, шляхом модифікації, щонайменше, одного з одного або більше значень розташування із звукових даних або шляхом модифікації, щонайменше, одного з одного або більше значень дифузності звуку звукових даних,
причому етап, на якому визначають, щонайменше, один вихідний звуковий сигнал, включає в себе �го з одного або більше значень дифузності звуку звукових даних з потоку звукових даних, і причому етап, на якому визначають, щонайменше, один вихідний звуковий сигнал, включає в себе етап, на якому генерують, щонайменше, один вихідний звуковий сигнал на підставі, щонайменше, одного значення тиску звуку, яке було модифіковано, на підставі, щонайменше, одного значення місцеположення, яке було модифіковано, або на підставі, щонайменше, одного значення дифузності звуку, яке було модифіковано.

23. Спосіб генерації потоку звукових даних, що включає в себе дані джерела звуку, що відносяться до одного або більше джерел звуку, причому спосіб генерації потоку звукових даних включає в себе етапи, на яких:
визначають дані звукового джерела на підставі, щонайменше, одного вхідного звукового сигналу, записаного на, щонайменше, одному мікрофоні, та на підставі інформації звукової сторони, наданої, щонайменше, двома просторовими мікрофонами, причому інформація звукової сторони являє собою інформацію просторової боку, описує просторовий звук;
генерують потік звукових даних так, що потік звукових даних включає в себе дані джерела звуку;
причеЀостранственного звуку, здатний витягувати напрямок приходу звуку, і
причому дані джерела звуку включають в себе одне або більше значень тиску звуку для кожного з джерел звуку, причому дані джерела звуку додатково включають в себе одне або більше значень розташування, що вказують місце розташування джерела звуку для кожного з джерел звуку.

24. Спосіб генерації потоку звукових даних, що включає в себе звукові дані, що відносяться до одного або більше джерел звуку, що включає в себе етапи, на яких:
приймають звукові дані, що включають в себе, щонайменше, одне значення тиску звуку для кожного з джерел звуку, причому звукові дані додатково включають в себе одне або більше значень розташування, що вказують місце розташування джерела звуку для кожного з джерел звуку, і причому звукові дані додатково включають в себе одне або більше значень дифузності звуку для кожного з джерел звуку;
генерують потік звукових даних так, що потік звукових даних включає в себе, щонайменше, одне або більше значень тиску звуку для кожного з джерел звуку, та так, що потік звукових даних додатково включає в себе один або більше зно потік звукових даних додатково включає в себе один або більше значень дифузності звуку для кожного з джерел звуку.

25. Зчитаний комп'ютером носій, що містить комп'ютерну програму для реалізації способу за пп. 21-24, при виконанні на комп'ютері або процесорі.



 

Схожі патенти:

Гучномовець зі звуковим полем, що має певну форму

Винахід відноситься до звуковідтворювальної техніки

Хвилевід з однократним і багаторазовим відображенням

Винахід відноситься до способу розсіювання звуку з допомогою рупорного або відображає хвилеводу

Спосіб прослуховування звукових об'єктів сцен

Винахід відноситься до області акустики і може бути використане для управління діаграмою спрямованості акустичних випромінювачів, зокрема навушників, при прослуховуванні об'єктів звукових сцен, а також для формування віртуальних акустичних середовищ високої вірності відтворення і реалізації спеціальних звукових ефектів

Точкове джерело звукових хвиль

Винахід відноситься до області акустики

Пристрій і спосіб для розкладання вхідного сигналу з використанням понижуючого мікшера

Винахід відноситься до аудиообработке і, зокрема, до розкладання аудіосигналів на різні компоненти. Технічний результат - підвищення точності відтворення стереофонічного звуку. Для цього пристрій для розкладання вхідного сигналу, що має, щонайменше, три вхідних каналу, містить понижуючий мікшер для понижуючого мікшування вхідного сигналу, щоб отримувати мікшований з пониженням сигнал, який має меншу кількість каналів, аналізатор для аналізу мікшірованого з пониженням сигналу, щоб виводити результат аналізу, який направляється в процесор сигналів для обробки вхідного сигналу або сигналу, виведеного з вхідного сигналу, щоб отримувати розкладений сигнал. 3 н. і 12 н. п. ф-ли, 16 іл.

Канальне кодування на основі комплексного перетворення з частотним кодуванням з розширеною смугою

Винахід відноситься до засобів канального кодування на основі комплексного перетворення з частотним кодуванням з розширеною смугою. Технічний результат полягає в поліпшенні якості багатоканального звуку. Приймають закодовані дані багатоканального звуку в растровому потоці, причому закодовані дані багатоканального звуку містять дані кодування з канальним розширенням і дані кодування з частотним розширенням, причому дані кодування з канальним розширенням містять комбінований канал для безлічі звукових каналів і безліч параметрів для подання окремих каналів цього безлічі звукових каналів в якості модифікованих версій комбінованого каналу. Визначають на основі інформації в растровому потоці, містить згаданий безліч параметрів набір параметрів, що містить нормовану кореляційну матрицю, або набір параметрів, що містить комплексний параметр, що представляє відношення, що містить уявний компонент і дійсний компонент, для крос-кореляції між двома згаданого безлічі звукових каналів. На основі даного визначення декодують згадане безліч параметрів. Відновлюють м�з частотним розширенням. 4 н. і 16 з.п. ф-ли, 42 іл., 1 табл.

Стереофонічне кодування на основі mdct з комплексним пророкуванням

Винахід відноситься до засобів для стереофонічного кодування і декодування з використанням комплексного передбачення в частотній області. Технічний результат полягає в забезпеченні високої якості звуку при зменшенні обчислювальних витрат. В одному з варіантів здійснення винаходу спосіб декодування, призначений для отримання вихідного стереофонічного сигналу вхідного стереофонічного сигналу, закодованого за допомогою стереофонічного кодування з комплексним пророкуванням і включає перші уявлення двох вхідних каналів в частотній області, включає наступні етапи підвищує мікшування: обчислення другого подання першого вхідного каналу в частотній області і обчислення вихідного каналу на основі першого і другого уявлень першого вхідного каналу в частотній області, першого подання другого вхідного каналу в частотній області і коефіцієнта комплексного передбачення. Спосіб включає виконання модифікацій в частотній області селективно перед підвищує мікшуванням або після підвищує мікшування. 3 н. і 12 з.п. ф-ли, 19 іл.

Пристрій і спосіб для розкладання вхідного сигналу з використанням заздалегідь обчисленій еталонної кривої

Винахід відноситься до аудиообработке і, зокрема, до розкладання аудіосигналів на різні компоненти, наприклад, по-різному сприймані компоненти. Технічний результат - розкладання сигналу з використанням заздалегідь обчисленій частотно-залежної кривий подоби в якості еталонної кривої. Пристрій для розкладання сигналу, що має, щонайменше, три канали, містить аналізатор (16) для аналізу подібності між двома каналами аналізованого сигналу, пов'язаного з сигналом, що має, щонайменше, два аналізованих каналу, при цьому аналізатор виконаний з можливістю використання заздалегідь обчисленій частотно-залежної кривий подоби в якості еталонної кривої, щоб визначати результат аналізу. Процесор (20) сигналів обробляє аналізований сигнал або сигнал, який видобувають з аналізованого сигналу, або сигнал, з якого витягується аналізований сигнал, з використанням результату аналізу, щоб отримувати розкладений сигнал. 3 н. і 12 з.п. ф-ли, 16 іл.

Пристрій і спосіб для оцінки рівня кодованих аудіо кадрів в області бітового потоку

Винахід відноситься до засобів оцінки аудіо сигналу. Технічним результатом є підвищення ефективності кодування аудіо сигналу. Пристрій містить модуль визначення кодової книги з безлічі кодових книг як ідентифікованої кодової книги. У пристрої аудіо сигнал кодується, використовуючи визначений кодову книгу, і модуль оцінки, сконфігурований для отримання значення рівня, асоційованого з ідентифікованої кодовою книгою, в якості отриманого значення рівня та для оцінювання оцінки рівня аудіо сигналу, використовуючи отримане значення рівня. 8 н. і 11 з.п. ф-ли, 11 іл.

Пристрій для розширення смуги частот

Винахід відноситься до засобів для розширення смуги частот. Технічний результат полягає в поліпшенні сприйняття розширеного звукового сигналу. Генерують сигнал збудження на основі звукового сигналу, при цьому звуковий сигнал містить безліч частотних компонентів. Виділяють вектор ознак з звукового сигналу, при цьому вектор ознак містить щонайменше один ознака компонента в частотній області і щонайменше одна ознака компонента у часовій області. Визначають щонайменше один параметр форми спектра на основі вектора ознак, при цьому принаймні один параметр форми спектра відповідає сигналу піддіапазону, що містить частотні компоненти, які належать додаткового безлічі частотних компонентів. Генерують сигнал піддіапазони шляхом фільтрації сигналу збудження з допомогою банку фільтрів і зважування відфільтрованого сигналу збудження з використанням щонайменше одного параметра форми спектра. 3 н. і 18 з.п. ф-ли, 10 іл.

Способи і пристрої кодування і декодування об'єктно-орієнтованих аудіосигналів

Винахід відноситься до кодування і декодуванню аудіосигналу, в яких звукові образи для кожного об'єктного аудіосигналу можуть бути локалізовані в будь-якій позиції. Технічний результат - підвищення точності відтворення об'єктних аудіосигналів. Для цього в способі і пристрої кодування аудіосигналу і в способі і пристрої декодування аудіосигналу аудіосигнали можуть бути кодовані або декодованими так, що звукові образи можуть бути локалізовані в будь-якій позиції для кожного об'єктного аудіосигналу. Спосіб декодування аудіосигналу включає в себе витяг з аудіосигналу сигналу понижуючого мікшування і об'єктно-орієнтованої додаткової інформації; формування канально-орієнтованої додаткової інформації на основі об'єктно-орієнтованої додаткової інформації та керуючої інформації для відтворення сигналу понижуючого мікшування; обробку сигналу понижуючого мікшування з використанням декоррелированного канального сигналу; і формування багатоканального звуку з використанням обробленого сигналу понижуючого мікшування і канально-орієнтованої додаткової інформації. 3 �

Спосіб і пристрій для синхронізації сильно стиснених даних поліпшує шару

Винахід відноситься до форматів даних мультимедійних додатків, які використовують ієрархічні шари даних. Технічним результатом є забезпечення можливості виявлення втрати синхронізації між даними поліпшує шару і даними основного шару під час декодування, в той час як кількість синхронізуючої інформації та контрольної інформації в потоці даних поліпшує шару утримується низьким. Спосіб кодування аудіо - чи відео, має потік бітів основного шару і потік бітів поліпшує шару, що відноситься до потоку бітів основного шару. Дані основного шару і дані поліпшує шару структуровані в пакети і пакети потоку бітів основного шару мають відповідні пакети потоку бітів поліпшує шару. Згідно способом здійснюють обчислення контрольної суми пакету потоку бітів основного шару і відповідного пакета потоку бітів поліпшує шару. А також ентропійно кодують пакет потоку бітів основного шару, отримуючи ентропійно кодований вирівняний по байтам пакет основного шару, що починається з синхронизационного слова. 4 н. і 9 з.п. ф-ли, 7 іл.

Пристрій і спосіб декодування кодованого звукового сигналу

Винахід відноситься до пристрій для декодування (100) кодованого аудіосигналу (102), а також до пристрою і способу кодування звукового сигналу

Низькошвидкісна аудиокодирующая/декодирующая схема з загальною попередньою обробкою

Винахід відноситься до області звукового кодування і, зокрема, до низькошвидкісних схем кодування аудіо сигналу
Up!