Способи синтезу та кодування мови

 

Область техніки

[0001] Даний винахід відноситься до способів кодування і синтезу мови.

Рівень техніки

[0002] Сучасні статистико-параметричні синтезатори мови демонструють здатність виробляти природно звучать голоси з гнучкою настройкою в робочому діапазоні. На жаль, якість звучання страждає від характерного «дзижчання», пов'язаного з тим, що мова створюється вокодером.

[0003] В останнє десятиліття В синтезі мовлення чітко заявили про себе методи, засновані на виборі мовних одиниць. Ці методи спираються на величезні корпуси (зазвичай у кілька сотень мегабайт), що покриває як можна більше різноманіття мовних сигналів. У процесі синтезу мова створюється конкатенацией природних одиниць, вилучених з корпусу. Оскільки база даних містить кілька прикладів для кожної одиниці мови, виникає проблема знаходження оптимального шляху в сітці потенційних кандидатів, що забезпечує скорочення витрат на вибір і конкатенацию.

[0004] Цей підхід дозволяє виробляти мова з високим ступенем природності і розбірливості. Однак якість може значно знижуватися, якщо потрібно недостатньо представлена в корпусі одиниця або до�бликации Токуда К. (К. Tokuda) та ін. «Система синтезу мовлення на основі прихованої марківської моделі в застосуванні до англійської мови» (An HMM-based speech synthesis system applied to English), Proc. IEEE Workshop on Speech Synthesis, 2002, с. 227-230, був запропонований новий спосіб синтезу: статистико-параметричний синтез мови. Цей підхід спирається на статистичне моделювання параметрів мови. Передбачається, що така модель, пройшовши навчання, може створювати реалістичні послідовності цих параметрів. Найбільш відома методика в рамках такого підходу - це, зрозуміло, синтез мови на основі прихованої марківської моделі СММ (НММ). Синтезатори з використанням цієї методики в недавніх суб'єктивних випробування продемонстрували показники, порівнянні з системами на основі вибору одиниць. Важливою перевагою такої методики є гнучкість в управлінні мовними варіаціями (наприклад, емоціями, експресивністю) і простота створення нових голосів (через статистичне перетворення голосу). До двох основних недоліків, властивим способом в силу його природи, відносяться:

- недостатня природність створюваних траєкторій: при статистичній обробці спостерігається тенденція до розмивання деталей при розробці ознак, з-за чого створюються�дзижчить характер» створюваної мови, пов'язаний із звичайним для вокодера якістю.

[0006] Хоча параметри, що характеризують спектр і просодию, досить добре визначені, можна очікувати поліпшень за рахунок вибору більш підходящої моделі збудження. Традиційний підхід передбачає, що в якості сигналу збудження використовується або білий шум, або послідовність імпульсів - для невокализованних і вокалізованих сегментів, відповідно. Щоб ближче відтворити фізіологічний процес фонації, в якому голосовий сигнал складається з комбінації періодичних і неперіодичних компонент, було запропоновано використовувати змішане збудження СВ (ME). CB (ME) зазвичай отримують так, як показано на фіг.1.

[0007] Автори публікації Йосимура Т. (Т. Yoshimura) та ін. «Змішане джерело збудження для синтезу мовлення на основі прихованої марківської моделі» (Mixed-excitation for HMM-based speech synthesis), Proc. Eurospeech01, 2001, с. 2259-2262, пропонують отримувати коефіцієнти для фільтрів з інтенсивності вокалізації їх смуг пропускання.

[0008] Публікація Майа Р. (R. Maia) та ін. «Модель збудження, побудована за принципом залишкового моделювання для синтезу мовлення на основі прихованої марківської моделі» (An excitation model for HMM-based speech synthesis based on residual modeling), Proc. ISCA SSW6, 2007, описує пряме Мета винаходу

[0009] Мета цього винаходу полягає в забезпеченні сигналів збудження для синтезу мови, які не мають недоліків, властивих рівня техніки.

[0010] зокрема, мета цього винаходу полягає в забезпеченні сигналу збудження для вокалізованих послідовностей, який зменшує «дзижчить» або «металевий» характер синтезованої мови.

Сутність винаходу

[0011] Даний винахід відноситься до способу кодування сигналу збудження цільової мови, що включає в себе наступні кроки:

- витяг з набору навчальних нормалізованих залишкових кадрів набору відповідних нормалізованих залишкових кадрів, при цьому зазначені навчальні залишкові кадри витягують з повчальної промови, синхронізують з моменту закриття голосової щілини МЗГЩ (GCI) та нормалізують за основним тоном і енергії;

- визначення цільового сигналу збудження цільової мови;

- розподіл зазначеного цільового сигналу збудження на цільові кадри, синхронізовані по моментах МЗГЩ (GCI);

- визначення локального основного тону і енергії для цільових кадрів, синхронізованих по моментах МЗГЩ (GCI);

- нормалізація цільових кадрів, синхронізованих по моментах МЗГЩ (GCI), пфициентов лінійної комбінації зазначеного витягнутого набору відповідних нормалізованих залишкових кадрів, щоб побудувати для кожного з цільових нормалізованих залишкових кадрів найбільш близькі до них синтезовані нормалізовані залишкові кадри,

причому параметри кодування для кожного з цільових залишкових кадрів містять визначені таким чином коефіцієнти.

[0012] Цільової сигнал збудження може бути отриманий шляхом застосування попередньо заданого фільтра синтезу, що зазнає інверсії, до цільового сигналу.

[0013] Переважно, вказаний фільтр синтезу визначено методом спектрального аналізу, переважно, методом лінійного передбачення, застосованим до цільової мови.

[0014] Під набором відповідних нормалізованих залишкових кадрів розуміється мінімальний набір нормалізованих залишкових кадрів, що дає максимальну кількість інформації для побудови синтезованих нормалізованих залишкових кадрів допомогою лінійної комбінації відповідних нормалізованих залишкових кадрів, найбільш близьких до цільових нормалізованим залишковим кадрів.

[0015] Переважно, параметри кодування додатково включають в себе просодические параметри.

[0016] Більш переважно, зазначені просодические параметри містять (складаються з) енергія�ределяют статистичним методом, переважно - вибраним з сукупності методів, що включає в себе метод К-середніх і метод РСА.

[0018] Переважно, набір відповідних нормалізованих залишкових кадрів визначений за допомогою алгоритму К-середніх, причому відповідні нормалізовані залишкові кадри у вказаному наборі відповідають отриманим центроїдам кластерів. У цьому випадку коефіцієнт, пов'язаний з центроїдом кластера, найближчим до цільовим нормалізованої залишковим кадру, переважно дорівнюватиме одиниці, а інші - нулю, або, що еквівалентно, буде використовуватися тільки один параметр, який представляє параметр найближчого центроїда.

[0019] Як варіант, зазначений набір відповідних нормалізованих залишкових кадрів може являти собою набір перших власних залишкових векторів, визначених методом головних компонент МГК (РСА). Під власними залишковими векторами тут розуміються власні вектори, що отримуються методом МГК (РСА).

[0020] Переважно, зазначений набір перших власних залишкових векторів вибрано так, щоб допустити пониження розмірності.

[0021] Переважно, зазначений відповідний набір перших власних залишкових векторів отриманий за критерієм інформацію�>mrow>I(k)=i=1kλii=1mλi

де λiпозначає i-e власне значення, яке визначається методом МГК (РСА) у порядку спадання, і m - загальне число власних значень.

[0022] Набір навчальних нормалізованих залишкових кадрів, переважно, визначають способом, який включає в себе наступні кроки:

- отримання запису навчальної мовлення;

- розподіл зазначеного зразка мовлення на подкадри, мають попередньо задану тривалість;

- аналіз зазначених навчальних подкадров для визначення фільтрів синтезу;

- застосування інверсних фільтрів синтезу до зазначеним навчальним подкадрам для визначення навчальних залишкових сигналів;

- визначення моментів закриття голосової щілини МЗГЩ (GCI) зазначених навчальних залишкових сигналів;

- визначення локальних періоду основного тону, і енергії зазначених навчальних залишкових сигналів;

- розподіл зазначених навчальних остаточнихвного тони, що дозволяє синхронізувати ці навчальні залишкові кадри по знайденим моментів МЗГЩ (GCI);

- повторна дискретизація зазначених навчальних залишкових кадрів у навчальні залишкові кадри з постійним основним тоном;

- нормалізація енергії зазначених навчальних залишкових кадрів з постійним основним тоном для отримання набору залишкових кадрів, синхронізованих по моментах МЗГЩ (GCI) та нормалізованих за основним тоном і енергії.

[0023] Ще один аспект винаходу відноситься до способу синтезу сигналу збудження, в якому використовується спосіб кодування згідно з цим винаходу додатково включає в себе наступні кроки:

- побудова синтезованих нормалізованих залишкових кадрів допомогою лінійної комбінації вказаного набору відповідних нормалізованих залишкових кадрів з використанням параметрів кодування;

- денормалізація зазначених синтезованих нормалізованих залишкових кадрів за основним тоном і енергії для отримання синтезованих залишкових кадрів, які мають цільові локальний період основного тону і енергію;

- перекомбинирование зазначених синтезованих залишкових кадрів методом синхронізованого за основно�, зазначений набір відповідних нормалізованих залишкових кадрів являє собою набір перших власних залишкових векторів, які визначаються методом МГК (РСА), і до вказаних синтезованим залишковим кадрів додано високочастотний шум. Зазначений високочастотний шум може мати кордон відсічення низьких частот, складову від 2 до 6 кГц, переважно - від 3 до 5 кГц, найбільш переважно - приблизно 4 кГц.

[0025] Ще один аспект заявленого винаходу відноситься до способу параметричного синтезу промови, в якому для визначення сигналу збудження вокалізованих послідовностей в синтезованих сигналі мови використовується спосіб синтезу сигналу збудження відповідно до цього винаходу.

[0026] Переважно, спосіб параметричного синтезу мовлення додатково включає в себе крок фільтрування зазначеного синтезованого сигналу збудження фільтрами синтезу, що використовуються для вилучення цільових сигналів збудження.

[0027] Даний винахід відноситься також до набору команд, записаних на машиночитаемом носії, які при їх виконанні на комп'ютері реалізують спосіб згідно винаходу.

Короткий опис креслень

[0028] На фіг.1 представлеели методом центру тяжіння ЦТ (CoG).

[0030] На фіг.3 представлений спосіб отримання набору синхронних по основному тону залишкових кадрів, придатних для статистичного аналізу.

[0031] На фіг.4 представлений спосіб порушення згідно з цим винаходу.

[0032] На фіг.5 представлений перший залишковий власний вектор для диктора-жінки SLT.

[0033] На фіг.6 представлений «інформаційний коефіцієнт» при використанні k власних залишкових векторів для диктора AWB.

[0034] На фіг.7 представлений синтез збудження згідно з цим винаходу, виконаний з використанням власних залишкових векторів методу МГК (РСА).

[0035] На фіг.8 представлений приклад декомпозиції за детермінованою/стохастичної моделі ДСМ (DSM) на залишковому кадрі, синхронному з основного тону. Лівий графік: детермінована частина. Середній графік: стохастична частина. Правий графік: амплітудні спектри детермінованої частини (штрихпунктирная лінія), шумовий частини (пунктирна лінія) і реконструйований кадр збудження (суцільна лінія), отриманий поєднанням обох складових.

[0036] На фіг.9 представлена загальна блок-схема синтезу сигналу збудження згідно з цим винаходу з використанням методу детермінованою і дров по RN, і кадрів, синхронізованих по основному тону, відповідно.

[0038] На фіг.11 представлена процедура кодування і синтезу у разі застосування методу К-середніх.

[0039] На фіг.12 представлені результати тесту на перевагу по відношенню до експерименту, де спосіб кодування і синтезу згідно з цим винаходу порівнювався з традиційним порушенням імпульсів.

Докладне розкриття винаходу

[0040] У цьому винаході розкривається новий спосіб збудження, що забезпечує зменшення «жужжащего характеру» вокалізованих сегментів параметричних синтезаторів мови.

[0041] Даний винахід відноситься до способів кодування для кодування такого порушення.

[0042] На першому кроці з зразка мовлення (навчального набору даних) отримують набір залишкових кадрів. Ця операція виконується за допомогою поділу зразка мовлення на навчальні подкадри попередньо заданої тривалості, аналізу кожного навчального подкадра для визначення синтезу фільтрів, наприклад фільтрів лінійного передбачення, а потім застосування відповідного інверсного фільтра до кожного з подкадров у зразку мовлення з отриманням залишкового сигналу, розділеного на остато�ральние коефіцієнти, (ОМКК (MGC)), які дозволяють точно та надійно відобразити огинають спектра мовного сигналу. Знайдені таким чином коефіцієнти використовуються для визначення фільтра синтезу на основі лінійного передбачення. Далі для вилучення залишкових кадрів використовується інверсія знайденого фільтра синтезу.

[0044] Залишкові кадри ділять таким чином, щоб вони були синхронізовані з моментів закриття голосової щілини (МЗГЩ (GCI)). Для визначення моментів МЗГЩ (GCI) може використовуватися спосіб, заснований на центрі тяжкості (ЦТ (CoG)) енергії мовного сигналу. Переважно, залишкові кадри центровани по моментах МЗГЩ (GCI).

[0045] На фіг.2 показано, як можна поліпшити виявлення моментів МЗГЩ (GCI) методом вибору піків і виявлення точок проходження нуля (від позитивних до негативних значень) в сигналі ЦТ (CoG).

[0046] Переважно, залишкові кадри оброблені методом вікна Хеннінга (Harming) протяжністю в два періоду. Щоб забезпечити точку порівняння між залишковими кадрами до вилучення більшої частини відповідних залишкових кадрів, вирівнювання по моментам МЗГЩ (GCI) буде недостатнім і потрібно нормалізація за основним тоном і енергії.

[0047] Нормалізація за основним то�ного кадру. Якщо виходити з того, що залишок, отриманий застосуванням інверсного фільтра, може апроксимувати першу похідну потоку в голосової щілини, повторна дискретизація цього сигналу дозволить зберегти такі параметри, як відношення фази відкриття голосової щілини, коефіцієнт асиметрії (і, отже, співвідношення Fg/F0, де Fg - частота глоттальной форманти, a F0 - частота основного тону), а також характеристики зворотного фази.

[0048] В процесі синтезу залишкові кадри будуть отримані в результаті застосування повторної дискретизації комбінації відповідних залишкових кадрів, нормалізованих за основним тоном і енергії. Якщо основний тон цих кадрів не буде досить низьким, при подальшій підвищує дискретизації спектр виявиться стисненим і в області високих частот з'являться «енергетичні діри». Щоб уникнути цього, аналізують гістограму основного тону P(F0) диктора, при цьому вибране нормалізоване значення частоти основного тону F0* у загальному випадку повинно задовольняти наступній умові:

F0*P(F0)dсинтезу незначною підвищує дискретизації будуть піддані лише 20% кадрів.

[0049] Загальна блок-схема вилучення залишкових кадрів, синхронних з основного тону, представлена на фіг.3.

[0050] Таким чином, у розглянутий момент у нашому розпорядженні є набір залишкових кадрів, синхронізованих по моментах МЗГЩ (GCI) та нормалізованих за основним тоном і енергії (так звані «RN-кадри»), до яких можуть бути застосовані такі статистичні методи кластеризації, як метод головних компонент МГК (РСА) або метод К-середніх.

[0051] Ці методи використовуються далі для визначення набору відповідних RN-кадрів, які використовуються для відтворення цільових залишкових кадрів. Під набором відповідних кадрів розуміється мінімальний набір кадрів, які забезпечують максимальну кількість інформації, щоб відтворити залишкові кадри, найбільш близькі до цільових залишковим кадрів, або, іншими словами, набір RN-кадрів, що допускає в описі цільових кадрів максимальне зниження розмірності з мінімальною втратою інформації.

[0052] В якості першого варіанта визначення набору відповідних кадрів ґрунтується на одержуваної методом головних компонент МГК (РСА) декомпозиції залишкових кадрів, синхронних з основного тону, на ортонормированном базисі. Цей базис содержитно 20 хв), з якої витягають набір вокалізованих кадрів.

[0053] Метод головних компонент МГК (РСА) є ортогональним лінійним перетворенням із застосуванням повороту системи координат для отримання найкращого (за критерієм найменших квадратів ПК (LS)) подання вхідних даних. Можна показати, що застосування критерію ПК (LS) еквівалентна максимізації дисперсії даних за новим осях координат. Після цього може бути застосований власне метод МГК (РСА), за допомогою обчислення власних значень і власних векторів матриці коваріації даних.

[0054] Для набору даних, що складається з N залишкових кадрів з m зразків, обчислення методом МГК (РСА) дадуть m власних значень λiз відповідними їм власними векторами µi (обозначаемими тут «власні залишкові вектори»). Наприклад, перший залишковий власний вектор для конкретного диктора-жінки представлений на фіг.5. λiявляє собою дисперсію даних по осі µi, тобто є мірою інформації, яку розглянутий залишковий власний вектор несе про наборі даних. Цей показник важливий для пониження розмірності. Визначимо інформаційний коефіцієнт I(k) при використанні k перше власн�mrow>I(k)=i=1kλii=1mλi

[0055] На фіг.6 ця змінна представлена для диктора-чоловіки AWB (де m=280). Суб'єктивні випробування із застосуванням аналізу/синтезу показали, що вибір k, при якому I(k) перевищує приблизно 0,75, надає практично невідчутне на слух вплив на початковий файл. Якщо повернутися до прикладу на фіг.6, це означає, що для розглянутого диктора може ефективно використовуватися приблизно 20 власних залишкових векторів. З цього випливає, що цільові кадри можуть бути ефективно описуються вектором, що має розмірність 20, який буде визначений перетворенням МГК (РСА) (проекція цільового кадру на 20 перших власних залишкових векторів). Ці власні залишкові вектори утворюють набір відповідних RN-кадрів.

[0056] Після розрахунку перетворення методом МГК (РСА) аналізують весь корпус, витягуючи параметри МГК (РСА) для кодування сигналу збудження для ц� змішаної моделі збудження у вигляді детермінованої/стохастичної моделі ДСМ (DSM). Це дозволяє зменшити кількість власних залишкових векторів для кодування і синтезу збудження вокалізованих сегментів без зниження якості синтезу. У цьому випадку сигнал збудження розкладають на детерміновану низькочастотну складову rd(t) і стохастичну високочастотну складову rs(t). Максимальна частота Fmaxвокализованного ділянки позначає межу між детермінованої і стохастичної складовими. Для Fmaxможуть використовуватися значення від 2 до 6 кГц, переважно, приблизно рівні 4 кГц/

[0058] У випадку застосування моделі ДСМ (DSM) стохастична частина сигналу rs(t) являє собою білий шум, що пропускається через високочастотний смуговий фільтр з кордоном пропускання, рівною Fmax. Для цього може використовуватися, наприклад, авторегрессивний фільтр. Бажано, щоб на усічений по частоті білий шум накладалася додаткова тимчасова залежність. Може використовуватися, наприклад, трикутна обвідна, центрована по моментах МЗГЩ (GCI).

[0059] З іншого боку, rd(t) розраховують так само, як описано вище, шляхом кодування і синтезування нормалізованих залишкових кадрів посер� кадр потім денормализуют, приводячи його до цільових значень частоти основного тону і енергії.

[0060] Отримані детерміновані і стохастичні компоненти представлені на фіг.8.

[0061] Кінцевий сигнал збудження при цьому є сумою rd(t)+rs(t). Загальна блок-схема даної моделі збудження представлена на фіг.9.

[0062] Розглянута модель БУДИНОК (DSM) забезпечує таке підвищення якості, що для отримання прийнятних результатів достатнім є використання тільки одного власного залишкового вектора. У цьому випадку збудження характеризується тільки частотою основного тону, і потік ваг, що отримуються методом МГК (РСА), можна виключити. Це дає максимально просту модель, в якій сигнал збудження є (нижче Fmax) по суті прив'язаним до тимчасової шкалою коливальним сигналом, що майже не вимагає відчутної обчислювальної навантаження, забезпечуючи в той же час висока якість синтезу.

[0063] У будь-якому випадку збудження для невокализованних сегментів являє собою гауссів білий шум.

[0064] В якості іншого варіанту у визначенні набору відповідних кадрів використовуються кодові книги для залишкових кадрів, які визначають згідно з алгоритмом Кастерам, k<n. При цьому передбачається, що ознаки об'єктів утворюють векторний простір. Ставиться за мету мінімізувати загальну дисперсію всередині окремих кластерів або функцію квадратичної помилки:

V=i=1kxjSi(xjμi)2

де є k кластерів Si, i=1, 2, ..., k, µi- їх центроїди, або середні для всіх точок xj∈Sj/

[0065] Як центроїди, одержувані методом К-середніх, так і власні вектори, що отримуються методом МГК (РСА), представляють відповідні залишкові кадри, що дозволяють отримати цільові нормалізовані залишкові кадри допомогою лінійної комбінації з мінімальною кількістю коефіцієнтів (параметрів).

[0066] При застосуванні алгоритму К-середніх до раніше описаним RN-кадрів зазвичай залишають 100 центроїдів, оскільки було встановлено, що 100 центроїдів достатньо, щоб компресія не відчувалася на слух. Ці вибір�редпочтительно, кожен центроїд може бути замінений найбільш близьким RN-кадром з реального навчального набору даних, формуючи таким чином кодову книгу RN-кадрів. На фіг.10 представлена загальна блок-схема для визначення кодових книг RN-кадрів.

[0068] Дійсно, якщо усунути варіативність, пов'язану з формантами і основним тоном, можна очікувати отримання значної компресії. Тоді кожному центроїду може бути поставлений у відповідність реальний залишковий кадр. При цьому слід взяти до уваги складнощі, які проявляться при зворотному перетворенні залишкових кадрів в цільові кадри з основним тоном. Щоб скоротити виникнення «енергетичних дірок» під час синтезу, кадри, складові компресований набір, повинні мати як можна більш низьку частоту основного тону. Для кожного центроїда відбирають N найбільш близьких (за відстанню після нормалізації) кадрів і зберігають тільки самий довгий кадр. Вибрані таким чином найбільш близькі кадри далі позначаються як «центроидние залишкові кадри».

[0069] Далі виконується кодування за рахунок визначення найближчого центроїда для кожного цільового нормалізованого залишкового кадру. Зазначений найближчий центроїд визначають, ви�ентроидом і беручи за найближчий центроїд той, у якого обчислена середня квадратична помилка мінімальна. Цей принцип роз'яснюється на фіг.11.

[0070] Після цього відповідні нормалізовані залишкові кадри можуть використовуватися для поліпшення синтезатора мови, наприклад, ґрунтується на прихованої марківської моделі (СММ (НММ)) з новим потоком параметрів збудження в доповнення до традиційної характеристикою основного тону.

[0071] Синтезуються залишкові кадри створюються з допомогою лінійної комбінації відповідних RN-кадрів (тобто комбінації власних залишкових векторів у разі МГК (РСА) або найбільш близьких залишкових кадрів центроїдів у випадку К-середніх) з використанням параметрів, які були визначені на етапі кодування.

[0072] Після цього синтезовані залишкові кадри адаптують до цільових значень просодичних параметрів (основного тону і енергії) і з'єднують з накладенням, щоб отримати цільовий сигнал збудження.

[0073] У кінцевому рахунку, для виробництва синтезованого мовного сигналу може використовуватися так звана апроксимація за меллогарифмическому спектру, АМЛС (MLSA), що грунтується на створених коефіцієнтах ОМКК (MGC).

Приклад 1

[0074] Спочатку до навчального набору даних (зразком ре� γ=-1/3, оскільки ці значення забезпечили кращий сприйманий результат. Зазначений аналіз ОМКК (MGC) дозволив визначити фільтри синтезу.

[0075] Після цього аналізу ОМКК (MGC) піддали тестові пропозиції (не містяться в наборі даних), при цьому були витягнуті параметри для збудження і фільтрів. Були знайдені такі моменти МЗГЩ (GCI), щоб кадри вокалізованих ділянок виявилися центровані за цим моментам МЗГЩ (GCI) і мали тривалість у два періоди. Для виконання відбору ці кадри піддали повторної дискретизації і нормалізували, отримавши RN-кадри. Ці останні використовувалися в алгоритмі реконструкції сигналу збудження, показаному на фіг.11.

[0076] Після того як з набору відповідних нормалізованих залишкових кадрів були обрані нормалізовані за центроїдам залишкові кадри, у них була змінена частота основного тону і енергія, і в такому вигляді вони замінили початкові кадри.

[0077] Невокализованние сегменти замінили сегментами білого шуму, що характеризуються тією ж енергією. Результуючий сигнал збудження був потім відфільтрований з використанням раніше набутих початкових коефіцієнтів ОМКК (MGC).

Експеримент виконували, використовуючи кодову�елен статистичний параметричний синтезатор мови. Вектори ознак представляли собою параметри ОМКК (MGC) 24-го порядку, логарифмічні вирази F0 і коефіцієнти МГК (РСА), порядок яких був визначений так, як пояснювалося вище, і які були піддані конкатенації з їх першими та другими похідними. Був виконаний аналіз ОМКК (MCG) з α=0,42 (Fs=16 кГц) і γ=-1/3. Для обробки кордонів між вокализованними і невокализованними ділянками застосовувалося многопространственное розподіл (МПР (MSD)) (F0 в логарифмічному виразі і МГК (РСА) визначалися тільки на вокалізованих кадрах), що дало в цілому 7 потоків. Були застосовані фонемние контекстно-залежні СММ (НММ) з 5 станами і проходом зліва направо з використанням одинарних гаусових розподілів з діагональною матрицею коваріації. За статистикою перебування в окремих станах СММ (НММ) була також визначена модель тривалості станів. У процесі синтезу мови спочатку за допомогою моделі тривалості визначили найбільш ймовірну послідовність станів. Потім побудували найбільш ймовірну послідовність векторів ознак, пов'язану з вказаною послідовністю станів. І, нарешті, вектори ознак ввели в вокодер, щоб зробити мовний сигнал.

Приклад 3

[0080] В третьому прикладі був використаний той же спосіб, що і в другому, за винятком того, що застосовувався тільки перший залишковий власний вектор, та був доданий високочастотний шум, як описано�дставляла собою гауссів білий шум n(t), модифікований згорткою з авторегресивній моделлю h(τ,t) (високочастотний смуговий фільтр), тимчасова структура якого управлялася обвідної параметричної e(t):

rs(t)=e(t).(h(τ,t)*n(t))

де е(t) - трикутна функція, залежна від основного тону. Деякі додаткові дослідження показали, що e(t) не є ключовою ознакою структури шуму і може бути зведене до плоскої функції, наприклад, e(t)=1, не погіршуючи відчутним чином кінцевого результату.

[0081] У кожному прикладі оцінювалися три голоси: Бруно (чоловік, француз, не з бази даних CMU ARCTIC), AWB (чоловік, шотландець) та SLT (жінка, США) з бази даних CMU ARCTIC. Навчальний набір характеризувався тривалістю приблизно 50 хв для AWB та SLT і 2 години для Бруно і був складений з фонетично збалансованих висловлювань з частотою дискретизації 16 кГц.

[0082] Матеріал суб'єктивного випробування був запропонований 20 випробуваним-непрофесіоналам. Він складався з 4 синтезованих пропозицій тривалістю приблизно 7 секунд для кожного диктора. Для кожної пропозиції були представлені два варіанти, з використанням традиційного порушення або порушення згідно з цим винаходу, і випробувані повинні були вказати, каЌ послідовність імпульсів (тобто основний метод, застосовується при синтезі, заснованому на СММ (НММ)). Але і в рамках цієї традиційної методики для відображення микропросодических характеристик використовувалися імпульси, синхронізовані по моментах МЗГЩ (GCI), і створювана вокодером мова завдяки цьому спиралася на якісну основу. Результати наведені на фіг.12. Як видно з креслення, в кожному з трьох експериментів, пронумерованих від 1 до 3, видно поліпшення.

1. Спосіб кодування сигналу збудження цільової мови, що включає в себе наступні кроки:
витягують з набору навчальних нормалізованих залишкових кадрів набір відповідних нормалізованих залишкових кадрів, при цьому зазначені навчальні залишкові кадри витягують з повчальної промови, синхронізують з моменту закриття голосової щілини (МЗГЩ (GCI)) і нормалізують за основним тоном і енергії;
визначають цільової сигнал збудження з цільової мови;
поділяють зазначений цільовий сигнал збудження на цільові кадри, синхронізовані по моментах МЗГЩ (GCI);
визначають локальний основний тон і енергію цільових кадрів, синхронізованих по моментах МЗГЩ (GCI);
нормалізують синхронізовані з моментів МЗГЩ (GCI) цільові кадри по енергії і основного тону з отриманням цільових набору відповідних нормалізованих залишкових кадрів, щоб побудувати для кожного з цільових нормалізованих залишкових кадрів близькі до них синтезовані нормалізовані залишкові кадри,
при цьому параметри кодування для кожного з цільових залишкових кадрів містять отримані коефіцієнти.

2. Спосіб за п. 1, в якому цільової сигнал збудження визначають шляхом застосування інверсного фільтра синтезу до цільової мови.

3. Спосіб за п. 2, який відрізняється тим, що фільтр синтезу визначають методом спектрального аналізу, переважно методом лінійного передбачення.

4. Спосіб за будь-яким із пп.1-3, відрізняється тим, що зазначений набір відповідних нормалізованих залишкових кадрів визначають за допомогою алгоритму К-середніх або методом головних компонент (МГК (РСА)).

5. Спосіб за п. 4, який відрізняється тим, що зазначений набір відповідних нормалізованих залишкових кадрів визначають за допомогою алгоритму К-середніх, причому набір відповідних нормалізованих залишкових кадрів являє собою отримані центроїди кластерів.

6. Спосіб за п. 5, який відрізняється тим, що коефіцієнт, пов'язаний з центроїдом кластера, найближчим до цільовим нормалізованої залишковим кадру, що дорівнює одиниці, а інші коефіцієнти дорівнюють нулю.

7. Спосіб п�набір перших власних залишкових векторів, визначених методом МГК (РСА).

8. Спосіб синтезу сигналу збудження, що використовує спосіб кодування по кожному з пп.1-7, додатково включає в себе наступні кроки:
виконують побудову синтезованих нормалізованих залишкових кадрів допомогою лінійної комбінації вказаного набору відповідних нормалізованих залишкових кадрів з використанням параметрів кодування;
денормализуют зазначені синтезовані нормалізовані залишкові кадри з основного тону і енергії для отримання синтезованих залишкових кадрів, які мають цільові локальний період основного тону і енергію;
виконують перекомбинацию зазначених синтезованих залишкових кадрів методом синхронізованого по основному тону з'єднання з накладенням для отримання синтезованого сигналу збудження.

9. Спосіб синтезу сигналу збудження по п. 8, відрізняється тим, що зазначений набір відповідних нормалізованих залишкових кадрів являє собою набір перших власних залишкових векторів, які визначаються методом МГК (РСА), при цьому до зазначених синтезованим залишковим кадрів додають високочастотний шум.

10. Спосіб за п. 9, що відрізняється тим, що зазначений високочастотний шум довгий високочастотний шум має кордон відсічення низьких частот, складову приблизно 4 кГц.

12. Спосіб параметричного синтезу промови, в якому для визначення сигналу збудження вокалізованих послідовностей використовують спосіб за будь-яким із пп.8, 9, 10 або 11.

13. Машиночитаемий носій, на якому записаний набір команд, який, при виконанні на комп'ютері, реалізує спосіб за будь-яким із пп.1-12.



 

Схожі патенти:

Гнучка і масштабована комбінована відновлююча кодова книга для використання в кодері і декодері celp

Винахід відноситься до засобів кодування комбінованої оновлює кодової книги. Технічний результат полягає в забезпеченні можливості швидкого пошуку навіть з дуже великими кодовими книгами. Пристрій містить модуль попереднього квантування першого залишку порушення адаптивної кодової книги і модуль пошуку оновлює кодової книги CELP, що реагує на другий залишок збудження, створюваний з першого залишку порушення адаптивної кодової книги. У декодері CELP комбінована відновлююча кодова книга містить модуль деквантования попередньо квантованих параметрів кодування в перший внесок збудження і оновлює структуру кодової книги CELP, реагує на параметри оновлює кодової книги CELP, щоб створювати другий внесок збудження. 16 н. і 22 з.п. ф-ли, 4 іл.

Пристрій і спосіб квантування і зворотного квантування lpc-фільтрів в суперкадре

Запропоновано пристрій і спосіб квантування, в суперкадре, що включає в себе послідовність кадрів, LPC-фільтрів, обчислених під час кадрів з цієї послідовності. Пристрій і спосіб квантування LPC-фільтрів містять: абсолютний кантователь для квантування, в першу чергу, одного з LPC-фільтрів з використанням абсолютного квантування; і, щонайменше, один кантователь інших LPC-фільтрів з використанням режиму квантування, вибраного з групи, що складається з абсолютного квантування і диференціального квантування щодо, принаймні, одного раніше квантованого фільтра з LPC-фільтрів. Для зворотного квантування приймають щонайменше LPC-фільтр, квантованний першим, і зворотний кантователь виконує зворотне квантування LPC-фільтра, квантованого першим, з використанням абсолютного зворотного квантування. Якщо прийнятий який-небудь інший квантованний LPC-фільтр, ніж LPC-фільтр, квантованний першим, то зворотний кантователь виконує зворотне квантування цього квантованого LPC-фільтра з використанням одного з наступних режимів зворотного квантування: абсолютного зворотного квантування і диференціального зворотного квантування щодо, по меншій мерйствованних в квантуванні LCP-фільтрів. 4 н. і 28 з.п. ф-ли, 10 іл., 4 табл.

Маскування помилки передачі в цифровому аудіосигналі в ієрархічній структурі декодування

Винахід відноситься до обробки цифрових сигналів, наприклад сигналів мови, музики, в області телекомунікацій. Об'єктом винаходу є спосіб маскування помилки передачі в цифровому сигналі, розбитий на безліч послідовних кадрів, пов'язаних з різними часовими інтервалами, в якому при прийомі сигнал може містити стерті фрейми і нормальні кадри, при цьому нормальні кадри містять інформацію (inf), пов'язану з маскуванням втрати кадру. Спосіб застосовують під час ієрархічного декодування з використанням основного декодування і декодування за трансформанте, використовуючи вікна з короткою затримкою з введенням тимчасової затримки, меншою одного кадру порівняно з основним кодуванням. Для заміни, щонайменше, одного останнього кадру, стертого перед нормальним кадром, спосіб містить: етап (23) маскування першого набору відсутніх вибірок для стертого кадру, застосовуваний в першому часовому інтервалі; етап (25) маскування другого набору відсутніх вибірок для стертого кадру, що враховує дані зазначеного нормального кадру і застосовуваний у другому часовому інтервалі, і етап (29) переходу між першим набором відсутніх вибірок і вультат - поліпшення якості декодованих сигналів при втратах блоків даних шляхом підвищення якості маскування стертих кадрів в системі ієрархічного кодування з короткою затримкою. 3 н. і 7.з.п. ф-ли, 7 іл.

Спосіб і пристрій багаторівневого масштабованого стійкого до інформаційних втрат кодування мови для мереж з комутацією пакетів

Винахід відноситься до галузі способів передачі мультимедійної інформації в мережах зв'язку і запам'ятовування в електронних пристроях, зокрема до кодування мови

Спосіб і пристрій багатоступінчастого квантування

Винахід відноситься до галузі методів стиснення даних, зокрема до способу і пристрою для багатоступеневого квантування

Спосіб кодування і декодування мовного сигналу методом лінійного передбачення

Винахід відноситься до галузі цифрової обробки мовних сигналів

Синтезатор і спосіб для мовного синтезу (варіанти) і радіопристрій

Винахід відноситься до звукового або мовним синтезатором для використання із стисненими закодованими в цифровому вигляді звуковими чи мовними сигналами і може бути використане для постпроцессорной обробки сигналів, виділених із словника кодів збудження і словника адаптивних кодів мовного декодера типу лінійного кодування з передбаченням (ЛКП)
Up!