Как работи за синтезиране на говор

версия за печат

Синтез реч днес се нарича технология, която може да конвертира текстова информация в общата реч. С развитието на "интелигентни машини", тази технология става все по-важно, и всеки ден все повече и повече искания съвършенство. Всъщност, в момента, ние сме разработили редица методи за синтезиране на реч, която ще поговорим.







Така че, помислете за по-технологията и методите за синтез на реч. Както вече споменахме, има няколко метода за синтез на реч. По този начин, има няколко основни подхода:

  • параметричен синтез;
  • конкатенация (компилация) синтез;
  • Синтез от правила (в печатен текст);

Параметричен синтез ви позволява да го регистрира за всеки език, но това не може да се използва за които не са предварително дефинирани текст. Параметричен синтез реч се използва, когато поредица от съобщения е ограничен. Качеството на този метод на синтез може да бъде много висока.

В действителност, параметричен синтез на реч - е реализацията на принципа на работа на вокодера. В случай на синтеза на параметричен аудио сигнал представени определен брой непрекъснато различни параметри. За образуване на гласни генератор тон сигнал се използва за съгласни - генератор на шум. Въпреки това, този метод обикновено се използва за запис на глас в музикалните композиции, а често дори не е за синтеза на чист глас, а по-скоро на модулация.

Общият синтез на реч от правилата могат да играят по-рано неизвестен текст. Този метод не използва елементи на човешката реч, и въз основа на предварително програмирани алгоритми, езикова и акустична.

Тук също има своето подразделение - има два подхода към този метод синтез. Първият - синтез на реч формант в съответствие с правилата, а вторият - синтеза вербална. Формант синтез на базата на формант на - честотни резонансите гласа на говорещия. формант алгоритъм синтез симулира работата на човешкия вокален тракт, работещи като набор от резонатори. Днес, за съжаление, по-голямата част от синтезатори. работим изключително на синтез формант, да се разбере, без да тренирате усилено, но, разбира се, е универсална и обещаваща технология. Вербална метод се опитва да променя формант недостатъците, като към модела на леене фонетичните особености на отделните звуци.

Налице е също така технология глас синтез в съответствие с правилата, които използва записаните сегменти на природен реч. Защото, след като всички използваните методи за съставяне, да кажем няколко думи за тях се използват по-често.







В зависимост от това колко големи "фрагменти" на речта, използвана за синтез, такива възстановени видове синтез:

  • mikrosegmentny (микровълни);
  • allophonic;
  • diphones;
  • poluslogovoy;
  • силабичен;
  • синтез единици произволен размер.

Най-често използваните методи allophonic и diphones. За метод diphone реч синтез, основните елементи са всички възможни комбинации Тригонометрия фонеми, allophones за - комбинация от лявата и дясната връзка (allophone - фонеми изпълнение, което се дължи на неговата специфична фонетични среда). В същото време различни видове контекст се обединяват в групи в зависимост от степента на акустична интимност.

Предимството на тези системи е, че те правят възможно да се синтезира в текста не е зададен предварително текста, но недостатъкът - че качеството на синтезирания говор не е сравнимо с качеството на естествената реч (на границата на изкривяване на крос-свързващи компоненти може да се случи). Също така е много трудно да се контролира от характеристиките на интонацията на словото, както характеристиките на отделните думи могат да се променят в зависимост от контекста, или вида на израза.

Все пак, това е всичко, на теория. На практика, на този етап на развитие, въпреки активното насърчаване в областта на разработчиците синтез реч технология все още изпитват известни затруднения, най-вече свързани с изкуствено синтезирани реч, липса на емоционален цвят и ниско й имунитет.

Факт е, че който и да е синтезирана реч обикновено се възприема от лицето, с трудност. Това се дължи на факта, че пропуски в синтезиран текст изпълва човешкия мозък. която използва за тези допълнителни ресурси, както и лице, което може да възприеме синтезирана реч само около 20 минути.

На реч възприятие също се влияе от неговото емоционално оцветяване. В случай на синтезираната реч отсъства. Въпреки, че заслужава да се отбележи, че някои алгоритми все още позволяват до известна степен да имитира емоциите речта чрез промяна на продължителността фонема, паузи и глас модулация, но толкова дълго, колкото работата им е далеч от идеалното.

Що се отнася до третия проблем споменах - нисък имунитет шум, експериментите показват, че възприемането на синтезиран текст предотврати всяка, дори и най-малките шумове. Това отново се дължи на факта, че обработката на синтезирания говор, човешкият мозък използва допълнителни обекти, които не се използват в усещането за естествен реч.

В края на тази статия бих искал да дам някои примери за съществуващи синтезатори на реч.

Всеки е запознат с така наречената "читалня" - програма за по-лесно четене на текстове с монитор. Много от опита с помощта на синтезиране на реч софтуер за екранни четци, например, и Balabolka Govorilka.

За такава програма чете текст, вие също трябва да инсталирате ИСДП на библиотеката (Speech API) и гласови двигатели. Най-разпространени са две версии на Speech API: SAPI4 и SAPI5.Obe библиотека могат да работят на един и същ компютър. Операционните системи Windows XP, Windows Vista и Windows 7 вече са инсталирани SAPI5 библиотека.

В допълнение към електронни четци, общ екранен четец. Примери за такива програми са:

ДЕВА 4. Програмата е създадена за удобна работа на слепи и слабовиждащи потребители на Windows. Тя ви позволява да изберете информацията, която ще се говори на глас и този, който ще се появи на дисплея на Брайлова азбука. За потребители с нарушено зрение система за увеличаване на екрана на "Галилео".

Cobra Програма 9.1 също е по-лесно да се работи с Windows за слепи и слабовиждащи потребители. Тази програма може да подаде на дисплея информация от компютъра монитора с помощта на речта, брайлов дисплей и на екрана има функция за мащабиране.