Samodejno prepoznavanje govora. Kako uporabljati prepoznavanje glasu v poslu? Nezmožnost zatiranja zunanjega hrupa

Predstavljeno delo je obravnavalo predvsem podjetja iz Severne Amerike in Evrope. Azijski trg je v študiji slabo zastopan. A vse te podrobnosti bomo verjetno za zdaj pustili zase. Zelo zanimivo pa so opisani trendi in trenutne značilnosti panoge, kar je samo po sebi zelo zanimivo – še posebej, ker se lahko predstavi v različnih variacijah, ne da bi pri tem izgubili splošno bistvo. Naj vas ne dolgočasimo - morda bomo začeli opisovati najbolj zanimive trenutke, kam gre industrija prepoznavanja govora in kaj nas čaka v bližnji prihodnosti (2012 - 2016) - kot zagotavljajo raziskovalci.

Uvod

Sistemi za prepoznavanje glasu so računalniški sistemi, ki lahko določijo govorčev govor iz splošnega toka. Ta tehnologija je povezana s tehnologijo prepoznavanja govora, ki pretvarja izgovorjene besede v digitalne besedilne signale z izvajanjem postopka prepoznavanja govora na strojih. Obe tehnologiji se uporabljata vzporedno: na eni strani za identifikacijo glasu določenega uporabnika, na drugi strani pa za identifikacijo glasovnih ukazov s pomočjo prepoznavanja govora. Prepoznavanje glasu se uporablja za namene biometrične varnosti za prepoznavanje glasu določene osebe. Ta tehnologija je postala zelo priljubljena v mobilnem bančništvu, ki zahteva avtentikacijo uporabnikov in druge glasovne ukaze, ki jim pomagajo pri dokončanju transakcij.

Svetovni trg prepoznavanja govora je eden najhitreje rastočih trgov v glasovni industriji. Večina rasti na trgu prihaja iz Amerike, sledijo Evropa, Bližnji vzhod in Afrika (EMEA) ter Azija in Pacifik (APAC). Velik del rasti na trgu prihaja iz zdravstva, finančnih storitev in javnega sektorja. Vendar se pričakuje, da bodo drugi segmenti, kot so telekomunikacije in transport, v naslednjih nekaj letih občutno povečali rast. Tržna napoved se bo v obdobju 2012–2016 še povečala pri CAGR 22,07 odstotka. (kazalniki dinamike rasti sedanjih podjetij).

Gonila rasti trga

Rast svetovnega trga za prepoznavanje glasu je odvisna od več dejavnikov. Eden glavnih dejavnikov je povečanje povpraševanja po glasovnih biometričnih storitvah. Z naraščajočo kompleksnostjo in pogostnostjo kršitev varnosti je varnost še vedno glavna zahteva za podjetja in vladne organizacije. Veliko povpraševanje po glasovni biometriji, ki je edinstvena za vsakega posameznika, je ključnega pomena pri ugotavljanju identitete posameznika. Drugo ključno gonilo trga je povečana uporaba identifikacije govorca za forenzične namene.

Nekateri glavni dejavniki svetovnega trga prepoznavanja govora so:
Vse večje povpraševanje po glasovnih biometričnih storitvah
Večja uporaba identifikacije govorca za forenzične namene
Zahteva po prepoznavanju govora za vojaške namene
Veliko povpraševanje po prepoznavanju glasu v zdravstvu

Sprva je bila beseda "biometrija" le v medicinski teoriji. Vendar pa je potreba po varnosti z uporabo biometrične tehnologije med podjetji in vladne agencije. Uporaba biometričnih tehnologij je eden ključnih dejavnikov na svetovnem trgu prepoznavanja govora. Prepoznavanje glasu se uporablja za preverjanje pristnosti osebe, saj je glas vsake osebe edinstven. To bo zagotovilo visoko stopnjo natančnosti in varnosti. Prepoznavanje glasu ima velika vrednost v finančnih institucijah, kot so banke, pa tudi v zdravstvenih podjetjih. Trenutno predstavlja segment prepoznavanja govora 3,5 % deleža biometričnih tehnologij na svetovnem trgu, vendar ta delež nenehno narašča. Tudi nizki stroški biometričnih naprav povečujejo povpraševanje malih in srednje velikih podjetij.

Večja uporaba identifikacije govorca za forenzične namene

Uporaba tehnologije za identifikacijo govorcev v forenzične namene je ena glavnih gonilnih sil na svetovnem trgu prepoznavanja glasu. Pride do zapletenega postopka, da se ugotovi, ali se glas osebe, osumljene storitve kaznivega dejanja, ujema z glasom iz forenzičnih vzorcev. Ta tehnologija omogoča organom pregona, da identificirajo kriminalce z uporabo enega najbolj edinstvene lastnosti glasu osebe, s čimer ponuja razmeroma visoko stopnjo natančnosti. Forenzični izvedenci preizkušajo, ali se glas osumljenca ujema z vzorci, dokler ne najdejo krivca. IN v zadnjem času ta tehnologija se uporablja za pomoč pri reševanju nekaterih kazenskih primerov.

Zahteva po prepoznavanju govora za vojaške namene

Vojaški oddelki v večini držav uporabljajo izredno omejena območja, da vsiljivcem preprečijo vstop. Za zagotavljanje zasebnosti in varnosti na tem področju vojska uporablja sisteme za prepoznavanje glasu. Ti sistemi pomagajo vojaškim agencijam odkriti prisotnost nepooblaščenih vdorov v varovano območje. Sistem vsebuje podatkovno bazo glasov vojaškega osebja in državnih uradnikov, ki imajo dostop do varovanih območij. Te osebe prepozna sistem za prepoznavanje glasu in s tem prepreči sprejem oseb, katerih glasovi niso v podatkovni bazi sistema. Poleg tega ameriške zračne sile uporabljajo glasovne ukaze za nadzor letal. Poleg tega vojaški oddelki uporabljajo sisteme za prepoznavanje govora in pretvorbo glasu v besedilo za komunikacijo z državljani v drugih državah. Na primer, ameriška vojska aktivno uporablja sisteme za prepoznavanje govora v svojih operacijah v Iraku in Afganistanu. Zato obstaja veliko povpraševanje po prepoznavanju govora in glasu za vojaške namene.

Biometrične tehnologije, kot so vaskularno prepoznavanje, prepoznavanje glasu in skeniranje mrežnice, so v zdravstvenem sektorju široko uveljavljene. Pričakuje se, da bo prepoznavanje glasu postalo eden glavnih načinov identifikacije v zdravstvenih ustanovah. Številna zdravstvena podjetja v Združenih državah, ki upoštevajo standarde Zakona o prenosljivosti in odgovornosti zdravstvenega zavarovanja (HIPAA), uporabljajo tudi biometrične tehnologije, kot so prepoznavanje glasu, prepoznavanje prstnih odtisov za varnejšo in učinkovitejšo registracijo pacientov, zbiranje podatkov o pacientih in zaščito bolnikovega zdravstvenega stanja. zapisi. Institucije za klinično preskušanje izvajajo tudi prepoznavanje glasu za identifikacijo posameznikov, ki so zaposleni v kliničnih preskušanjih. Tako je glasovna biometrija eden od glavnih načinov identifikacije strank v zdravstveni industriji v azijsko-pacifiški regiji.

Zahteve trga



Vpliv štirih glavnih trendov in problemov na svetovni trg prepoznavnosti je prikazan na sliki

Ključ
Vpliv vprašanj in trendov se ocenjuje glede na intenzivnost in trajanje njihovega vpliva na trenutni trg. Klasifikacija velikosti udarca:
Nizek – majhen ali nič vpliva na trg
povprečje - srednja stopnja vpliv na trg
Zmerno visoka – pomemben vpliv na trg
Visok – zelo velik vpliv z radikalnim vplivom na rast trga

Kljub naraščajočim trendom se svetovni trg prepoznavanja glasu še naprej sooča z nekaterimi velikimi ozkimi grli pri rasti. Eden od pomembna vprašanja– težave pri dušenju hrupa iz okolice. Čeprav je trg prepoznavanja govora priča številnim tehnološkim napredkom, nezmožnost dušenja hrupa iz okolja še vedno ostaja ovira za sprejemanje aplikacij za prepoznavanje glasu. Drugi izziv za ta trg so visoki stroški aplikacij za prepoznavanje glasu.

Nekateri glavni izzivi, s katerimi se sooča svetovni trg prepoznavanja glasu, so:
Nezmožnost zatiranja zunanjega hrupa
Visoki stroški aplikacije za prepoznavanje glasu
Težave z natančnostjo prepoznavanja
Nizka stopnja varnosti pri preverjanju zvočnikov

Nezmožnost zatiranja zunanjega hrupa

Kljub tehnični napredek Na področju prepoznavanja glasu je hrup še vedno eden glavnih izzivov na svetovnem trgu prepoznavanja glasu. Poleg tega je glasovna biometrija še posebej občutljiva v primerjavi z drugimi vrstami biometrije. Prepoznavanje glasu, glasovna biometrija in aplikacije za prepoznavanje govora so se izkazale za zelo občutljive na hrup okolju. Posledično morebitne motnje hrupa ovirajo natančnost prepoznavanja. Moteni so tudi samodejni odzivi na glasovne ukaze. Nezmožnost dušenja hrupa iz okolice je edini dejavnik, ki preprečuje, da bi sistemi za prepoznavanje glasu dosegli odlične rezultate in zajeli visok odstotek svetovnega tržnega deleža biometrične tehnologije.

Visoki stroški aplikacij za prepoznavanje glasu

Eden glavnih problemov, ki ovirajo razvoj tehnologij za prepoznavanje govora, je potreba po velikih naložbah, potrebnih za razvoj in implementacijo. Obsežna uvedba tehnologije za prepoznavanje glasu v podjetju je delovno intenzivna in zahteva velike naložbe. Varčevanje s proračunom vodi do omejenega testiranja tehnologije, zato lahko vsaka napaka povzroči velike izgube v podjetju. Zato se alternative glasovnemu prepoznavanju, kot sta drsna kartica in tipkovnica, zaradi svoje stroškovne učinkovitosti še vedno aktivno uporabljajo v številnih podjetjih, zlasti med malimi in srednje velikimi podjetji. Tako aplikacije za prepoznavanje glasu zahtevajo velike finančne vložke, vključno s stroški sistema za integracijo, dodatno opremo in drugimi stroški.

Težave z natančnostjo prepoznavanja

Na svetovnem trgu prepoznavanja glasu je edina težava nizka natančnost prepoznavanja, kljub dejstvu, da so trenutno sistemi za prepoznavanje glasu sposobni prepoznati različne jezike in ugotoviti pristnost glasu. Ker sistem vključuje zapleten postopek povezovanja podatkovnih baz z govorjenimi ukazi in integrirano tehnologijo za prepoznavanje govora in glasovno preverjanje, lahko celo manjša napaka v katerem koli delu postopka povzroči nepravilen rezultat. Negotovost pri prepoznavanju govora je ena glavnih omejitev v aplikacijah za prepoznavanje glasu. Vendar pa so nekateri proizvajalci začeli razvijati sisteme z zelo nizko stopnjo napak pri prepoznavanju glasu. Razvili so sisteme z manj kot 4% netočnimi rezultati (na primer glasovne biometrične meritve napačno prepoznajo in zavrnejo glas osebe, ki ima dostop).

Nizka stopnja varnosti pri preverjanju zvočnikov

Visoka stopnja netočnosti pri preverjanju zvočnikov vodi v nizko raven varnosti. Trenutno imajo sistemi za prepoznavanje glasu visok odstotek netočnih rezultatov. Večja kot je stopnja napačnih odločitev, večja je verjetnost, da bo na primer nepooblaščena oseba dobila dovoljenje za vstop. Ker so sistemi za prepoznavanje glasu zelo občutljivi, zaznavajo vse, vključno s težavami z grlom, kašljem, prehladi, spremembami glasu zaradi bolezni, obstaja velika verjetnost, da bo tujec lahko dobil dostop do zaprtega prostora, vzrok za to je nizka raven varnost pri glasovnem prepoznavanju ljudi.

Tržni trendi

Učinek izzivov, s katerimi se sooča trg, naj bi izravnal prisotnost različnih trendov, ki se pojavljajo na trgu. Eden takih trendov je vse večje povpraševanje po prepoznavanju govora na mobilnih napravah. Proizvajalci na svetovnem trgu prepoznavanja glasu, ki se zavedajo ogromnega potenciala mobilnih naprav, razvijajo inovativne aplikacije, specifične za delo na mobilnih napravah. To je ena od prihodnosti gonilnih dejavnikov. Naraščajoče povpraševanje po glasovni avtentikaciji v mobilnem bančništvu je še en pozitiven trend na trgu prepoznavanja glasu.

Nekateri glavni trendi na svetovnem trgu prepoznavanja glasu so:
Naraščajoče povpraševanje po prepoznavanju govora na mobilnih napravah
Naraščajoče povpraševanje po storitvah glasovne avtentikacije za mobilno bančništvo
Integracija glasovnega preverjanja in prepoznavanja govora
Povečanje združitev in prevzemov

Naraščajoče povpraševanje po prepoznavanju govora na mobilnih napravah

Naraščajoče število pravil prometa, ki prepovedujejo uporabo mobilnih naprav med vožnjo, je povečalo povpraševanje po aplikacijah za prepoznavanje govora. Države, ki so uvedle stroge omejitve: Avstralija, Filipini, ZDA, Združeno kraljestvo, Indija in Čile. V ZDA več kot 13 držav dovoljuje prostoročno uporabo med vožnjo kljub uvedbi predpisov o mobilnih napravah. Posledično potrošniki vse pogosteje izbirajo mobilne naprave, opremljene z aplikacijami za prepoznavanje govora, ki jim lahko pomagajo pri dostopu do naprave, ne da bi jih naprava sama motila. Da bi zadostili naraščajočemu povpraševanju po aplikacijah za prepoznavanje govora v mobilnih napravah, so proizvajalci povečali število raziskovalnih in razvojnih dejavnosti, da bi razvili možnosti govornih ukazov za mobilne naprave. Kot rezultat, veliko število V mobilno napravo smo vključili aplikacije za prepoznavanje govora, na primer upravljanje seznama predvajanja glasbe, branje naslova, branje imena naročnika, glasovna sporočila SMS itd.

Potreba po povečanem preverjanju spodbuja univerzalno integracijo glasovne avtentikacije v mobilno bančništvo. V regijah, kot je npr Severna Amerika in Zahodna Evropa, veliko bančnih komitentov uporablja storitve telefonskega bančništva. Veliko število takšnih finančnih ustanov sprejema odločitve uporabnika o glasovnem preverjanju pristnosti, da sprejme ali zavrne mobilne transakcije. Poleg tega je omogočanje glasovne avtentikacije na mobilnih napravah stroškovno učinkovito in hkrati zagotavlja višjo raven varnosti. Tako bo trend vključevanja glasovne avtentikacije v mobilno bančništvo rasel še mnogo let. Institucije telefonskega bančništva dejansko sodelujejo s ponudniki rešitev za glasovno avtentikacijo in vključitvami glasovne biometrije, kar je ključna konkurenčna prednost.

Nekateri proizvajalci si prizadevajo za integracijo glasovnega preverjanja in tehnologije prepoznavanja govora. Namesto da bi proizvajalci ponudili glasovno preverjanje kot ločen izdelek, ponujajo integracijo glasovnega preverjanja in funkcije prepoznavanja govora. Glasovno preverjanje pomaga ugotoviti, kdo govori in hkrati katera oseba govori. Večina proizvajalcev je začela ali je v procesu lansiranja aplikacij za prepoznavanje govora, ki vključujejo integracijo obeh zgoraj opisanih tehnologij.

Povečanje združitev in prevzemov

Svetovni trg prepoznavanja glasu je priča pomembnim trendom združitev in prevzemov. Dominantno vodilno podjetje Nuance Communications Inc., ki ima več kot 50-odstotni tržni delež, je prevzelo veliko število majhnih podjetij na trgu prepoznavanja govora. Iz tega izhaja, da je pridobitev nov pristop rasti podjetja, zaradi česar je imel Nuance v letu 2007 šest prevzemov. Pričakuje se, da se bo ta trend nadaljeval v naslednjih nekaj letih zaradi prisotnosti številnih manjših igralcev, ki bi jih lahko kupila večja podjetja, kot je Nuance. Ker je trg tehnološko usmerjen, mala podjetja razvijajo inovativne rešitve. Toda zaradi pomanjkanja sredstev ta podjetja ne morejo povečati svojega poslovanja. torej velika podjetja, kot je Nuance, uporabljajo postopek prevzema kot primarno strategijo za vstop na nove trge in industrije. Nuance je na primer kupil Loquendo Inc. Za vstop v regijo EMEA.

Zaključek

Obstajata 2 veji razvoja sistemov za prepoznavanje govora (obseg trga od 1,09 $ do 2,42 milijarde $ od 2012 do 2016, stopnja rasti +22,07 %).
Pretvorba govora v besedilo (obseg trga od 860 milijonov USD (2012) do 1727 milijonov USD (2016) - skupni delež 79 %-71 % od 2012 do 2016)
Preverjanje in identifikacija človeškega glasu (obseg trga od 229 milijonov $ (2012) do 697 milijonov $ - skupni delež 21 % -28,8 % od 2012 do 2016)

V konkurenci se bodo bolj aktivno razvijala podjetja, ki obstajajo na meji teh dveh smeri – na eni strani izboljševanje natančnosti programov za prepoznavanje govora in njegovo prevajanje v besedilo, na drugi strani pa reševanje tega problema z identifikacijo govorca in preverjanje njegovega govora z uporabo dodatnega kanala (na primer videa) kot vira informacij.

Glede na študijo Technavio je glavna težava obstoječih programov za prepoznavanje govora njihova dovzetnost za dušenje hrupa iz okolice;
- Glavni trend je širjenje govornih tehnologij zaradi povečanja števila in kakovosti mobilnih naprav ter razvoja rešitev mobilnega bančništva;
- Velik napredek pri razvoju tehnologij za prepoznavanje govora na v tem trenutku igra vladne organizacije, vojaška sfera, medicina in finančni sektor. Vendar pa je bilo veliko povpraševanje po tovrstni tehnologiji v obliki mobilnih aplikacij in glasovnih navigacijskih nalog ter biometrije;
- Glavni trg sistemov za prepoznavanje govora je v ZDA, vendar najhitrejša in najbolj plačilno sposobna publika živi v državah jugovzhodne Azije, zlasti na Japonskem (zaradi popolne glasovne avtomatizacije klicnih centrov). Predvideva se, da naj bi se v tej regiji pojavil močan igralec, ki bo postal resna pomoč globalni moči Nuance Communications (trenutni delež na svetovnem trgu je 70%);
- Najpogostejša politika na trgu sistemov za prepoznavanje govora so združitve in prevzemi (M&A) - vodilna podjetja na trgu pogosto kupujejo majhne tehnološke laboratorije ali podjetja po vsem svetu, da ohranijo hegemonijo.
- Stroški aplikacij hitro padajo, natančnost narašča, filtriranje tujih šumov se izboljšuje, varnost narašča - pričakovani datum uvedbe ultra natančne tehnologije prepoznavanja govora je leto 2014.

Tako bo po napovedih Technavio v obdobju 2012-2016. Pričakuje se, da se bo trg sistemov za prepoznavanje govora povečal za več kot 2,5-krat. Velik delež na enem izmed najbolj dinamičnih in hitrih trgov IT-tehnologije bodo imeli igralci, ki bodo v svojem izdelku sposobni rešiti 2 problema hkrati: naučiti se natančno prepoznati govor in ga prevesti v besedilo ter znati prepoznati glas govorca in ga preverite iz splošnega toka. Veliko prednost v konkurenci lahko imenujemo damping (umetno znižanje stroškov takšnih tehnologij), ustvarjanje programov s prijaznim vmesnikom in hitrim postopkom prilagajanja - z visoke kakovosti delo. Pričakuje se, da se bodo v naslednjih 5 letih na trgu pojavili novi igralci, kar bo lahko postavilo pod vprašaj manj agilne velike korporacije, kot je Add tags.

15. julij 2009 ob 22.16

Prepoznavanje govora. Del 1. Klasifikacija sistemov za razpoznavanje govora

  • Umetna inteligenca
Epigraf
V Rusiji je področje sistemov za prepoznavanje govora res precej slabo razvito. Google že dolgo napoveduje sistem za snemanje in prepoznavanje telefonskih pogovorov ... Na žalost še nisem slišal za sisteme podobnega obsega in kakovosti prepoznave v ruščini.

A ne mislite, da so vsi v tujini že zdavnaj vse odkrili in jih mi nikoli ne bomo dohiteli. Ko sem iskal material za to serijo, sem moral kopati po oblaku tuje literature in diplomskih nalog. Poleg tega so bili ti članki in disertacije čudovitih ameriških znanstvenikov Huang Xuedong; Hisayoshi Kojima; DongSuk Yuk itd. Je jasno, kdo podpira to vejo ameriške znanosti? ;0)

V Rusiji poznam samo eno pametno podjetje, ki mu je uspelo spraviti domače sisteme za prepoznavanje govora na komercialno raven: Center za govorne tehnologije. Morda pa bo komu po tej seriji člankov prišlo na misel, da je mogoče in potrebno začeti razvijati takšne sisteme. Še več, v smislu algoritmov in mat. Za aparatom praktično nismo zaostajali.

Klasifikacija sistemov za razpoznavanje govora

Danes koncept "prepoznavanje govora" skriva celotno področje znanstvene in inženirske dejavnosti. Na splošno se vsaka naloga prepoznavanja govora skrči na ekstrahiranje, razvrščanje in ustrezno odzivanje na človeški govor iz vhodnega zvočnega toka. To je lahko izvajanje določenega dejanja na ukaz osebe ali izbira določene označevalne besede iz velikega niza telefonski pogovori in sistemi za glasovni vnos besedila.

Znaki klasifikacije sistemov za razpoznavanje govora
Vsak tak sistem ima določene naloge, ki jih je zasnovan, in nabor pristopov, ki se uporabljajo za reševanje problemov. Razmislimo o glavnih značilnostih, po katerih lahko razvrstimo sisteme za prepoznavanje človeškega govora in kako lahko ta lastnost vpliva na delovanje sistema.
  • Velikost slovarja. Očitno je, da večja kot je velikost slovarja, ki je vgrajen v sistem za prepoznavanje, večja je stopnja napak pri prepoznavanju besed s strani sistema. Na primer, 10-mestni slovar je mogoče prepoznati skoraj brez napake, medtem ko lahko stopnja napake pri prepoznavanju 100.000 besednega slovarja doseže 45 %. Po drugi strani pa lahko celo prepoznavanje majhnega slovarja povzroči veliko število napak pri prepoznavanju, če so si besede v tem slovarju med seboj zelo podobne.
  • Odvisnost od zvočnika ali neodvisnost od zvočnika sistema. Po definiciji je sistem, odvisen od zvočnika, zasnovan tako, da ga uporablja en sam uporabnik, medtem ko je sistem, neodvisen od zvočnika, zasnovan za delo s katerim koli zvočnikom. Neodvisnost govorca je težko dosegljiv cilj, saj se sistem pri urjenju prilagaja parametrom govorca, na čigar zgledu se uri. Stopnja napak pri prepoznavanju takšnih sistemov je običajno 3-5-krat višja od stopnje napak sistemov, odvisnih od zvočnikov.
  • Ločen ali neprekinjen govor.Če je v govoru vsaka beseda ločena od druge z delom tišine, potem pravijo, da je ta govor ločen. Neprekinjen govor so naravno izgovorjeni stavki. Prepoznavanje zveznega govora je veliko težje zaradi dejstva, da meje posameznih besed niso jasno določene in je njihova izgovorjava močno popačena zaradi zamegljenosti izgovorjenih glasov.
  • Namen. Namen sistema določa zahtevano raven abstrakcije, na kateri bo prišlo do prepoznavanja govorjenega govora. V ukaznem sistemu (na primer glasovno klicanje v mobilnem telefonu) se bo prepoznavanje besede ali fraze verjetno zgodilo kot prepoznavanje enega samega govornega elementa. Sistem za narekovanje besedila bo zahteval večjo natančnost prepoznavanja in se najverjetneje pri razlagi izgovorjene fraze ne bo zanašal le na to, kar je bilo izgovorjeno v trenutni trenutek, temveč tudi o tem, kako se nanaša na prej povedano. Prav tako mora imeti sistem vgrajen set slovnična pravila, ki jim mora zadostiti izgovorjeno in prepoznavno besedilo. Strožja kot so ta pravila, lažje je implementirati sistem za prepoznavanje in bolj omejen bo nabor stavkov, ki jih lahko prepozna.
Razlike med metodami prepoznavanja govora
Ko ustvarjate sistem za prepoznavanje govora, morate izbrati, katera raven abstrakcije je primerna za nalogo, kateri parametri zvočni val bo uporabljen za prepoznavanje in prepoznavanje teh parametrov. Poglejmo si glavne razlike v strukturi in procesu dela različne sisteme prepoznavanje govora.
  • Po vrsti strukturne enote. Pri analizi govora lahko za osnovno enoto izberemo posamezne besede ali dele izgovorjenih besed, kot so fonemi, di- ali trifoni in alofoni. Glede na izbrani strukturni del se spreminja struktura, vsestranskost in kompleksnost slovarja prepoznanih elementov.
  • S prepoznavanjem lastnosti. Samo zaporedje odčitkov tlaka zvočnega valovanja je pretirano redundantno za sisteme za prepoznavanje zvoka in vsebuje veliko nepotrebnih informacij, ki za prepoznavanje niso potrebne ali so celo škodljive. Tako je za predstavitev govornega signala potrebno iz njega izbrati nekaj parametrov, ki ustrezno predstavljajo ta signal za prepoznavanje.
  • Glede na mehanizem delovanja. IN sodobni sistemiŠiroko se uporabljajo različni pristopi k mehanizmu delovanja sistemov za prepoznavanje. Verjetnostni mrežni pristop je sestavljen iz dejstva, da je govorni signal razdeljen na določene dele (okvirje ali glede na fonetične značilnosti), po katerih pride do verjetnostne ocene, kateri element prepoznanega slovarja je ta del in (ali) celoten vhodni signal se nanaša na. Pristop, ki temelji na reševanju inverznega problema sinteze zvoka, je, da se narava gibanja artikulatorjev vokalnega trakta določi iz vhodnega signala in s posebnim slovarjem določijo izgovorjene foneme.

UPD: Premaknjeno v »Umetna inteligenca«. Če bo interes, bom tam še objavljal.

GOVORNE TEHNOLOGIJE IN SISTEMI STROJNEGA PREVAJANJA

Tuji računovodski sistemi na ruskem trgu

Med finančno in gospodarsko programsko opremo na ruskem trgu zahodni sistemi zavzemajo posebno mesto. Izkazujejo celosten pristop k finančnemu in poslovnemu upravljanju. Najbolj razširjeni programski sistemi za velika podjetja so: “Scala”, “Sun System”, “Platinum”, “SAP”, “Avalon”, “Triton”. Programski paket Scala se na primer uporablja za avtomatizacijo računovodstva v transnacionalnih korporacijah. "Sun System" - za vodenje konsolidiranih evidenc tujih podružnic. "Platinum" vam omogoča objavo več tisoč transakcij na minuto in lahko hkrati podpira do 200 uporabnikov.

Zahodni programski izdelki spadajo v razred kompleksnih računovodskih sistemov, v katerih se računovodstvo izvaja v realnem času. Zgrajeni so po modularnem principu. Glavni moduli takega sistema so:

1. Glavna knjiga in napredni generator poročil (Premier Leoger in Frx).

2. Bančna knjiga.

3. Stranke.

4. Dobavitelji.

5. Vnos naročila.

6. Poravnave s kupci (terjatve).

7. Skladišče (Inventar).

8. Plačila dobaviteljem (Naročilnica).

Sistem se konfigurira tako, da se nastavi povezava posameznega modula z drugimi, začenši z Glavno knjigo. Ta princip zasnove naredi sistem prilagodljiv in vam omogoča, da razširite njegove zmogljivosti brez večjih sprememb z dodajanjem drugih modulov, na primer: računovodstvo osnovnih sredstev, obračun plač, obračun stroškov proizvodnje itd.

Glavni razlog za širjenje Zahodni programi na ruskem trgu je bila priložnost za vodenje računovodstvo v mednarodnih standardih. Ruski paketi so bili prvotno ustvarjeni za ruski trg in niso bili namenjeni razširitvi svojih funkcij na zahodno računovodstvo. Odkar so njihovi dobavitelji vstopili na ruski trg v zgodnjih 90. letih, so se zahodni paketi lahko uspešno prilagodili zahtevam ruskega računovodstva. Večinoma so sposobni podpirati dve računovodski možnosti - zahodno in rusko, vendar so zelo okorni in jih je težko naučiti, pa tudi zelo dragi. Ruski proizvajalci tovrstnih sistemov so širši javnosti malo znani. Zdaj so najbolj znani domači kompleksi Galaktika (podjetje Galaktika)

Prvi poskusi izdelave računalnikov, ki bi lahko prepoznavali govor in govorili, so bili narejeni v poznih 60. letih. Toda šele leta 1979 so razvijalci te ideje dosegli svoj prvi in ​​zelo skromen uspeh: Texas Instruments je izdal mikrovezje za govoreče otroške igrače. Do leta 2003, vključno informacijske tehnologije razvila se je močna govorna smer, v kateri lahko na splošno ločimo dve skupini programski izdelki:



1. Prepoznavanje govora.

2. Sinteza govora.

Izdelki za prepoznavanje govora so razvrščeni v tri skupine:

· sredstva za nadzor govora;

· orodja za narekovanje;

· sredstva identifikacije z načinom govora.

Prvi je na trg prišel glasovni nadzor. Njihova osnovna ideja je, da računalnik prepozna človeške besede in izvede določena dejanja. Na začetku razvoja nadzora govora so se računalniki naučili prepoznavati besede za številke. Znanstveno raziskovanjeČe nadaljujemo v tej smeri, so danes računalniki sposobni prepoznati številke v 20 jezikih, pod pogojem, da uporabnik številke izgovori zaporedno. Samodejno sistemi pomoči Na podlagi tehnologije digitalnega prepoznavanja jih uporabljajo telefonska podjetja v Evropi in Severni Ameriki.

Prepoznavanje imen še ni razvito do te mere. Nortel za lastne potrebe uporablja tehnologijo Open Speech na osnovi interne telefonske centrale: uporabnik dvigne slušalko, pokliče določeno številko in izgovori želeno ime, računalnik pa s ponovitvijo imena in potrditvijo poveže uporabnika z naročnik. Sistem Open Speech ima slabosti: počasnost, težave pri iskanju naročnika pri izgovorjavi imena v pomanjševalnici itd.

Kompleksnejši sistem prepoznavanja, ki temelji na pretvorbi govora v zaporedje digitalnih podatkov, je razvilo podjetje Nuance Communications. Digitalni podatki se uporabljajo za pridobivanje informacij iz baze podatkov, mehanizem za sintezo govora pa ustvari govorni odgovor. Ta sistem uporablja ameriško podjetje Charles Schwab & Co., ki je specializirano za posredniške storitve za borzne udeležence. Po nekaterih poročilih sistem dnevno sprejme 50 tisoč klicev in zagotavlja 95-odstotno natančnost pri obdelavi 10 tisoč imen. Philips dela na tretji generaciji sistema za prepoznavanje govora. Sistem prve generacije je temeljil na digitalnem prepoznavanju in je zagotavljal jasno strukturo zahteve: geslo, identifikator, številka, ki označuje naravo zahteve. V takem sistemu so se informacije vnašale v govorni obliki ali s tipkami tonskega telefona. Izdelki druge generacije so temeljili na definiciji ključne besede. Sistem tretje generacije - Natural Dialogue System - temelji na ideji postopnega učenja iz velikega števila dialogov, med katerimi se ustvari delujoč besednjak in baza odnosov med besedami. Tovrsten sistem uporablja švicarska železniška družba Swiss Railways in pokriva 3,5 tisoč točk. V sistemu računalnik obdela tipične zahteve strank in poveže odhodno točko s ciljno točko. Nemška letalska družba Lufthansa, ki prav tako uporablja ta sistem, morebitnim strankam ponuja samodejni urnik svojih poletov, radijska postaja Radio Luxemburg pa vremensko napoved za turistične poti po svetu.

Enciklopedični YouTube

    1 / 5

    Uvod v prepoznavanje govora

    LANGMaster prepoznavanje govora

    Podnapisi

Zgodba

Prva naprava za prepoznavanje govora se je pojavila leta 1952, lahko je prepoznala številke, ki jih izgovori oseba. Leta 1962 na sejm računalniška tehnologija IBM Shoebox je bil predstavljen v New Yorku.

Komercialni programi za prepoznavanje govora so se pojavili v zgodnjih devetdesetih letih. Običajno jih uporabljajo ljudje, ki zaradi poškodbe roke ne morejo natipkati večje količine besedila. Ti programi (na primer Dragon NaturallySpeaking (angleščina) ruski,Glasovni navigator (angleščina) ruski) prevedejo uporabnikov glas v besedilo in mu tako razbremenijo roke. Prevajalska zanesljivost takih programov ni zelo visoka, vendar se je z leti postopoma izboljševala.

Povečanje računalniške moči mobilnih naprav je omogočilo ustvarjanje programov zanje s funkcijami prepoznavanja govora. Med takšnimi programi je treba omeniti aplikacijo Microsoft Voice Command, ki vam omogoča delo s številnimi aplikacijami z uporabo vašega glasu. V predvajalniku lahko na primer predvajate glasbo ali ustvarite nov dokument.

Uporaba prepoznavanja govora postaja vse bolj priljubljena na različnih področjih poslovanja, tako lahko na primer zdravnik v ambulanti izreče diagnoze, ki se takoj vnesejo v elektronski karton. Ali drug primer. Zagotovo je vsak vsaj enkrat v življenju sanjal, da bi s svojim glasom ugasnil luč ali odprl okno. V zadnjem času se avtomatski sistemi za prepoznavanje in sintezo govora vse bolj uporabljajo v interaktivnih telefonskih aplikacijah. V tem primeru komunikacija z glasovnim portalom postane bolj naravna, saj je v njem mogoče izbirati ne le s tonskim izbiranjem, temveč tudi z glasovnimi ukazi. Hkrati so sistemi za prepoznavanje neodvisni od zvočnikov, torej prepoznajo glas katere koli osebe.

Naslednji korak v tehnologijah za prepoznavanje govora lahko štejemo za razvoj tako imenovanih tihih govornih vmesnikov (SSI). Ti sistemi za obdelavo govora temeljijo na sprejemanju in obdelavi govornih signalov v zgodnji fazi artikulacije. To stopnjo v razvoju prepoznavanja govora povzročata dve bistveni pomanjkljivosti sodobnih sistemov za razpoznavanje: pretirana občutljivost na hrup ter potreba po jasnem in razločnem govoru pri dostopu do sistema za razpoznavanje. Pristop SSI je uporaba novih senzorjev, na katere hrup ne vpliva, kot dopolnilo k obdelanim akustičnim signalom.

Klasifikacija sistemov za razpoznavanje govora

Sistemi za prepoznavanje govora so razvrščeni:

  • po velikosti slovarja (omejen nabor besed, velik slovar);
  • odvisno od zvočnika (od zvočnika odvisen in od zvočnika neodvisen sistem);
  • po vrsti govora (zvezen ali ločen govor);
  • po namenu (diktacijski sistemi, ukazni sistemi);
  • glede na uporabljeni algoritem (nevronske mreže, skriti Markovljevi modeli, dinamično programiranje);
  • po vrsti strukturne enote (fraze, besede, fonemi, difoni, alofoni);
  • po principu prepoznavanja strukturnih enot (prepoznavanje po vzorcu, izbor leksikalnih prvin).

Pri avtomatskih sistemih za prepoznavanje govora je odpornost proti hrupu zagotovljena predvsem z uporabo dveh mehanizmov:

  • Uporaba več vzporednih delovnih metod za identifikacijo istih elementov govornega signala na podlagi analize akustičnega signala;
  • Vzporedna samostojna uporaba segmentnega (fonemskega) in celostnega zaznavanja besed v toku govora.

Metode in algoritmi za prepoznavanje govora

"... očitno je, da morajo algoritmi za obdelavo govornega signala v modelu zaznavanja govora uporabljati isti sistem konceptov in odnosov, kot jih uporablja oseba."

Danes so sistemi za prepoznavanje govora zgrajeni na principih prepoznavanja [ s strani koga?] obrazci za priznanje [neznan izraz ] . Metode in algoritme, ki so bili doslej uporabljeni, lahko razdelimo v naslednje velike razrede:

Razvrstitev metod za razpoznavanje govora na podlagi primerjave s standardom.

  • Dinamično programiranje - začasni dinamični algoritmi (Dynamic Time Warping).

Kontekstno občutljiva klasifikacija. Ko se izvaja, se iz toka govora izločijo posamezni leksikalni elementi - fonemi in alofoni, ki se nato združijo v zloge in morfeme.

  • Metode diskriminantne analize na osnovi Bayesove diskriminacije;
  • Skriti Markov model;
  • Nevronske mreže.

Arhitektura sistemov za razpoznavanje

Tipično [ ] arhitektura statistični sistemi avtomatska obdelava govora.

  • Modul za zmanjševanje šuma in ločevanje koristnega signala.
  • Akustični model - omogoča ovrednotenje prepoznave govornega segmenta glede na podobnost na ravni zvoka. Za vsak zvok je na začetku zgrajen zapleten statistični model, ki opisuje izgovorjavo tega zvoka v govoru.
  • Jezikovni model - omogoča določitev najverjetnejših besednih zaporedij. Kompleksnost gradnje jezikovnega modela je v veliki meri odvisna od specifičnega jezika. Da, za angleški jezik, je dovolj, da uporabimo statistične modele (ti N-grame). Za zelo pregibne jezike (jezike, v katerih obstaja veliko oblik iste besede), vključno z ruščino, jezikovni modeli, zgrajeni samo z uporabo statistike, ne dajejo več takšnega učinka - za zanesljivo oceno statističnih odnosov je potrebnih preveč podatkov med besedami. Zato se uporabljajo hibridni jezikovni modeli, ki uporabljajo pravila ruskega jezika, informacije o delu govora in besedni obliki ter klasični statistični model.
  • Dekoder je programska komponenta sistema za razpoznavanje, ki združuje podatke, pridobljene pri prepoznavanju iz akustičnih in jezikovnih modelov, ter na podlagi njihove kombinacije določi najverjetnejše zaporedje besed, ki je končni rezultat kontinuiranega prepoznavanja govora.
  1. Obdelava govora se začne z oceno kakovosti govornega signala. Na tej stopnji se določi stopnja motenj in popačenja.
  2. Rezultat ocene gre v modul za akustično prilagoditev, ki krmili modul za izračun govornih parametrov, potrebnih za prepoznavanje.
  3. V signalu so identificirana območja, ki vsebujejo govor, in ocenjeni so parametri govora. Fonetične in prozodične verjetnostne značilnosti so identificirane za sintaktično, semantično in pragmatično analizo. (Ocenite informacije o delu govora, besedni obliki in statističnih razmerjih med besedami.)
  4. Nato parametri govora vstopijo v glavni blok sistema za prepoznavanje - dekoder. To je komponenta, ki poveže vhodni govorni tok z informacijami, shranjenimi v akustičnih in jezikovnih modelih, ter določi najverjetnejše zaporedje besed, ki je končni rezultat prepoznave.

Znaki čustveno nabitega govora v sistemih za prepoznavanje

Spektralno-časovne značilnosti

Spektralne lastnosti:

  • Povprečna vrednost spektra analiziranega govornega signala;
  • Normalizirana povprečja spektra;
  • Relativni čas zadrževanja signala v pasovih spektra;
  • normaliziran čas zadrževanja signala v pasovih spektra;
  • Srednja vrednost govornega spektra v pasovih;
  • Relativna moč govornega spektra v pasovih;
  • Variacije ovojnic govornega spektra;
  • Normalizirane vrednosti variacije ovojnic govornega spektra;
  • Navzkrižni korelacijski koeficienti spektralnih ovojnic med spektralnimi pasovi.

Začasni znaki:

  • Trajanje odseka, fonemi;
  • Višina segmenta;
  • Faktor oblike segmenta.

Spektralno-časovne značilnosti označujejo govorni signal v njegovem fizičnem in matematičnem bistvu, ki temelji na prisotnosti treh vrst komponent:

  1. periodični (tonalni) odseki zvočnega valovanja;
  2. neperiodični odseki zvočnega valovanja (hrup, eksploziv);
  3. področja, ki ne vsebujejo govornih premorov.

Spektralno-časovne značilnosti omogočajo odraz izvirnosti oblike časovne serije in spektra glasovnih impulzov pri različnih posameznikih ter značilnosti filtrirnih funkcij njihovih glasovnih trakov. Označujejo značilnosti govornega toka, povezane z dinamiko prestrukturiranja govorčevih artikulacijskih organov govora, in so sestavne značilnosti govornega toka, ki odražajo izvirnost razmerja ali sinhronosti gibanja govorčevih artikulacijskih organov.

Cepstralni znaki

  • Mel-frekvenčni kepstralni koeficienti;
  • Koeficienti linearne napovedi, popravljeni za neenakomerno občutljivost človeškega ušesa;
  • faktorji moči snemalne frekvence;
  • Koeficienti spektra linearne napovedi;
  • Koeficienti kepstra linearne napovedi.

Večina sodobnih avtomatskih sistemov za prepoznavanje govora se osredotoča na ekstrakcijo frekvenčnega podpisa človeškega vokalnega trakta, medtem ko zavrže značilnosti vzbujalnega signala. To je razloženo z dejstvom, da koeficienti prvega modela zagotavljajo boljšo ločljivost zvoka. Za ločitev vzbujevalnega signala od signala vokalnega trakta se uporablja kepstralna analiza.

Amplitudno-frekvenčne značilnosti

  • Intenzivnost, amplituda
  • energija
  • Frekvenca tona (FFR)
  • Formantne frekvence
  • Jitter - frekvenčna modulacija tresenja osnovnega tona (parameter šuma);
  • Shimmer - amplitudna modulacija na glavnem tonu (parameter šuma);
  • Jedrna funkcija radialne baze
  • Nelinearni operator Tiger

Amplitudno-frekvenčne lastnosti omogočajo pridobitev ocen, katerih vrednosti se lahko razlikujejo glede na parametre diskretne Fourierjeve transformacije (vrsta in širina okna), pa tudi z rahlimi premiki okna po vzorcu. Govorni signal akustično predstavljajo zvočna nihanja kompleksne strukture, ki se širijo po zraku in so označena s frekvenco (število nihajev na sekundo), jakostjo (amplitudo nihanja) in trajanjem. Amplitudno-frekvenčne lastnosti prenašajo potrebne in zadostne informacije za osebo iz govornega signala z minimalnim časom zaznavanja. Toda uporaba teh funkcij ne omogoča, da bi jih v celoti uporabili kot orodje za prepoznavanje čustveno nabitega govora.

Znaki nelinearne dinamike

Za skupino znakov nelinearne dinamike se govorni signal obravnava kot skalarna količina opazimo v sistemu človeškega glasilnega trakta. Proces produkcije govora lahko obravnavamo kot nelinearnega in ga analiziramo z metodami nelinearne dinamike. Naloga nelinearne dinamike je najti in podrobno preučiti osnovne matematične modele in realne sisteme, ki izhajajo iz najbolj tipičnih predlogov lastnosti. posamezne elemente, komponente sistema in zakoni interakcije med njimi. Trenutno metode nelinearne dinamike temeljijo na temeljnih matematična teorija, ki temelji na Takensovem izreku (angleščina) ruski, ki zagotavlja strogo matematično osnovo za ideje nelinearne avtoregresije in dokazuje možnost obnovitve faznega portreta atraktorja iz časovne serije ali iz ene od njegovih koordinat. (Atraktor razumemo kot množico točk ali podprostora v faznem prostoru, ki se mu fazna trajektorija približa po razpadu prehodnih pojavov.) Ocene karakteristik signala iz rekonstruiranih govornih trajektorij se uporabljajo pri konstrukciji nelinearnih determinističnih modelov faznega prostora opazovane časovne vrste. Ugotovljene razlike v obliki atraktorjev lahko uporabimo za diagnostična pravila in znake, ki omogočajo prepoznavanje in pravilno identifikacijo različnih čustev v čustveno nabitem govornem signalu.

Možnosti kakovosti govora

Parametri kakovosti govora po digitalnih kanalih:

  • Razumljivost zlogovnega govora;
  • Frazna razumljivost govora;
  • Kakovost govora v primerjavi s kakovostjo govora referenčne poti;
  • Kakovost govora v realnih delovnih pogojih.

Osnovni pojmi

  • Razumljivost govora je relativno število pravilno sprejetih govornih elementov (zvokov, zlogov, besed, fraz), izraženo kot odstotek skupno število prenesenih elementov.
  • Kakovost govora je parameter, ki označuje subjektivno oceno zvoka govora v sistemu za prenos govora, ki se testira.
  • Normalna hitrost govora je govorjenje s hitrostjo, pri kateri je povprečno trajanje kontrolne fraze 2,4 s.
  • Pospešen govor - govorjenje s hitrostjo, pri kateri je povprečno trajanje kontrolne fraze 1,5-1,6 s.
  • Prepoznavnost govorčevega glasu je zmožnost poslušalcev, da identificirajo zvok glasu z določeno osebo, ki jo poslušalec že pozna.
  • Semantična razumljivost je pokazatelj stopnje pravilne reprodukcije informacijske vsebine govora.
  • Integralna kakovost je indikator, ki označuje poslušalčev splošni vtis o prejetem govoru.

Aplikacija

Glavna prednost govornih sistemov je bila razglašena za prijaznost do uporabnika. Namen govornih ukazov je bil odpraviti potrebo končnega uporabnika po uporabi dotika in drugih načinov vnosa ter ukazov.

  • Glasovni ukazi
  • Glasovni vnos besedila

Uspešni primeri uporabe tehnologije prepoznavanja govora v mobilnih aplikacijah so: glasovno vnašanje naslova v Yandex.Navigator, glasovno iskanje Google Now.

Poleg mobilnih naprav se tehnologija prepoznavanja govora pogosto uporablja na različnih področjih poslovanja:

  • Telefonija: avtomatizacija obdelave dohodnih in odhodnih klicev z ustvarjanjem samopostrežnih govornih sistemov, zlasti za: sprejemanje referenčne informacije in svetovanje, naročanje storitev/izdelkov, spreminjanje parametrov obstoječih storitev, izvajanje anket, vprašalnikov, zbiranje informacij, informiranje in morebitni drugi scenariji;
  • Rešitve Smart Home: glasovni vmesnik za upravljanje sistemov Smart Home;
  • Gospodinjski aparati in roboti: govorni vmesnik elektronskih robotov; glasovno upravljanje gospodinjskih aparatov itd.;
  • Namizni in prenosni računalniki: glasovni vnos v računalniških igrah in aplikacijah;
  • Avtomobili: glasovno upravljanje v notranjosti avtomobila - na primer navigacijski sistem;
  • Socialne storitve za invalide.

Glej tudi

  • Digitalna obdelava signala

Opombe

  1. Davies, K.H., Biddulph, R. in Balashek, S. (1952) Samodejno prepoznavanje govora izgovorjenih številk, J. Acoust. Soc. Am. 24 (6) str. 637-642
  2. Račun začasno ustavljen
  3. Sodobni problemi na področju razpoznavanja govora. 
  4. - Auditech.Ltd. Pridobljeno 3. marca 2013. Arhivirano 15. marca 2013.
  5. http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf
  6. http://booksshare.net/books/med/chistovich-la/1976/files/fizrech1976.djvu
  7. http://revistaie.ase.ro/content/46/s%20-%20furtuna.pdf
  8. http://www.ccas.ru/frc/papers/mestetskii04course.pdf
  9. Prepoznavanje govora| 
  10. Center za govorne tehnologije | 
  11. razvojni cilji tisočletja. Pridobljeno 20. aprila 2013. Arhivirano 28. aprila 2013.
  12. http://pawlin.ru/materials/neiro/sistemy_raspoznavaniya.pdf
  13. http://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf
  14. GOST R 51061-97. 

PARAMETRI KAKOVOSTI GOVORA. 

  • SISTEMI ZA PRENOS GOVORA NIZKE HITROSTI PO DIGITALNIH KANALIH. . Arhivirano iz izvirnika 30. aprila 2013.
  • Povezave Tehnologije za prepoznavanje govora, www.xakep.ru
  • I. A. Šalimov, M. A. Bessonov.
  • Analiza stanja in možnosti razvoja tehnologij za določanje jezika zvočnega sporočila.
  • Habrahabr

Tehnologija prepoznavanja govora Yandex SpeechKit od Yandex

Splošne definicije

Vadnica

V tem članku želim pogledati osnove tako zanimivega področja razvoja programske opreme, kot je prepoznavanje govora. Seveda nisem strokovnjak za to temo, zato bo moja zgodba polna netočnosti, napak in razočaranj. Vendar glavni cilj mojega »dela«, kot je razbrati iz naslova, ni strokovna analiza problema, temveč opis osnovnih pojmov, problemov in njihovih rešitev. Sploh pa prosim vse, ki jih to zanima, da pridejo na kat! Prolog Začnimo z dejstvom, da je naš govor zaporedje zvokov. Zvok pa je superpozicija (superpozicija) zvočnih vibracij (valov) različnih frekvenc. Valovanje, kot vemo iz fizike, odlikujeta dve lastnosti - amplituda in frekvenca.

Na ta način

mehanske vibracije

spremenijo v niz števil, primeren za obdelavo na sodobnih računalnikih.

Iz tega sledi, da se naloga prepoznavanja govora zmanjša na "primerjavo" niza številskih vrednosti (digitalni signal) in besed iz nekega slovarja (na primer ruskega jezika).

Ugotovimo, kako je dejansko mogoče izvesti to "primerjavo".

Vhodni podatki

Recimo, da imamo datoteko/tok z zvočnimi podatki. Najprej moramo razumeti, kako deluje in kako ga brati. Oglejmo si najpreprostejšo možnost - datoteko WAV.

Format pomeni prisotnost dveh blokov v datoteki. Prvi blok je glava z informacijami o zvočnem toku: bitna hitrost, frekvenca, število kanalov, dolžina datoteke itd. Drugi blok je sestavljen iz "surovih" podatkov - istega digitalnega signala, niza vrednosti amplitude.

Naš pristop mora biti odporen (no, vsaj malo) na spremembe v tembru glasu (osebe, ki besedo izgovarja), glasnosti in hitrosti izgovorjave. Seveda tega ni mogoče doseči s primerjavo dveh zvočnih signalov po elementih.

Zato bomo ubrali nekoliko drugačno pot.

Okvirji

Najprej razdelimo naše podatke na majhna časovna obdobja – okvire. Poleg tega okvirji ne smejo iti strogo drug za drugim, ampak se "prekrivati". Tisti. konec enega okvirja se mora sekati z začetkom drugega.

Okvirji so primernejša enota za analizo podatkov kot specifične vrednosti signala, saj je veliko bolj priročno analizirati valove v določenem intervalu kot na določenih točkah. "Prekrivajoča" razporeditev okvirjev vam omogoča, da izravnate rezultate analize okvirjev in spremenite idejo okvirjev v "okno", ki se premika vzdolž prvotne funkcije (vrednosti signala).

Eksperimentalno je bilo ugotovljeno, da mora optimalna dolžina okvirja ustrezati razmiku 10 ms, s "prekrivanjem" 50%. Glede na to, da je povprečna dolžina besede (vsaj v mojih poskusih) 500 ms, nam bo ta korak dal približno 500 / (10 * 0,5) = 100 sličic na besedo.

Razdelitev besed

Prva naloga, ki jo je treba rešiti pri prepoznavanju govora, je razdelitev prav tega govora na posamezne besede. Za poenostavitev predpostavimo, da v našem primeru govor vsebuje nekaj premorov (intervalov tišine), ki jih lahko štejemo za "ločevalce" besed.

V tem primeru moramo najti določeno vrednost, prag - vrednosti, nad katerimi je beseda, pod katero je tišina. Tukaj je lahko več možnosti:

  • nastavite kot konstanto (deluje, če je izvirni signal vedno generiran pod enakimi pogoji, na enak način);
  • vrednosti signala grozda z eksplicitno izbiro nabora vrednosti, ki ustrezajo tišini (to bo delovalo le, če tišina zavzema pomemben del prvotnega signala);
  • analizirati entropijo;

Kot ste že uganili, bomo zdaj govorili o zadnji točki :) Začnimo z dejstvom, da je entropija mera nereda, "mera negotovosti katere koli izkušnje" (c). V našem primeru entropija pomeni, koliko naš signal "niha" znotraj danega okvira.

  • Predpostavimo, da je naš signal normaliziran in so vse njegove vrednosti v območju [-1;1];
  • Zgradimo histogram (gostoto porazdelitve) vrednosti signala okvirja:
izračunajmo entropijo kot ;

In tako smo dobili entropijsko vrednost. Toda to je le še ena značilnost okvirja in da bi ločili zvok od tišine, ga moramo še vedno z nečim primerjati. Nekateri članki priporočajo, da je entropijski prag enak povprečju med največjo in najmanjšo vrednostjo (med vsemi okvirji). Vendar v mojem primeru ta pristop ni dal dobrih rezultatov.
Na srečo je entropija (v nasprotju z istim povprečnim kvadratom vrednosti) relativno neodvisna količina. Kar mi je omogočilo, da sem izbral vrednost njegovega praga v obliki konstante (0,1).

Kljub temu se težave ne končajo: (Entropija lahko sredi besede pade (na samoglasnikih) ali pa zaradi majhnega šuma nenadoma poskoči. Da bi rešili prvo težavo, moramo uvesti koncept "najmanjše razdalje med besedami" in "zlepi skupaj" bližnje sklope okvirjev, ločenih zaradi posedanja. Drugi problem je rešen z uporabo "najmanjše dolžine besede" in izrezovanjem vseh kandidatov, ki niso prestali izbora (in niso bili. uporabljeno v prvi točki).

Če govor načeloma ni "artikuliran", lahko poskusite prvotni niz okvirjev razdeliti na podzaporedja, pripravljena na določen način, od katerih bo vsaka podvržena postopku prepoznavanja. Ampak to je čisto druga zgodba :)

In tako imamo niz okvirjev, ki ustrezajo določeni besedi. Sledimo lahko poti najmanjšega odpora in uporabimo povprečni kvadrat vseh njegovih vrednosti (Root Mean Square) kot numerično karakteristiko okvira. Vendar pa takšna metrika vsebuje zelo malo informacij, primernih za nadaljnjo analizo.

Tu pridejo v poštev Mel-frekvenčni kepstralni koeficienti. Po Wikipediji (ki kot veste ne laže) je MFCC nekakšen prikaz energijskega spektra signala. Prednosti njegove uporabe so naslednje:

  • Uporabljen je spekter signala (to je bazna ekspanzija ortogonalnih [ko]sinusnih funkcij), ki omogoča upoštevanje valovne »narave« signala pri nadaljnji analizi;
  • Spekter je projiciran na posebno mel-skalo, kar vam omogoča, da poudarite najpomembnejše frekvence za človeško zaznavo;
  • Število izračunanih koeficientov je lahko omejeno na katero koli vrednost (na primer 12), kar vam omogoča "stisnjenje" okvirja in posledično količino obdelanih informacij;

Poglejmo si postopek izračuna koeficientov MFCC za določen okvir.

Predstavljajmo si naš okvir kot vektor, kjer je N velikost okvirja.

Razširitev v Fourierjev niz

Najprej izračunamo spekter signala z uporabo diskretne Fourierove transformacije (po možnosti njena »hitra« FFT implementacija).

To pomeni, da bo rezultat vektor naslednje oblike:

Pomembno je razumeti, da imamo po tej transformaciji vzdolž osi X frekvenco (hz) signala, vzdolž osi Y pa magnitudo (kot način, da se izognemo kompleksnim vrednostim):

Izračun mel filtrov

Začnimo s tem, kaj je mel. Tudi glede na Wikipedijo je mel "psihofizična enota tona", ki temelji na subjektivnem dojemanju povprečnih ljudi. Odvisno predvsem od frekvence zvoka (kot tudi glasnosti in tembra). Z drugimi besedami, ta vrednost kaže, koliko je zvok določene frekvence za nas »pomemben«.

Frekvenco lahko pretvorite v kredo z uporabo naslednje formule (zapomnite si jo kot »formulo-1«):

Inverzna transformacija izgleda tako (zapomnite si jo kot "formulo-2"):

mel/frekvenčni graf:

Toda vrnimo se k naši nalogi. Recimo, da imamo okvir iz 256 elementov. Vemo (iz podatkov zvočnega formata), da je zvočna frekvenca v tem okvirju 16000 Hz. Predpostavimo, da človeški govor leži v območju od hz. Nastavimo število zahtevanih malih koeficientov na M = 10 (priporočena vrednost).

Da bi zgoraj dobljeni spekter razgradili po mel lestvici, bomo morali ustvariti "glavnik" filtrov. V bistvu je vsak mel filter trikotna okenska funkcija, ki vam omogoča, da seštejete količino energije v določenem frekvenčnem območju in tako pridobite mel koeficient. Če poznamo število majhnih koeficientov in analizirano frekvenčno območje, lahko sestavimo nabor filtrov, kot je ta:

Upoštevajte, da višja kot je redna številka koeficienta krede, širša je osnova filtra. To je posledica dejstva, da se razdelitev frekvenčnega območja, ki nas zanima, na območja, ki jih obdelujejo filtri, zgodi na lestvici krede.

Toda spet smo se zamotili. In tako je za naš primer obseg frekvenc, ki nas zanimajo, enak . V skladu s formulo-1 se na skali s kredo to območje spremeni v .

m[i] =

Upoštevajte, da so pike na kredni lestvici enakomerno razporejene. Pretvorimo lestvico nazaj v herce z uporabo formule-2:

h[i] =

Kot lahko vidite, se je lestvica zdaj začela postopoma raztezati in s tem izravnati dinamiko rasti "pomena" pri nizkih in visokih frekvencah.

Zdaj moramo dobljeno lestvico prekriti s spektrom našega okvirja. Kot se spomnimo, vzdolž osi X imamo frekvenco. Dolžina spektra je 256 elementov, vanj pa se prilega 16000Hz. Ko rešite preprost delež, lahko dobite naslednjo formulo:

f(i) = tla((velikost okvirja+1) * h(i) / hitrost vzorčenja)

Kar je v našem primeru enakovredno

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

To je to! Vedeti referenčne točke na X-osi našega spektra je preprosto sestaviti filtre, ki jih potrebujemo, z uporabo naslednje formule:

Uporaba filtrov, logaritem energije spektra

Uporaba filtra je sestavljena iz parnega množenja njegovih vrednosti z vrednostmi spektra. Rezultat te operacije je mel koeficient. Ker imamo M filtrov, bo koeficientov enako.

Vendar pa moramo mel filtre uporabiti ne za vrednosti spektra, ampak za njegovo energijo. Nato vzemite logaritem rezultatov. Menijo, da to zmanjša občutljivost koeficientov na hrup.

Kosinusna transformacija

Za pridobitev teh "kepstralnih" koeficientov se uporablja diskretna kosinusna transformacija (DCT). Njegov pomen je "stisniti" dobljene rezultate, povečati pomen prvih koeficientov in zmanjšati pomen slednjih.

V tem primeru se DCTII uporablja brez množenja s (faktor lestvice).

Zdaj imamo za vsak okvir nabor koeficientov M mfcc, ki jih lahko uporabimo za nadaljnjo analizo.

Primere kode za zgornje metode lahko najdete.

Algoritem za prepoznavanje

Tukaj vas, dragi bralec, čaka glavno razočaranje. Na internetu sem videl veliko visoko inteligentnih (in manj zelo inteligentnih) debat o tem, katera metoda prepoznavanja je boljša. Nekateri ljudje zagovarjajo skrite Markovljeve modele, drugi zagovarjajo nevronske mreže, misli nekaterih ljudi pa je v bistvu nemogoče razumeti :)

Vsekakor ima SMM veliko preferenc in prav njihovo implementacijo bom dodal v svojo kodo... v prihodnosti :)

Trenutno predlagam, da se osredotočimo na veliko manj učinkovito, a veliko preprostejšo metodo.

In zato si zapomnimo, da je naša naloga prepoznati besedo iz določenega slovarja. Zaradi poenostavitve bomo prepoznali imena prvih desetih številk: "ena", "dva", "tri", "štiri", "pet", "šest", "sedem", "osem", "devet", “deset”.

Zdaj pa vzemimo iPhone/Android in pojdimo prek L kolegov s prošnjo, da narekujejo te besede za snemanje. Nato povežimo (v neki lokalni bazi podatkov ali preprosti datoteki) z vsako besedo L nizov koeficientov mfcc ustreznih zapisov.

To korespondenco bomo imenovali "Model", sam proces pa - strojno učenje! Pravzaprav ima preprosto dodajanje novih vzorcev v bazo izredno šibko povezavo s strojnim učenjem... Ampak izraz je preveč moderen :)

Zdaj se naša naloga zmanjša na izbiro "najbližjega" modela za določen niz koeficientov mfcc (prepoznana beseda). Na prvi pogled je težavo mogoče rešiti precej preprosto:

  • za vsak model najdemo povprečno (evklidsko) razdaljo med identificiranim vektorjem mfcc in vektorji modela;
  • kot pravilen model izberemo tisto povprečno razdaljo, do katere je najmanjša;

Vendar lahko isto besedo izgovori tako Andrej Malakhov kot nekateri njegovi estonski kolegi. Z drugimi besedami, velikost vektorja mfcc za isto besedo je lahko različna.

Na srečo je problem primerjave zaporedij različnih dolžin že rešen v obliki algoritma Dynamic Time Warping. Ta algoritem dinamičnega programiranja je odlično opisan tako v meščanski Wiki kot na pravoslavnem Habru.

Edina sprememba, ki jo je treba narediti, je način iskanja razdalje. Ne smemo pozabiti, da je mfcc vektor modela pravzaprav zaporedje mfcc "podvektorjev" dimenzije M, pridobljenih iz okvirjev. Torej mora algoritem DTW poiskati razdaljo med zaporedji teh istih "subvektorjev" dimenzije M. To pomeni, da je treba razdalje (evklidske) med mfcc "subvektorji" okvirjev uporabiti kot vrednosti matrike razdalje.

Poskusi

Nisem imel možnosti preveriti dela ta pristop na velikem "treningu" vzorcu. Rezultati testov na vzorcu 3 izvodov za vsako besedo v nesintetičnih pogojih so pokazali, milo rečeno, ne najboljši rezultat - 65% pravilnih prepoznav.

Moj cilj pa je bil ustvariti čim bolj preprosto aplikacijo za prepoznavanje govora. Tako rekoč "dokaz koncepta" :) Dodajte oznake