Автомат яриа таних. Бизнест дуу хоолой таних аргыг хэрхэн ашиглах вэ? Гадны дуу чимээг дарах чадваргүй

Үзүүлсэн бүтээлд голчлон Хойд Америк, Европын компаниудыг авч үзсэн. Судалгаанд Азийн зах зээл тааруухан харагдаж байна. Гэхдээ бид одоохондоо энэ бүх нарийн ширийн зүйлийг өөрсөддөө үлдээх байх. Гэсэн хэдий ч салбарын чиг хандлага, өнөөгийн шинж чанарыг маш сонирхолтойгоор дүрсэлсэн бөгөөд энэ нь өөрөө маш сонирхолтой юм - ялангуяа ерөнхий мөн чанарыг алдалгүйгээр янз бүрийн хувилбараар танилцуулж болно. Таныг уйдаахгүй байцгаая - магадгүй бид яриа таних салбар хаашаа явж байгаа болон ойрын ирээдүйд (2012 - 2016) биднийг юу хүлээж байгааг судлаачид баталж байгаа хамгийн сонирхолтой мөчүүдийг тайлбарлаж эхлэх байх.

Танилцуулга

Дуу таних систем нь ерөнхий урсгалаас яригчийн яриаг тодорхойлох боломжтой тооцоолох систем юм. Энэ технологи нь яриа таних технологитой холбоотой бөгөөд яриа таних процессыг машинууд дээр гүйцэтгэх замаар ярианы үгийг тоон текст дохио болгон хувиргадаг. Эдгээр хоёр технологийг зэрэгцүүлэн ашигладаг: нэг талаас тодорхой хэрэглэгчийн дуу хоолойг таних, нөгөө талаас яриа таних замаар дуут командыг тодорхойлох. Дуу таних нь биометрийн аюулгүй байдлын зорилгоор тодорхой хүний ​​дуу хоолойг таних зорилгоор ашиглагддаг. Энэхүү технологи нь мобайл банкинд маш их алдартай болсон бөгөөд энэ нь хэрэглэгчдийг баталгаажуулах, түүнчлэн гүйлгээг дуусгахад туслах бусад дуут командуудыг шаарддаг.

Дэлхийн яриа таних зах зээл нь дуу хоолойн салбарын хамгийн хурдацтай хөгжиж буй зах зээлийн нэг юм. Зах зээлийн өсөлтийн дийлэнх хувийг Америк тив, дараа нь Европ, Ойрхи Дорнод, Африк (EMEA), Ази Номхон далайн (APAC) эзэлж байна. Зах зээлийн өсөлтийн ихэнх нь эрүүл мэнд, санхүүгийн үйлчилгээ, төрийн салбараас бүрддэг. Гэсэн хэдий ч харилцаа холбоо, тээвэр зэрэг бусад сегментүүдийн өсөлт ойрын хэдэн жилд мэдэгдэхүйц нэмэгдэх төлөвтэй байна. 2012-2016 онд CAGR 22.07 хувиар өснө гэсэн зах зээлийн таамаглал. (одоогийн компаниудын өсөлтийн динамикийн үзүүлэлтүүд).

Зах зээлийн өсөлтийн хөшүүрэг

Дэлхийн дуу хоолой таних зах зээлийн өсөлт нь олон хүчин зүйлээс хамаардаг. Гол хүчин зүйлүүдийн нэг нь дуут биометрийн үйлчилгээний эрэлт нэмэгдэж байгаа явдал юм. Аюулгүй байдлын зөрчлийн нарийн төвөгтэй байдал, давтамж нэмэгдэж байгаа тул аюулгүй байдал нь бизнес эрхлэгчид төдийгүй төрийн байгууллагуудын хувьд гол шаардлага байсаар байна. Хүн бүрийн онцлог шинж чанартай дуу хоолойны биометрийн эрэлт өндөр байгаа нь тухайн хүний ​​мөн чанарыг тодорхойлоход чухал үүрэгтэй. Зах зээлийн өөр нэг гол хөдөлгөгч хүчин зүйл бол чанга яригчийг таних аргыг шүүх эмнэлгийн зорилгоор ашиглах явдал юм.

Яриа таних дэлхийн зах зээлийн гол хөдөлгөгч хүчний зарим нь:
Дуут биометрийн үйлчилгээний эрэлт нэмэгдэж байна
Шүүхийн шинжилгээний зорилгоор чанга яригчийг таних аргыг ашиглах нь нэмэгдсэн
Цэргийн зорилгоор яриа таних шаардлага
Эрүүл мэндийн салбарт дуу хоолойг таних эрэлт хэрэгцээ өндөр байна

Анх "биометр" гэдэг үгийг зөвхөн анагаах ухааны онолд л олдог байсан. Гэсэн хэдий ч аж ахуйн нэгжүүдийн дунд биометрийн технологийг ашиглан аюулгүй байдлын хэрэгцээ болон төрийн байгууллагууд. Биометрийн технологийг ашиглах нь дэлхийн яриа таних зах зээлийн гол хүчин зүйлүүдийн нэг юм. Хүн бүрийн дуу хоолой өвөрмөц байдаг тул дуу хоолой таних нь тухайн хүний ​​жинхэнэ эсэхийг шалгахад ашиглагддаг. Энэ нь өндөр нарийвчлал, аюулгүй байдлыг хангах болно. Дуу таних онцлогтой их үнэ цэнэбанк зэрэг санхүүгийн байгууллагууд, түүнчлэн эрүүл мэндийн байгууллагуудад. Одоогийн байдлаар яриа таних сегмент нь дэлхийн зах зээл дэх биометрийн технологийн 3.5 хувийг эзэлж байгаа боловч энэ хувь хэмжээ байнга өсч байна. Мөн биометрийн төхөөрөмжийн өртөг бага байгаа нь жижиг, дунд бизнес эрхлэгчдийн эрэлтийг нэмэгдүүлж байна.

Шүүхийн шинжилгээний зорилгоор чанга яригчийг таних аргыг ашиглах нь нэмэгдсэн

Чанга яригчийг таних технологийг шүүх эмнэлгийн зорилгоор ашиглах нь дэлхийн дуу хоолой таних зах зээлийн гол хөдөлгөгч хүчний нэг юм. Гэмт хэрэгт сэжиглэгдэж буй хүний ​​дуу хоолой нь шүүх эмнэлгийн дээжээс авсан дуу хоолойтой таарч байгаа эсэхийг тогтоох нарийн төвөгтэй процесс явагддаг. Энэхүү технологи нь хууль сахиулах байгууллагуудад гэмт хэрэгтнүүдийн аль нэгийг ашиглан илрүүлэх боломжийг олгодог өвөрмөц шинж чанаруудхүний ​​дуу хоолой, ингэснээр харьцангуй өндөр түвшний нарийвчлалыг санал болгодог. Шүүх эмнэлгийн шинжээчид сэжигтний дуу хоолой дээжтэй таарч байгаа эсэхийг гэмт хэрэгтэн олдох хүртэл шалгадаг. IN сүүлийн үедЭнэ технологийг зарим эрүүгийн хэргийг шийдвэрлэхэд ашигладаг.

Цэргийн зорилгоор яриа таних шаардлага

Ихэнх улс орны цэргийн албад халдагчдыг оруулахгүйн тулд маш хязгаарлагдмал газар ашигладаг. Энэ бүсэд нууцлал, аюулгүй байдлыг хангахын тулд цэргийнхэн дуу хоолой таних системийг ашигладаг. Эдгээр системүүд нь тусгай хамгаалалттай газар нутагт зөвшөөрөлгүй нэвтэрч байгааг илрүүлэхэд цэргийн агентлагуудад тусалдаг. Тус систем нь тусгай хамгаалалттай газар нутагт нэвтрэх эрхтэй цэргийн албан хаагчид болон төрийн албан хаагчдын саналын мэдээллийн санг агуулдаг. Эдгээр хүмүүсийг дуу хоолой таних системээр таньдаг бөгөөд ингэснээр системийн мэдээллийн санд дуу хоолой нь байхгүй хүмүүсийг оруулахаас сэргийлдэг. Үүнээс гадна АНУ-ын Агаарын цэргийн хүчин онгоцыг удирдахдаа дуут командыг ашигладаг. Үүнээс гадна цэргийн хэлтсүүд бусад орны иргэдтэй харилцахдаа яриа таних болон Voice-to-text системийг ашигладаг. Тухайлбал, АНУ-ын арми Ирак, Афганистан дахь үйл ажиллагаандаа яриа таних системийг идэвхтэй ашиглаж байна. Тиймээс цэргийн зориулалттай яриа, дуу хоолойг таних эрэлт хэрэгцээ өндөр байна.

Судас таних, дуу хоолой таних, торлог бүрхэвчийг сканнердах зэрэг биометрийн технологиуд эрүүл мэндийн салбарт өргөн хэрэглэгдэж байна. Дуу таних нь эрүүл мэндийн байгууллагуудын таних гол аргуудын нэг болох төлөвтэй байна. АНУ-ын эрүүл мэндийн олон компаниуд Эрүүл мэндийн даатгалын зөөвөрлөх чадвар, хариуцлагын тухай хуулийн (HIPAA) стандартыг дагаж мөрдөж, дуу таних, хурууны хээ таних зэрэг биометрийн технологийг ашиглан илүү найдвартай, үр дүнтэй өвчтөнийг бүртгэх, өвчтөний мэдээллийг хуримтлуулах, өвчтөний эрүүл мэндийг хамгаалах зорилгоор ашигладаг. бичлэгүүд. Эмнэлзүйн туршилтын байгууллагууд мөн эмнэлзүйн туршилтанд элсүүлсэн хүмүүсийг тодорхойлохын тулд дуу хоолой таних системийг хэрэгжүүлж байна. Тиймээс дуут биометр нь Ази, Номхон далайн бүсийн эрүүл мэндийн салбарын үйлчлүүлэгчийг таних гол горимуудын нэг юм.

Зах зээлийн шаардлага



Гол дөрвөн чиг хандлага, асуудлын дэлхийн зах зээлд үзүүлэх нөлөөг зурагт үзүүлэв

Түлхүүр
Асуудал, чиг хандлагын нөлөөллийг өнөөгийн зах зээлд үзүүлэх нөлөөллийн эрчим, үргэлжлэх хугацаанд үндэслэн үнэлдэг. Нөлөөллийн цар хүрээний ангилал:
Бага - зах зээлд бага эсвэл огт нөлөө үзүүлэхгүй
Дундаж - дунд түвшинзах зээлд үзүүлэх нөлөө
Дунд зэрэг өндөр - зах зээлд чухал нөлөө үзүүлдэг
Өндөр - зах зээлийн өсөлтөд эрс нөлөөлсөн маш өндөр нөлөө

Өсөн нэмэгдэж буй чиг хандлагыг үл харгалзан дуу хоолойг таних дэлхийн зах зээл өсөлтийн зарим томоохон саад бэрхшээлтэй тулгарсаар байна. Нэг чухал асуудлууд- орчны дуу чимээг дарахад хүндрэлтэй. Хэл яриа таних зах зээл нь хэд хэдэн технологийн дэвшлийн гэрч болсон ч орчны дуу чимээг дарах боломжгүй байгаа нь дуу хоолой таних програмуудыг хүлээн зөвшөөрөхөд саад болж байна. Энэ зах зээлд тулгарч буй өөр нэг бэрхшээл бол дуу хоолой таних програмуудын өндөр өртөг юм.

Дуу хоолой таних дэлхийн зах зээлд тулгарч буй томоохон сорилтуудын зарим нь:
Гадны дуу чимээг дарах чадваргүй
Өндөр өртөгтэйдуу хоолой таних програмууд
Таних нарийвчлалтай холбоотой асуудал
Чанга яригчийг баталгаажуулах аюулгүй байдлын түвшин бага

Гадаад дуу чимээг дарах чадваргүй

Гэсэн хэдий ч техникийн дэвшилДуу таних салбарт дуу чимээ нь дэлхийн дуу хоолой таних зах зээлд тулгамдаж буй томоохон сорилтуудын нэг хэвээр байна. Нэмж дурдахад дуу хоолойны биометр нь бусад төрлийн биометртэй харьцуулахад онцгой мэдрэмжтэй байдаг. Дуу таних, дуу хоолойны биометр, яриа таних программууд нь дуу чимээнд маш мэдрэмтгий байдаг. орчин. Үүний үр дүнд аливаа дуу чимээний эвдрэл нь таних нарийвчлалд саад болдог. Дуут командын автомат хариу үйлдэл мөн тасалдсан. Орчны дуу чимээг дарах чадваргүй байгаа нь дуу хоолой таних системийг гайхалтай үр дүнд хүрч, дэлхийн биометрийн технологийн зах зээлийн өндөр хувийг эзлэхэд саад болж байгаа цорын ганц хүчин зүйл юм.

Дуу таних програмуудын өндөр өртөг

Яриа таних технологийг хөгжүүлэхэд саад болж буй гол бэрхшээлүүдийн нэг нь хөгжүүлэх, хэрэгжүүлэхэд шаардагдах томоохон хөрөнгө оруулалт шаардлагатай байдаг. Дуу хоолой таних технологийг аж ахуйн нэгжид өргөн цар хүрээтэй нэвтрүүлэх нь хөдөлмөр их шаарддаг бөгөөд асар их хөрөнгө оруулалт шаарддаг. Төсөв хэмнэх нь технологийн туршилтыг хязгаарлахад хүргэдэг тул аливаа бүтэлгүйтэл нь аж ахуйн нэгжид их хэмжээний алдагдалд хүргэж болзошгүй юм. Иймд дууг таних өөр хувилбарууд болох шудар карт, товчлуур зэрэг нь зардал багатай учраас олон компани, ялангуяа жижиг дунд бизнес эрхлэгчдэд идэвхтэй ашиглагдаж байна. Тиймээс дуу хоолойг таних програмууд нь интеграцийн системийн зардал, нэмэлт тоног төхөөрөмж болон бусад зардал зэрэг томоохон санхүүгийн хөрөнгө оруулалт шаарддаг.

Таних нарийвчлалтай холбоотой асуудал

Дэлхийн дуу хоолой таних зах зээлд цорын ганц асуудал бол дуу хоолой таних системүүд нь дуу хоолойг таних чадвартай хэдий ч таних нарийвчлал бага байдаг. янз бүрийн хэлмөн дуу хоолойны жинхэнэ эсэхийг тодорхойлох. Уг систем нь ярианы командууд болон яриа таних, дуу хоолойг шалгах нэгдсэн технологитой мэдээллийн санг тохируулах нарийн төвөгтэй үйл явцыг хамардаг тул үйл явцын аль ч хэсэгт бага зэргийн алдаа гарсан ч буруу үр дүнд хүргэдэг. Яриа таних тодорхойгүй байдал нь дуу хоолой таних хэрэглээний гол хязгаарлалтуудын нэг юм. Гэсэн хэдий ч зарим үйлдвэрлэгчид дуу хоолойг танихад маш бага алдаатай системийг боловсруулж эхэлсэн. Тэд 4% -иас бага алдаатай үр дүн бүхий системийг боловсруулсан (жишээлбэл, дуут биометрийн хэмжилт нь нэвтрэх эрхтэй хүний ​​дуу хоолойг буруу тодорхойлж, үгүйсгэдэг).

Чанга яригчийг баталгаажуулах аюулгүй байдлын түвшин бага

Чанга яригчийг шалгах өндөр түвшний алдаа нь аюулгүй байдлын доод түвшинд хүргэдэг. Одоогийн байдлаар дуу хоолой таних системүүд буруу үр дүнгийн өндөр хувьтай байна. Буруу шийдвэр гаргах түвшин өндөр байх тусам, жишээлбэл, зөвшөөрөлгүй хүн нэвтрэх зөвшөөрөл авах магадлал өндөр болно. Дуу таних систем нь маш мэдрэмтгий байдаг тул хоолой өвдөх, ханиалгах, ханиад хүрэх, өвчний улмаас дуу хоолой өөрчлөгдөх зэрэг бүх зүйлийг хүлээн авдаг тул гадны хүн хаалттай газар нэвтрэх магадлал өндөр байдаг. энэ бол бага түвшиндуу хоолойд суурилсан хүний ​​таних аюулгүй байдал.

Зах зээлийн чиг хандлага

Зах зээлд тулгарч буй сорилтуудын үр нөлөө нь зах зээлд шинээр гарч ирж буй янз бүрийн чиг хандлагыг нөхөх төлөвтэй байна. Ийм чиг хандлагын нэг нь хөдөлгөөнт төхөөрөмж дээр яриа таних хэрэгцээ нэмэгдэж байгаа явдал юм. Хөдөлгөөнт төхөөрөмжийн асар их боломжийг хүлээн зөвшөөрч, дэлхийн дуу хоолой таних зах зээлд үйлдвэрлэгчид хөдөлгөөнт төхөөрөмж дээр ажиллахад зориулагдсан шинэлэг програмуудыг боловсруулж байна. Энэ бол ирээдүйн нэг юм хөдөлгөх хүчин зүйлүүд. Мобайл банкинд дуут баталгаажуулалтын эрэлт нэмэгдэж байгаа нь дуу хоолой таних зах зээлийн өөр нэг эерэг хандлага юм.

Дуу хоолой таних дэлхийн зах зээлийн гол чиг хандлагын зарим нь:
Хөдөлгөөнт төхөөрөмж дээр яриа таних эрэлт нэмэгдэж байна
Мобайл банкны дуут баталгаажуулалтын үйлчилгээний эрэлт нэмэгдэж байна
Дууг шалгах, яриа таних системийг нэгтгэх
Нэгдэх, худалдан авах үйл ажиллагаа нэмэгдэх

Хөдөлгөөнт төхөөрөмж дээр яриа таних эрэлт нэмэгдэж байна

Дүрмийн тоо нэмэгдэж байна замын хөдөлгөөн, жолоо барьж байхдаа хөдөлгөөнт төхөөрөмж ашиглахыг хориглосон нь яриа таних программуудын эрэлтийг нэмэгдүүлсэн. Хатуу хязгаарлалт тогтоосон улсууд: Австрали, Филиппин, АНУ, Их Британи, Энэтхэг, Чили. АНУ-ын 13 гаруй мужид хөдөлгөөнт төхөөрөмжийн зохицуулалтыг нэвтрүүлсэн ч жолоо барьж байхдаа гар чөлөөтэй зорчихыг зөвшөөрдөг. Тиймээс хэрэглэгчид яриа таних программуудаар тоноглогдсон хөдөлгөөнт төхөөрөмжүүдийг сонгох нь улам бүр нэмэгдсээр байгаа бөгөөд энэ нь төхөөрөмжид анхаарал сарниулахгүйгээр төхөөрөмж рүү нэвтрэхэд тусалдаг. Хөдөлгөөнт төхөөрөмж дэх яриа таних програмуудын өсөн нэмэгдэж буй эрэлт хэрэгцээг хангахын тулд үйлдвэрлэгчид гар утасны төхөөрөмжид ярианы командын хувилбаруудыг боловсруулахын тулд судалгаа, хөгжүүлэлтийн үйл ажиллагааны тоог нэмэгдүүлсэн. Үүний үр дүнд их тооХөдөлгөөнт төхөөрөмжид яриа таних програмуудыг оруулсан болно, жишээлбэл, хөгжмийн тоглуулах жагсаалтыг удирдах, хаяг унших, захиалагчийн нэрийг унших, дуут SMS мессеж гэх мэт.

Баталгаажуулалтыг нэмэгдүүлэх хэрэгцээ нь мобайл банкинд дуут нэвтрэлт танилтыг бүх нийтээр нэгтгэхэд түлхэц өгч байна. зэрэг бүс нутагт Хойд АмерикТэгээд Баруун Европ, олон тооны банкны үйлчлүүлэгчид утасны банкны хэрэгслийг ашигладаг. Олон тооны ийм санхүүгийн байгууллагууд гар утасны гүйлгээг хүлээн авах эсвэл татгалзах хэрэглэгчийн дуут баталгаажуулалтын шийдвэрийг хүлээн авдаг. Нэмж дурдахад, хөдөлгөөнт төхөөрөмж дээр дуут нэвтрэлт танилтыг идэвхжүүлэх нь зардал багатай бөгөөд үүний зэрэгцээ аюулгүй байдлын өндөр түвшинг хангадаг. Тиймээс мобайл банкны дуут баталгаажуулалтыг нэгтгэх хандлага олон жилийн турш өсөх болно. Үнэн хэрэгтээ утасны банкны байгууллагууд дуут таних шийдлийн үйлчилгээ үзүүлэгч болон дуут биометрийн корпорациудтай хамтран ажилладаг нь өрсөлдөөний гол давуу тал юм.

Зарим үйлдвэрлэгчид дуу хоолой шалгах, яриа таних технологийг нэгтгэхээр ажиллаж байна. Дуут баталгаажуулалтыг тусдаа бүтээгдэхүүн болгон санал болгохын оронд үйлдвэрлэгчид дуут баталгаажуулалт болон яриа таних функцийг нэгтгэхийг санал болгож байна. Дуу хоолойгоор баталгаажуулах нь хэн ярьж байгааг, тэр үед аль хүн ярьж байгааг тодорхойлоход тусалдаг. Ихэнх үйлдвэрлэгчид дээр дурдсан хоёр технологийг нэгтгэсэн яриа таних програмуудыг эхлүүлсэн эсвэл эхлүүлэх шатандаа явж байна.

Нэгдэх, худалдан авах үйл ажиллагаа нэмэгдэх

Дэлхийн дуу хоолойг таних зах зээл нь нэгдэх, худалдан авах томоохон чиг хандлагыг гэрчилж байна. Зах зээлийн 50 гаруй хувийг эзэмшдэг зах зээлд тэргүүлэгч Nuance Communications Inc. нь яриа таних зах зээлд олон тооны жижиг компаниудыг худалдаж авсан. Үүнээс үзэхэд худалдан авалт гэдэг шинэ хандлагакомпанийн өсөлтөд хүргэсэн бөгөөд үүний үр дүнд Nuance 2007 онд зургаан удаа худалдан авалт хийсэн. Nuance гэх мэт томоохон компаниуд худалдаж авах боломжтой олон жижиг тоглогчид байгаа тул ойрын хэдэн жилд энэ хандлага үргэлжлэх төлөвтэй байна. Зах зээл нь технологид суурилсан тул жижиг компаниуд шинэлэг шийдлүүдийг боловсруулж байна. Гэвч нөөц бололцоо хомс учраас эдгээр компаниуд бизнесээ өргөжүүлж чадахгүй байна. Тиймээс, томоохон компаниуд, тухайлбал Nuance компани худалдан авах үйл явцыг шинэ зах зээл, үйлдвэрүүдэд нэвтрэх үндсэн стратеги болгон ашигладаг. Жишээлбэл, Nuance компани Loquendo Inc. EMEA бүсэд нэвтрэх.

Дүгнэлт

Яриа таних системийг хөгжүүлэх 2 салбар байдаг (зах зээлийн хэмжээ 2012-2016 онд 1.09-2.42 тэрбум доллар, өсөлтийн хурд +22.07%)
Яриа текст рүү хөрвүүлэх (зах зээлийн хэмжээ 860 сая доллараас (2012) 1727 сая доллар хүртэл (2016) - нийт эзлэх хувь 2012-2016 онуудад 79%-71%)
Хүний дуу хоолойг баталгаажуулах, таних (зах зээлийн хэмжээ 229 сая доллараас (2012) 697 сая доллар хүртэл - 2012-2016 онд нийт эзлэх хувь 21% -28.8%)

Тэмцээнд эдгээр хоёр чиглэлийн зааг дээр байгаа компаниуд илүү идэвхтэй хөгжих болно - нэг талаас яриа таних программын нарийвчлалыг сайжруулж, текст болгон хөрвүүлэх, нөгөө талаас илтгэгчийг тодорхойлох замаар энэ асуудлыг шийдэж, түүний яриаг баталгаажуулах, мэдээллийн эх сурвалж болгон нэмэлт суваг (жишээлбэл видео) ашиглах.

Technavio-ийн судалгаагаар одоо байгаа яриа таних хөтөлбөрүүдийн гол асуудал бол орчны дуу чимээг дарах чадвар юм;
- Гол чиг хандлага нь гар утасны төхөөрөмжийн тоо, чанар нэмэгдэж, мобайл банкны шийдлүүдийг хөгжүүлснээр ярианы технологи тархах явдал юм;
- Яриа таних технологийг хөгжүүлэхэд томоохон ахиц дэвшил гарсан одоогоортоглодог төрийн байгууллагууд, цэргийн салбар, анагаах ухаан, санхүүгийн салбар. Гэсэн хэдий ч гар утасны програм, дуут навигацийн даалгавар, түүнчлэн биометрийн хэлбэрээр ийм төрлийн технологид эрэлт хэрэгцээ их байсан;
- Яриа таних системийн гол зах зээл нь АНУ-д байдаг боловч хамгийн хурдан бөгөөд төлбөрийн чадвартай үзэгчид Зүүн өмнөд Азийн орнуудад, ялангуяа Японд амьдардаг (дуудлагын төвүүдийн дуут автоматжуулалтын ачаар). Энэ бүс нутагт хүчирхэг тоглогч гарч ирэх ёстой гэж үздэг бөгөөд энэ нь Nuance Communications-ийн дэлхийн хүч чадалд ноцтой тус болно (дэлхийн зах зээлийн одоогийн эзлэх хувь 70%);
- Яриа таних системийн зах зээлийн хамгийн түгээмэл бодлого бол нэгдэх ба худалдан авалт (M&A) юм - зах зээлд тэргүүлэгч компаниуд ноёрхлоо хадгалахын тулд дэлхийн өнцөг булан бүрээс жижиг технологийн лаборатори эсвэл пүүс худалдаж авдаг.
- Хэрэглээний өртөг хурдацтай буурч, нарийвчлал нэмэгдэж, гадны дуу чимээг шүүх сайжирч, аюулгүй байдал нэмэгдэж байна - Хэт нарийн яриа таних технологийг хэрэгжүүлэх хүлээгдэж буй хугацаа нь 2014 он.

Тиймээс Technavio-ийн урьдчилсан мэдээгээр 2012-2016 онуудад. Яриа таних системийн зах зээл 2.5 дахин өсөх төлөвтэй байна. Мэдээллийн технологийн хамгийн динамик, хурдацтай зах зээлийн томоохон хувийг бүтээгдэхүүндээ 2 асуудлыг нэгэн зэрэг шийдвэрлэх чадвартай тоглогчид олгох болно: яриаг зөв таньж сурах, текст болгон хөрвүүлэх, мөн үүнийг тодорхойлох чадвартай. чанга яригчийн дуу хоолойг сайн, ерөнхий урсгалаас шалгана уу. Өрсөлдөөн дэх том давуу талыг демпинг гэж нэрлэж болно (ийм технологийн өртөгийг зохиомлоор бууруулах), найрсаг интерфейстэй програмуудыг бий болгох, хурдан дасан зохицох үйл явц. өндөр чанартайажил. Ирэх 5 жилийн хугацаанд зах зээлд шинэ тоглогчид гарч ирэх төлөвтэй байгаа нь Add tags гэх мэт уян хатан бус томоохон корпорациудад эргэлзээ төрүүлж магадгүй юм.

2009 оны 7-р сарын 15-ны 22:16 цагт

Яриа таних. Хэсэг 1. Яриа таних системийн ангилал

  • Хиймэл оюун ухаан
Эпиграф
Орос улсад яриа таних системийн салбар үнэхээр муу хөгжсөн байдаг. Google компани утасны яриаг бүртгэх, таних системийг зарлаад удаж байна... Харамсалтай нь Орос хэл дээр ижил төстэй цар хүрээтэй, чанартай таних системийн талаар би хараахан сонсоогүй байна.

Гэхдээ гадаадад байгаа бүх хүмүүс аль хэдийн бүх зүйлийг аль хэдийн олж мэдсэн бөгөөд бид тэднийг хэзээ ч гүйцэхгүй гэж та бодож болохгүй. Энэ цувралын материал хайж байхдаа би гадаадын уран зохиол, диссертацийн үүлсийг ухах хэрэгтэй болсон. Түүгээр ч барахгүй эдгээр нийтлэл, диссертацууд нь Америкийн гайхалтай эрдэмтдийн бүтээл байв Хуан Шюэдун; Хисаёши Кожима; DongSuk Yukгэх мэт Америкийн шинжлэх ухааны энэ салбарыг хэн дэмжиж байгаа нь тодорхой байна уу? ;0)

Орос улсад би дотоодын яриа таних системийг арилжааны түвшинд хүргэж чадсан цорын ганц ухаалаг компанийг мэднэ: Ярианы технологийн төв. Гэхдээ магадгүй энэ цуврал нийтлэлийн дараа хэн нэгэнд ийм системийг боловсруулж эхлэх боломжтой бөгөөд шаардлагатай гэж бодох болно. Түүгээр ч барахгүй алгоритм, дэвсгэрийн хувьд. Бид төхөөрөмжөөс бараг хоцроогүй.

Яриа таних системийн ангилал

Өнөөдөр "яриа таних" гэсэн ойлголт нь шинжлэх ухаан, инженерийн үйл ажиллагааны бүхэл бүтэн хэсгийг нууж байна. Ерөнхийдөө яриа таних ажил бүр нь оролтын аудио урсгалаас хүний ​​яриаг ялган авах, ангилах, зохих хариу үйлдэл үзүүлэхэд хүргэдэг. Энэ нь тухайн хүний ​​тушаалаар тодорхой үйлдлийг гүйцэтгэх эсвэл том массиваас тодорхой тэмдэглэгээний үгийг сонгох байж болно. утасны яриа, болон дуут текст оруулах системүүд.

Яриа таних системийг ангилах шинж тэмдэг
Ийм систем бүр нь шийдвэрлэхэд зориулагдсан тодорхой даалгавар, асуудлыг шийдвэрлэхэд ашигладаг арга барилтай байдаг. Хүний яриа таних системийг ямар үндсэн шинж чанаруудаар нь ангилж болох, энэ шинж чанар нь системийн үйл ажиллагаанд хэрхэн нөлөөлж болохыг авч үзье.
  • Толь бичгийн хэмжээ.Таних системд суулгасан толь бичгийн хэмжээ том байх тусам системээр үгсийг танихад алдаа гарах нь ойлгомжтой. Жишээлбэл, 10 оронтой толь бичгийг алдаагүй шахам таних боломжтой бол 100,000 үгтэй толь бичгийг танихад алдааны түвшин 45% хүрдэг. Нөгөөтэйгүүр, жижиг толь бичгийг танихад ч энэ толь бичигт байгаа үгс хоорондоо маш төстэй байвал таних олон тооны алдаа гаргадаг.
  • Илтгэгчээс хамаарал эсвэл системийн чанга яригчаас хараат бус байдал.Тодорхойлолтоор бол чанга яригчаас хамааралтай систем нь нэг хэрэглэгч ашиглахад зориулагдсан байдаг бол чанга яригчаас хамааралгүй систем нь ямар ч чанга яригчтай ажиллахад зориулагдсан байдаг. Илтгэгчийн бие даасан байдал нь системийг сургахдаа хэний жишээн дээр сургагдаж байгаа илтгэгчийн параметрт тохируулдаг тул хүрэхэд хэцүү зорилго юм. Ийм системүүдийн таних алдааны түвшин ихэвчлэн чанга яригчаас хамааралтай системийн алдааны түвшингээс 3-5 дахин их байдаг.
  • Тусдаа буюу тасралтгүй яриа.Хэрэв үг хэллэгт үг бүрийг нөгөөгөөсөө чимээгүй байдлын хэсгээс тусгаарласан бол энэ яриа тусдаа гэж хэлдэг. Тасралтгүй яриа гэдэг нь байгалиасаа ярьдаг өгүүлбэрүүд юм. Үргэлжилсэн яриаг таних нь бие даасан үгсийн хил хязгаарыг тодорхой заагаагүй, ярианы дуу чимээ бүдгэрч, дуудлага их хэмжээгээр гаждаг тул илүү хэцүү байдаг.
  • Зорилго.Системийн зорилго нь ярианы яриа танигдах үед хийсвэрлэх шаардлагатай түвшинг тодорхойлдог. Командын системд (жишээлбэл, гар утсанд дуут залгах) үг эсвэл хэллэгийг таних нь ярианы нэг элементийг танихтай адил тохиолддог. Текстийн диктант систем нь танихын тулд илүү нарийвчлалтай байх шаардлагатай бөгөөд ярианы хэллэгийг тайлбарлахдаа зөвхөн ярьсан зүйлд тулгуурлахгүй байх магадлалтай. одоогийн мөч, гэхдээ энэ нь өмнө нь хэлсэн зүйлтэй хэрхэн холбогдож байгаа талаар. Мөн систем нь суурилуулсан багцтай байх ёстой дүрмийн дүрэм, үүнийг хэлэх, таних текст нь хангах ёстой. Эдгээр дүрмүүд хэдий чинээ хатуу байна, таних системийг хэрэгжүүлэх нь төдий чинээ хялбар бөгөөд таних боломжтой өгүүлбэрийн багц хязгаарлагдмал байх болно.
Яриа таних аргуудын ялгаа
Яриа таних системийг бий болгохдоо тухайн даалгаварт ямар түвшний хийсвэрлэл, ямар параметрүүд тохирохыг сонгох хэрэгтэй. дууны долгионЭдгээр параметрүүдийг таних, танихад ашиглах болно. Ажлын бүтэц, үйл явцын үндсэн ялгааг авч үзье янз бүрийн системүүдяриа таних.
  • Бүтцийн нэгжийн төрлөөр.Хэл ярианд дүн шинжилгээ хийхдээ фонем, ди- эсвэл трифон, аллофон гэх мэт бие даасан үг эсвэл ярианы хэсгүүдийг үндсэн нэгж болгон сонгож болно. Аль бүтцийн хэсгийг сонгохоос хамааран хүлээн зөвшөөрөгдсөн элементүүдийн толь бичгийн бүтэц, олон талт байдал, нарийн төвөгтэй байдал өөрчлөгддөг.
  • Онцлогуудыг тодорхойлох замаар.Дууны долгионы даралтын уншилтын дараалал нь өөрөө дуу чимээ таних системд хэт их хэрэгцээтэй бөгөөд танихад шаардлагагүй, бүр хор хөнөөлтэй олон шаардлагагүй мэдээллийг агуулдаг. Тиймээс ярианы дохиог илэрхийлэхийн тулд танихын тулд энэ дохиог хангалттай илэрхийлэх зарим параметрүүдийг сонгох шаардлагатай.
  • Үйл ажиллагааны механизмын дагуу. IN орчин үеийн системүүдТаних системийн үйл ажиллагааны механизмд янз бүрийн хандлагыг өргөн ашигладаг. Магадлалын сүлжээний хандлага нь ярианы дохиог тодорхой хэсгүүдэд (хүрээнүүд эсвэл дуудлагын шинж чанарын дагуу) хуваасан бөгөөд үүний дараа хүлээн зөвшөөрөгдсөн толь бичгийн аль элементийн энэ хэсэг ба (эсвэл) оролтын дохиог бүхэлд нь магадлалын үнэлгээ хийх явдал юм. -тай холбоотой. Дууны синтезийн урвуу асуудлыг шийдвэрлэхэд үндэслэсэн арга нь дууны замын артикуляторуудын хөдөлгөөний мөн чанарыг оролтын дохионоос тодорхойлж, тусгай толь бичиг ашиглан дуудагдсан фонемыг тодорхойлох явдал юм.

UPD:"Хиймэл оюун ухаан" руу шилжсэн. Хэрэв сонирхол байвал тэнд үргэлжлүүлэн нийтлэх болно.

ЯРИАНЫ ТЕХНОЛОГИ, МАШИН ОРЧУУЛАХ СИСТЕМ

Оросын зах зээл дээрх гадаадын нягтлан бодох бүртгэлийн систем

Оросын зах зээл дээрх санхүү, эдийн засгийн програм хангамжийн дунд барууны системүүд онцгой байр суурь эзэлдэг. Тэд санхүүгийн болон бизнесийн удирдлагын нэгдсэн арга барилыг харуулдаг. Томоохон бизнесүүдэд зориулсан хамгийн өргөн батлагдсан програм хангамжийн системүүд нь: "Scala", "Sun System", "Platinum", "SAP", "Avalon", "Triton" юм. Жишээлбэл, Scala програм хангамжийн багцыг үндэстэн дамнасан корпорациудад нягтлан бодох бүртгэлийг автоматжуулахад ашигладаг. "Нарны систем" - гадаад салбаруудын нэгдсэн бүртгэл хөтлөхөд зориулагдсан. "Платинум" нь минутанд хэдэн мянган гүйлгээг нийтлэх боломжийг олгодог бөгөөд нэгэн зэрэг 200 хүртэлх хэрэглэгчийг дэмжих боломжтой.

Барууны програм хангамжийн бүтээгдэхүүнүүд нь нягтлан бодох бүртгэлийг бодит цаг хугацаанд явуулдаг нягтлан бодох бүртгэлийн нарийн төвөгтэй системийн ангилалд багтдаг. Тэдгээр нь модульчлагдсан зарчмаар бүтээгдсэн. Ийм системийн үндсэн модулиуд нь:

1. Ерөнхий дэвтэрболон дэвшилтэт тайлан үүсгэгч (Premier Leoger болон Frx).

2. Банкны дэвтэр.

3. Үйлчлүүлэгчид.

4. Нийлүүлэгчид.

5. Захиалгын бүртгэл.

6. Үйлчлүүлэгчидтэй хийсэн тооцоо (Авлагын данс).

7. Агуулах (Бараа материал).

8. Нийлүүлэгчид төлөх төлбөр (худалдан авах захиалга).

Ерөнхий дэвтэрээс эхлээд модуль бүрийг бусадтай холбох замаар системийг тохируулдаг. Энэхүү дизайны зарчим нь системийг уян хатан болгож, үндсэн хөрөнгийн нягтлан бодох бүртгэл, цалингийн бүртгэл, үйлдвэрлэлийн зардлын бүртгэл гэх мэт бусад модулиудыг нэмэх замаар томоохон өөрчлөлтгүйгээр түүний чадавхийг нэмэгдүүлэх боломжийг олгодог.

Тархалтын гол шалтгаан Барууны хөтөлбөрүүдОросын зах зээлд явуулах боломж байсан нягтлан бодох бүртгэлолон улсын стандартад . Оросын багцуудыг анх Оросын зах зээлд зориулж бүтээсэн бөгөөд барууны нягтлан бодох бүртгэлд чиг үүргээрээ өргөжүүлэх зорилгогүй байв. Тэдний ханган нийлүүлэгчид 90-ээд оны эхээр Оросын зах зээлд нэвтэрснээс хойш барууны багцууд Оросын нягтлан бодох бүртгэлийн шаардлагад нийцүүлэн амжилттай дасан зохицож чадсан. Ихэнх тохиолдолд тэд нягтлан бодох бүртгэлийн хоёр хувилбарыг дэмжих чадвартай байдаг - Баруун болон Орос, гэхдээ маш төвөгтэй, сурахад хэцүү, мөн маш үнэтэй байдаг. Ийм системийг үйлдвэрлэдэг Оросын үйлдвэрлэгчид олон нийтэд бараг мэдэгддэггүй. Одоо хамгийн алдартай нь дотоодын Галактика цогцолборууд юм (Галактика компани)

Яриа таних, ярих чадвартай компьютер бүтээх анхны оролдлогууд 60-аад оны сүүлээр хийгдсэн. Гэхдээ 1979 онд л энэ санааг хөгжүүлэгчид анхны бөгөөд маш даруухан амжилтанд хүрсэн: Texas Instruments хүүхдийн тоглоомын ярианы микро схемийг гаргасан. 2003 он гэхэд багтсан мэдээллийн технологиХоёр бүлгийг ерөнхийд нь ялгаж салгаж болох хүчирхэг ярианы чиглэл бий болсон програм хангамжийн бүтээгдэхүүн:



1. Яриа таних.

2. Ярианы синтез.

Яриа таних бүтээгдэхүүнийг гурван бүлэгт ангилдаг.

· ярианы хяналтын хэрэгсэл;

· диктант бичих хэрэгсэл;

· ярианы аргаар таних хэрэгсэл.

Дуут удирдлага нь зах зээлд хамгийн түрүүнд гарсан. Тэдний үндсэн санаа бол компьютер хүний ​​үгийг таньж, тодорхой үйлдэл хийх явдал юм. Хэл ярианы удирдлагын хөгжлийн эхэн үед компьютерууд тоонуудын үгийг таньж сурсан. Шинжлэх ухааны судалгааЭнэ чиглэлийг үргэлжлүүлсэн бол өнөөдөр компьютерууд хэрэглэгч тоонуудыг дараалан хэлэх тохиолдолд 20 хэл дээрх тоог таних боломжтой болсон. Автомат тусламжийн системүүдДижитал таних технологид суурилсан тэдгээрийг Европ болон Хойд Америкийн утасны компаниуд ашигладаг.

Нэр таних нь тийм хэмжээнд хараахан хөгжөөгүй байна. Nortel нь дотоод PBX-ийн үндсэн дээр Open Speech технологийг өөрийн хэрэгцээнд ашигладаг: хэрэглэгч утсаа авч, тодорхой дугаар руу залгаж, хүссэн нэрээ хэлж, компьютер нэрийг давтаж, баталгаажуулалтыг хүлээн авснаар хэрэглэгчийг сүлжээнд холбодог. захиалагч. Нээлттэй ярианы систем нь сул талуудтай: удаашрал, нэрийг жижигрүүлсэн хэлбэрээр дуудах үед захиалагч олоход бэрхшээлтэй гэх мэт.

Хэл яриаг дижитал өгөгдлийн дараалал болгон хувиргахад суурилсан илүү төвөгтэй таних системийг Nuance Communications боловсруулсан. Өгөгдлийн сангаас мэдээллийг задлахад дижитал өгөгдлийг ашигладаг бөгөөд ярианы синтезийн хөдөлгүүр нь ярианы хариуг үүсгэдэг. Энэхүү системийг хөрөнгийн зах зээлд оролцогчдод зориулсан брокерийн үйлчилгээ эрхэлдэг Америкийн Charles Schwab & Co компани ашигладаг. Зарим мэдээллээр тус систем өдөрт 50 мянган дуудлага хүлээн авч, 10 мянган нэрийг боловсруулахдаа 95 хувийн нарийвчлалтай ажилладаг. Philips гурав дахь үеийн яриа таних систем дээр ажиллаж байна. Эхний үеийн систем нь дижитал танилт дээр суурилсан бөгөөд хүсэлтийн тодорхой бүтцийг хангасан: нууц үг, танигч, хүсэлтийн мөн чанарыг харуулсан дугаар. Ийм системд мэдээллийг ярианы хэлбэрээр эсвэл мэдрэгчтэй утасны товчлуур ашиглан оруулсан. Хоёр дахь үеийн бүтээгдэхүүнүүд нь тодорхойлолтод үндэслэсэн түлхүүр үгс. Гурав дахь үеийн систем - Байгалийн яриа хэлцлийн систем нь олон тооны харилцан ярианаас аажмаар суралцах санаа дээр суурилдаг бөгөөд энэ үеэр үгсийн хоорондын харилцааны мэдээллийн сан, ажлын үгсийн сан бий болдог. Энэ төрлийн системийг Швейцарийн төмөр замын Swiss Railways компани ашигладаг бөгөөд 3.5 мянган цэгийг хамардаг. Системд компьютер нь хэрэглэгчийн ердийн хүсэлтийг боловсруулж, явах цэгийг очих цэгтэй холбодог. Энэхүү системийг ашигладаг Германы Lufthansa агаарын тээврийн компани боломжит үйлчлүүлэгчдэд нислэгийнхээ автомат хуваарийг санал болгодог бөгөөд Радио Люксембургийн радио станц нь дэлхийн өнцөг булан бүрт аялал жуулчлалын маршрутын цаг агаарын урьдчилсан мэдээг санал болгодог.

Нэвтэрхий толь бичиг YouTube

    1 / 5

    Яриа таних тухай танилцуулга

    LANGMaster яриа таних

    Хадмал орчуулга

Өгүүллэг

Анхны яриа таних төхөөрөмж 1952 онд гарч ирсэн бөгөөд энэ нь хүний ​​ярьж буй тоог таньж чаддаг байв. 1962 онд үзэсгэлэн дээр компьютерийн технологиНью-Йорк хотноо IBM Shoebox-ын нээлт боллоо.

Арилжааны яриа таних хөтөлбөрүүд ерээд оны эхээр гарч ирэв. Тэдгээрийг ихэвчлэн гар гэмтлийн улмаас их хэмжээний текст бичиж чаддаггүй хүмүүс ашигладаг. Эдгээр програмууд (жишээлбэл, Dragon NaturalySpeaking (Англи)орос, VoiceNavigator (Англи)орос) хэрэглэгчийн дуу хоолойг текст болгон хөрвүүлэх, ингэснээр түүний гарыг хөнгөвчлөх. Ийм хөтөлбөрүүдийн орчуулгын найдвартай байдал тийм ч өндөр биш боловч олон жилийн туршид аажмаар сайжирсан.

Хөдөлгөөнт төхөөрөмжүүдийн тооцоолох хүчин чадал нэмэгдэж байгаа нь тэдэнд яриа таних функц бүхий програмуудыг бий болгох боломжийг олгосон. Ийм программуудын дунд дуу хоолойгоо ашиглан олон програмтай ажиллах боломжийг олгодог Microsoft Voice Command програмыг тэмдэглэх нь зүйтэй. Жишээлбэл, та тоглуулагчдаа хөгжим тоглуулах эсвэл шинэ баримт бичиг үүсгэх боломжтой.

Яриа таних аргыг бизнесийн янз бүрийн салбарт ашиглах нь улам бүр түгээмэл болж байна, жишээлбэл, эмнэлгийн эмч оношийг хэлж чаддаг бөгөөд үүнийг шууд цахим картанд оруулах болно. Эсвэл өөр жишээ. Хүн бүр амьдралдаа ядаж нэг удаа дуу хоолойгоо ашиглан гэрлээ унтраах эсвэл цонх нээхийг мөрөөддөг нь лавтай. Сүүлийн үед яриа таних болон синтезийн автомат системийг интерактив утасны хэрэглээнд улам ихээр ашиглах болсон. Энэ тохиолдолд дуут порталтай харилцах нь илүү байгалийн болж хувирдаг, учир нь түүний сонголтыг зөвхөн аялгуугаар залгахаас гадна дуут командыг ашиглан хийж болно. Үүний зэрэгцээ таних систем нь чанга яригчаас хамааралгүй, өөрөөр хэлбэл ямар ч хүний ​​дуу хоолойг хүлээн зөвшөөрдөг.

Яриа таних технологийн дараагийн алхам бол чимээгүй ярианы интерфейс (SSI) гэж нэрлэгддэг хөгжүүлэлт гэж үзэж болно. Эдгээр яриа боловсруулах системүүд нь ярианы дохиог үе мөчний эхэн үед хүлээн авах, боловсруулахад суурилдаг. Яриа таних хөгжлийн энэ үе шат нь орчин үеийн таних системийн хоёр чухал дутагдалтай байдлаас үүдэлтэй: дуу чимээнд хэт мэдрэмтгий байх, түүнчлэн таних системд нэвтрэх үед тодорхой, тодорхой яриа хийх хэрэгцээ. SSI арга нь дуу чимээнд өртөөгүй шинэ мэдрэгчийг боловсруулсан акустик дохионы нэмэлт болгон ашиглах явдал юм.

Яриа таних системийн ангилал

Яриа таних системийг дараахь байдлаар ангилдаг.

  • толь бичгийн хэмжээгээр (хязгаарлагдмал багц үг, том толь бичиг);
  • чанга яригчаас хамааран (чанга яригчаас хамааралтай ба чанга яригчаас хамааралгүй систем);
  • ярианы төрлөөр (тасралтгүй эсвэл тусдаа яриа);
  • зориулалтын дагуу (диктантын систем, тушаалын систем);
  • ашигласан алгоритмын дагуу (мэдрэлийн сүлжээ, Марковын далд загвар, динамик програмчлал);
  • бүтцийн нэгжийн төрлөөр (үг хэллэг, үг, фонем, дифон, аллофон);
  • бүтцийн нэгжийг тодорхойлох зарчимд үндэслэсэн (загвараар таних, лексик элементүүдийг сонгох).

Яриа таних автомат системийн хувьд дуу чимээний дархлааг үндсэндээ хоёр механизмаар хангадаг.

  • Акустик дохионы шинжилгээнд үндэслэн ярианы дохионы ижил элементүүдийг тодорхойлох хэд хэдэн зэрэгцээ ажлын аргыг ашиглах;
  • Хэл ярианы урсгал дахь үгсийн сегментчилсэн (фонемик) болон цогц ойлголтыг зэрэгцээ бие даасан хэрэглээ.

Яриа таних арга, алгоритмууд

"... ярианы дохионы боловсруулалтын алгоритмууд нь тухайн хүний ​​ашигладаг ижил ойлголт, харилцааны системийг ашиглах ёстой нь ойлгомжтой."

Өнөөдөр яриа таних системүүд нь таних зарчим дээр суурилдаг. хэнээр?] таних хэлбэрүүд [үл мэдэгдэх нэр томъёо ] . Өнөөг хүртэл ашиглагдаж байсан арга, алгоритмуудыг дараах том ангиудад хувааж болно.

Стандарттай харьцуулах үндсэн дээр яриа таних аргуудын ангилал.

  • Динамик програмчлал - түр зуурын динамик алгоритмууд (Dynamic Time Warping).

Контекст мэдрэмтгий ангилал. Үүнийг хэрэгжүүлэх үед бие даасан лексик элементүүд нь ярианы урсгалаас тусгаарлагддаг - фонем ба аллофонууд, дараа нь үе, морфем болгон нэгтгэдэг.

  • Байесийн ялгаварлал дээр суурилсан ялгаварлан гадуурхах шинжилгээний аргууд;
  • Марковын далд загвар;
  • Мэдрэлийн сүлжээ.

Таних системийн архитектур

Ердийн [ ] архитектур статистикийн системүүдярианы автомат боловсруулалт.

  • Дуу чимээг бууруулах модуль ба ашигтай дохиог салгах.
  • Акустик загвар - дууны түвшний ижил төстэй байдлын үүднээс ярианы сегментийг таних чадварыг үнэлэх боломжийг танд олгоно. Дуу бүрийн хувьд энэ дууны ярианы дуудлагыг дүрсэлсэн статистикийн нарийн төвөгтэй загварыг анх бүтээдэг.
  • Хэлний загвар - хамгийн их магадлалтай үгийн дарааллыг тодорхойлох боломжийг танд олгоно. Хэлний загварыг бий болгох нарийн төвөгтэй байдал нь тухайн хэлээс ихээхэн хамаардаг. Тийм, төлөө Англи хэл, статистик загваруудыг (N-грам гэж нэрлэдэг) ашиглахад хангалттай. Орос хэлийг багтаасан өндөр урсацтай хэлүүдэд (ижил үгийн олон хэлбэр байдаг хэлүүд) зөвхөн статистикийг ашиглан бүтээсэн хэлний загварууд ийм нөлөө үзүүлэхээ больсон - статистикийн харилцааг найдвартай үнэлэхийн тулд хэт их мэдээлэл шаардлагатай болно. үгсийн хооронд. Тиймээс орос хэлний дүрэм, ярианы хэсэг, үгийн хэлбэрийн талаархи мэдээлэл, статистикийн сонгодог загварыг ашигладаг эрлийз хэлний загваруудыг ашигладаг.
  • Декодер нь таних системийн програм хангамжийн бүрэлдэхүүн хэсэг бөгөөд акустик болон хэлний загвараас таних явцад олж авсан өгөгдлийг нэгтгэж, тэдгээрийн хослолд үндэслэн яриаг тасралтгүй таних эцсийн үр дүн болох үгсийн хамгийн их магадлалтай дарааллыг тодорхойлдог.
  1. Яриа боловсруулах нь ярианы дохионы чанарыг үнэлэхээс эхэлдэг. Энэ үе шатанд хөндлөнгийн оролцоо, гажуудлын түвшинг тодорхойлно.
  2. Үнэлгээний үр дүн нь танихад шаардлагатай ярианы параметрүүдийг тооцоолох модулийг хянадаг акустик дасан зохицох модульд очдог.
  3. Яриа агуулсан хэсгүүдийг дохиогоор тодорхойлж, ярианы параметрүүдийг үнэлдэг. Синтакс, семантик, прагматик шинжилгээнд фонетик болон просодик магадлалын шинж чанаруудыг тодорхойлсон. (Ярианы хэсэг, үгийн хэлбэр, үг хоорондын статистик харилцааны талаархи мэдээллийг үнэл.)
  4. Дараа нь ярианы параметрүүд нь таних системийн үндсэн блок - декодер руу ордог. Энэ нь оролтын ярианы урсгалыг акустик болон хэлний загварт хадгалагдсан мэдээлэлтэй нийцүүлэх бүрэлдэхүүн хэсэг бөгөөд хамгийн их магадлалтай үгсийн дарааллыг тодорхойлдог бөгөөд энэ нь хүлээн зөвшөөрөх эцсийн үр дүн юм.

Таних систем дэх сэтгэл хөдлөлийн ярианы шинж тэмдэг

Спектрийн цаг хугацааны шинж чанарууд

Спектрийн шинж чанарууд:

  • Шинжилсэн ярианы дохионы спектрийн дундаж утга;
  • Спектрийн дундаж утгыг хэвийн болгох;
  • Спектрийн зурвас дахь дохионы харьцангуй оршин суух хугацаа;
  • Спектрийн зурвас дахь дохионы хэвийн оршин суух хугацаа;
  • Хамтлаг дахь ярианы спектрийн дундаж утга;
  • Хамтлаг дахь харьцангуй ярианы спектрийн хүч;
  • Ярианы спектрийн дугтуйны өөрчлөлт;
  • Хэл ярианы спектрийн дугтуйны өөрчлөлтийн хэвийн утгууд;
  • Спектрийн зурвасын хоорондох спектрийн дугтуйнуудын харилцан хамаарлын коэффициентүүд.

Түр зуурын шинж тэмдэг:

  • Сегментийн үргэлжлэх хугацаа, фонем;
  • Сегментийн өндөр;
  • Сегмент хэлбэрийн хүчин зүйл.

Спектрийн-цаг хугацааны шинж чанарууд нь ярианы дохиог физик-математикийн мөн чанарт нь гурван төрлийн бүрэлдэхүүн хэсэг байгаа эсэхийг тодорхойлдог.

  1. дууны долгионы үечилсэн (тональ) хэсгүүд;
  2. дууны долгионы үечилсэн бус хэсгүүд (дуу чимээ, тэсрэх бодис);
  3. ярианы завсарлага агуулаагүй газрууд.

Спектрийн-цаг хугацааны шинж чанарууд нь янз бүрийн хүмүүсийн дууны импульсийн цаг хугацааны цувааны хэлбэр, спектрийн өвөрмөц байдал, тэдний дууны замын шүүлтүүрийн функцүүдийн онцлогийг тусгах боломжийг олгодог. Эдгээр нь илтгэгчийн хэл ярианы эрхтнүүдийн бүтцийн өөрчлөлтийн динамиктай холбоотой ярианы урсгалын онцлог шинж чанарыг тодорхойлдог бөгөөд ярианы урсгалын салшгүй шинж чанар бөгөөд илтгэгчийн үе мөчний эрхтнүүдийн хөдөлгөөний өвөрмөц байдал, синхрончлолыг илэрхийлдэг.

Цепстрын тэмдгүүд

  • Мел давтамжийн цепстрал коэффициент;
  • Хүний чихний мэдрэмтгий байдлын тэгш бус байдлыг зассан шугаман таамаглалын коэффициентүүд;
  • Давтамжийн чадлын хүчин зүйлийг бүртгэх;
  • Шугаман таамаглах спектрийн коэффициентүүд;
  • Шугаман таамаглах цепструмын коэффициентүүд.

Ихэнх орчин үеийн автомат яриа таних системүүд нь өдөөх дохионы шинж чанарыг үл тоомсорлож, хүний ​​дууны замын давтамжийн тэмдгийг задлахад чиглэдэг. Энэ нь эхний загварын коэффициентууд нь дуу чимээг илүү сайн салгах боломжийг олгодогтой холбон тайлбарлаж байна. Дууны замын дохионоос өдөөх дохиог салгахын тулд cepstral шинжилгээг ашигладаг.

Далайн давтамжийн шинж чанарууд

  • Эрчим хүч, далайц
  • Эрчим хүч
  • Дууны давтамж (FFR)
  • Форматын давтамжууд
  • Jitter - үндсэн аялгууны давтамжийн модуляц (дуу чимээний параметр);
  • Гялалзсан - гол аялгуу дээрх далайцын модуляц (дуу чимээний параметр);
  • Радиал үндсэн цөмийн функц
  • Шугаман бус оператор Tiger

Далайц-давтамжийн шинж чанарууд нь Фурьегийн салангид хувиргалт (цонхны төрөл ба өргөн) параметрүүдээс хамаарч өөр өөр байж болох, мөн дээжийн дагуу цонхны бага зэрэг шилжилттэй байж болох тооцоолол хийх боломжийг олгодог. Ярианы дохио нь давтамж (секундэд гарах чичиргээний тоо), эрчим (чичиргээний далайц), үргэлжлэх хугацаа зэргээр тодорхойлогддог, агаарт тархсан нарийн бүтэцтэй дууны чичиргээгээр акустик байдлаар илэрхийлэгддэг. Далайн давтамжийн шинж чанарууд нь хамгийн бага ойлголттой байх хугацаатай ярианы дохионоос хүнд шаардлагатай бөгөөд хангалттай мэдээллийг агуулдаг. Гэхдээ эдгээр шинж чанаруудыг ашиглах нь тэднийг сэтгэл хөдлөлийн яриаг тодорхойлох хэрэгсэл болгон бүрэн ашиглах боломжийг олгодоггүй.

Шугаман бус динамикийн шинж тэмдэг

Шугаман бус динамик шинж тэмдгийн бүлгийн хувьд ярианы дохиог дараах байдлаар авч үзнэ скаляр хэмжигдэхүүнхүний ​​дууны замын системд ажиглагдсан. Яриа үүсгэх үйл явцыг шугаман бус гэж үзэж, шугаман бус динамикийн аргаар дүн шинжилгээ хийж болно. Шугаман бус динамикийн даалгавар бол хамгийн ердийн үл хөдлөх хөрөнгийн саналаас үүссэн математикийн үндсэн загвар, бодит системийг олж, нарийвчлан судлах явдал юм. бие даасан элементүүд, системийн бүрэлдэхүүн хэсгүүд, тэдгээрийн хоорондын харилцан үйлчлэлийн хуулиуд. Одоогийн байдлаар шугаман бус динамик аргууд нь үндсэн дээр суурилдаг математикийн онолТакенсийн теорем дээр үндэслэсэн (Англи)орос, энэ нь шугаман бус авторегрессийн санаануудын нарийн математик үндэслэлийг бүрдүүлж, цаг хугацааны цуваа эсвэл түүний координатын аль нэгээс татагчийн фазын зургийг сэргээх боломжийг нотолсон. (Аттрактор гэдэг нь түр зуурын задралын дараа фазын замнал ойртож буй фазын орон зай дахь цэгүүдийн багц эсвэл дэд орон зай гэж ойлгогддог.) Дахин бүтээгдсэн ярианы траекторийн дохионы шинж чанарын тооцоог шугаман бус детерминистик фаз-орон зайн загварыг бүтээхэд ашигладаг. ажиглагдсан хугацааны цуваа. Татуулагчдын хэлбэрийн ялгааг оношлох дүрэм, шинж тэмдгүүдэд ашиглаж болох бөгөөд энэ нь сэтгэл хөдлөлийн цэнэгтэй ярианы дохионы янз бүрийн сэтгэл хөдлөлийг таньж, зөв ​​тодорхойлох боломжийг олгодог.

Ярианы чанарын сонголтууд

Дижитал сувгууд дээрх ярианы чанарын үзүүлэлтүүд:

  • Үг хэллэгийн ойлгомжтой байдал;
  • Хэл ярианы ойлгомжтой байдал;
  • Лавлах замын ярианы чанартай харьцуулахад ярианы чанар;
  • Бодит ажлын нөхцөлд ярианы чанар.

Үндсэн ойлголтууд

  • Ярианы ойлгомжтой байдал гэдэг нь зөв хүлээн зөвшөөрөгдсөн ярианы элементүүдийн харьцангуй тоо (дуу, үе, үг, хэллэг) -ийн хувиар илэрхийлэгддэг. нийт тоошилжүүлсэн элементүүд.
  • Ярианы чанар нь ярианы дамжуулалтын систем дэх ярианы дууны субьектив үнэлгээг тодорхойлдог параметр юм.
  • Хэвийн ярианы хурд гэдэг нь хяналтын хэллэгийн дундаж үргэлжлэх хугацаа 2.4 секунд байх хурдтай ярих явдал юм.
  • Ярианы хурдыг хурдасгасан - хяналтын хэллэгийн дундаж үргэлжлэх хугацаа 1.5-1.6 секундын хурдаар ярих.
  • Илтгэгчийн дуу хоолойг таних чадвар гэдэг нь сонсогчдод урьд өмнө нь мэдэгдэж байсан тодорхой хүнтэй дуу хоолойны дууг таних чадвар юм.
  • Семантик ойлгомжтой байдал нь ярианы мэдээллийн агуулгыг зөв хуулбарлах түвшингийн үзүүлэлт юм.
  • Интеграл чанар нь сонсогчдын хүлээн авсан ярианы талаархи ерөнхий сэтгэгдлийг тодорхойлдог үзүүлэлт юм.

Өргөдөл

Дуут системийн гол давуу тал нь хэрэглэгчдэд ээлтэй байдал гэж тунхаглагдсан. Ярианы командууд нь эцсийн хэрэглэгч мэдрэгчтэй болон бусад оруулах арга, командыг ашиглах хэрэгцээг арилгах зорилготой байв.

  • Дуут тушаалууд
  • Дуут текст оруулах

Хөдөлгөөнт програмуудад яриа таних технологийг ашиглах амжилттай жишээ бол: Yandex.Navigator дээр дуу хоолойгоор хаяг оруулах, Google Now дуут хайлт.

Хөдөлгөөнт төхөөрөмжөөс гадна яриа таних технологи нь бизнесийн янз бүрийн салбарт өргөн хэрэглэгддэг.

  • Утас: Өөртөө үйлчлэх дуут системийг бий болгосноор ирж байгаа болон гарч буй дуудлагыг боловсруулах автоматжуулалт, ялангуяа: хүлээн авах. лавлагаа мэдээлэлзөвлөгөө өгөх, үйлчилгээ/бүтээгдэхүүн захиалах, одоо байгаа үйлчилгээний параметрүүдийг өөрчлөх, судалгаа, асуулга явуулах, мэдээлэл цуглуулах, мэдээлэл өгөх болон бусад хувилбарууд;
  • Ухаалаг гэрийн шийдлүүд: Ухаалаг гэрийн системийг удирдах дуут интерфейс;
  • Гэр ахуйн цахилгаан хэрэгсэл ба роботууд: электрон роботуудын дуут интерфейс; гэр ахуйн цахилгаан хэрэгслийн дуут удирдлага гэх мэт;
  • Ширээний компьютер болон зөөврийн компьютер: компьютерийн тоглоом, програмд ​​дуу оруулах;
  • Машинууд: машины дотоод засал дахь дуут удирдлага - жишээлбэл, навигацийн систем;
  • Хөгжлийн бэрхшээлтэй хүмүүст зориулсан нийгмийн үйлчилгээ.

Мөн үзнэ үү

  • Дижитал дохионы боловсруулалт

Тэмдэглэл

  1. Davies, K.H., Biddulph, R. and Balashek, S. (1952) Ярианы цифрүүдийн яриаг автоматаар таних, Ж.Акуст. Соц. Ам. 24 (6) х. 637-642
  2. Бүртгэлийг түдгэлзүүлсэн
  3. Яриа танин мэдэхүйн орчин үеийн асуудлууд. 
  4. - Auditech.Ltd. 2013 оны 3-р сарын 3-нд авсан. 2013 оны 3-р сарын 15-ны өдөр архивлагдсан.
  5. http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf
  6. http://booksshare.net/books/med/chistovich-la/1976/files/fizrech1976.djvu
  7. http://revistaie.ase.ro/content/46/s%20-%20furtuna.pdf
  8. http://www.ccas.ru/frc/papers/mestetskii04course.pdf
  9. Яриа таних| 
  10. Хэл ярианы технологийн төв | 
  11. МХЗ. 2013 оны 4-р сарын 20-нд авсан. 2013 оны 4-р сарын 28-ны өдөр архивлагдсан.
  12. http://pawlin.ru/materials/neiro/sistemy_raspoznavaniya.pdf
  13. http://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf
  14. ГОСТ R 51061-97. 

ЯРИАНЫ ЧАНАРЫН ҮЗҮҮЛЭЛТҮҮД. 

  • ТООН СУВАГ ДЭЭР БАГА ХУРДТАЙ ЯРИА ДАМЖУУЛАХ СИСТЕМ. . 2013 оны 4-р сарын 30-нд эх сурвалжаас архивлагдсан.
  • ХолбоосуудЯриа таних технологи, www.xakep.ru
  • И.А.Шалимов, М.А.Бессонов.
  • Аудио мессежийн хэлийг тодорхойлох технологийг хөгжүүлэх төлөв байдал, хэтийн төлөвийн дүн шинжилгээ.
  • Хабрахабр

Yandex-аас яриа таних технологи  Яндекс

Ерөнхий тодорхойлолтууд

Заавар

Энэ нийтлэлд би яриа таних гэх мэт програм хангамж хөгжүүлэх сонирхолтой чиглэлийн үндсийг авч үзэхийг хүсч байна. Мэдээжийн хэрэг, би энэ сэдвээр мэргэжилтэн биш тул миний түүх алдаа, алдаа, урам хугарах зүйлээр дүүрэн байх болно. Гэхдээ миний “ажлын” гол зорилго нь гарчигнаас нь ойлгогдохоор асуудалд мэргэжлийн дүн шинжилгээ хийх биш, харин үндсэн ойлголт, тулгамдсан асуудал, түүнийг шийдвэрлэх арга замыг тайлбарлах явдал юм. Ерөнхийдөө би сонирхсон хүн бүрийг мууранд ирэхийг хүсч байна! ПрологБидний яриа бол дуу авианы дараалал гэдгийг эхэлцгээе. Дуу нь эргээд янз бүрийн давтамжийн дууны чичиргээний (долгион) суперпозиция (суперпозиция) юм. Физикээс бидний мэддэг долгион нь далайц ба давтамж гэсэн хоёр шинж чанараар тодорхойлогддог.

Ийм байдлаар

механик чичиргээ

орчин үеийн компьютер дээр боловсруулахад тохиромжтой тооны багц болгон хувиргах.

Эндээс үзэхэд яриа таних ажил нь тоон утгууд (тоон дохио) болон зарим толь бичгийн үгсийг (жишээлбэл, орос хэл) "харьцуулах" явдал юм.

Үнэндээ энэ "харьцуулалт" хэрхэн хэрэгжиж болохыг олж мэдье.

Өгөгдөл оруулах

Бидэнд аудио өгөгдөл бүхий файл/стрим байгаа гэж бодъё. Юуны өмнө бид энэ нь хэрхэн ажилладаг, хэрхэн уншихыг ойлгох хэрэгтэй. Хамгийн энгийн хувилбар болох WAV файлыг авч үзье.

Энэ формат нь файлд хоёр блок байгааг илтгэнэ. Эхний блок нь аудио урсгалын тухай мэдээлэл бүхий толгой хэсэг юм: битийн хурд, давтамж, сувгийн тоо, файлын урт гэх мэт. Хоёрдахь блок нь "түүхий" өгөгдлөөс бүрддэг - ижил тоон дохио, далайцын утгуудын багц.

Бидний арга барил нь хоолойны тембр (үг хэлж буй хүний), дууны хэмжээ, дуудлагын хурд зэрэгт тэсвэртэй байх ёстой (ядаж бага зэрэг). Мэдээжийн хэрэг, хоёр аудио дохиог элемент тус бүрээр нь харьцуулах замаар үүнийг хийх боломжгүй юм.

Тиймээс бид арай өөр замаар явах болно.

Хүрээ

Юуны өмнө өгөгдлөө жижиг цаг хугацаа буюу фреймүүдэд хуваая. Түүгээр ч барахгүй хүрээ нь нэг нэгээр нь хатуу явах ёсгүй, харин "давхцах" ёстой. Тэдгээр. нэг хүрээний төгсгөл нь нөгөө хүрээний эхлэлтэй огтлолцох ёстой.

Хүрээнүүд нь тодорхой цэгүүдээс илүү тодорхой интервал дахь долгионыг шинжлэх нь илүү тохиромжтой байдаг тул тодорхой дохионы утгуудаас илүү өгөгдлийн шинжилгээний нэгж юм. Хүрээний "давхцсан" зохион байгуулалт нь хүрээний шинжилгээний үр дүнг жигдрүүлж, фрэймийн санааг анхны функцын дагуу хөдөлж буй "цонх" болгон хувиргах боломжийг олгодог (дохионы утга).

Хүрээний оновчтой урт нь 50%-ийн "давхцал"-тай 10м-ийн зайтай тохирч байх ёстойг туршилтаар тогтоосон. Үгийн дундаж урт (наад зах нь миний туршилтаар) 500 мс байна гэж үзвэл энэ алхам нь бидэнд нэг үгэнд ойролцоогоор 500 / (10 * 0.5) = 100 фрэйм ​​өгөх болно.

Үг хуваах

Хэл яриаг танихдаа шийдэх ёстой хамгийн эхний ажил бол энэ яриаг бие даасан үг болгон хуваах явдал юм. Энгийн байхын тулд бидний хувьд яриа нь зарим нэг завсарлага (чимээгүй байдлын интервал) агуулдаг бөгөөд үүнийг үгсийг "салгагч" гэж үзэж болно гэж бодъё.

Энэ тохиолдолд бид тодорхой утга, босго олох хэрэгтэй - дээр нь үг, доор нь чимээгүй байдаг. Энд хэд хэдэн сонголт байж болно:

  • тогтмол байдлаар тохируулах (эх дохио нь үргэлж ижил нөхцөлд, ижил аргаар үүсгэгддэг бол ажиллана);
  • чимээгүй байдалд тохирох утгуудын багцыг тодорхой сонгох замаар кластерийн дохионы утгыг (энэ нь чимээгүй байдал нь анхны дохионы нэлээд хэсгийг эзэлдэг тохиолдолд л ажиллах болно);
  • энтропид дүн шинжилгээ хийх;

Таны таамаглаж байсанчлан, бид одоо сүүлчийн цэгийн талаар ярих болно :) Энтропи бол эмх замбараагүй байдлын хэмжүүр, "ямар нэгэн туршлагын тодорхойгүй байдлын хэмжүүр" (c) гэдгээс эхэлцгээе. Манай тохиолдолд энтропи гэдэг нь өгөгдсөн хүрээнд бидний дохио хэр зэрэг "хэлбэлзэж" байгааг илэрхийлдэг.

  • Бидний дохио хэвийн болсон бөгөөд түүний бүх утгууд нь [-1;1] мужид байна гэж бодъё;
  • Хүрээний дохионы утгуудын гистограммыг (тархалтын нягтрал) байгуулъя:
энтропийг гэж тооцъё ;

Тиймээс бид энтропийн утгыг олж авлаа. Гэхдээ энэ бол хүрээний өөр нэг шинж чанар бөгөөд дуу чимээг чимээгүй байдлаас салгахын тулд бид үүнийг ямар нэгэн зүйлтэй харьцуулах шаардлагатай хэвээр байна. Зарим нийтлэлд энтропийн босгыг түүний хамгийн их ба хамгийн бага утгын дундажтай тэнцүү (бүх хүрээний дунд) авахыг зөвлөж байна. Гэсэн хэдий ч миний хувьд энэ арга нь сайн үр дүнд хүрээгүй.
Аз болоход энтропи (ижил дундаж квадрат утгуудаас ялгаатай) харьцангуй бие даасан хэмжигдэхүүн юм. Энэ нь түүний босго утгыг тогтмол (0.1) хэлбэрээр сонгох боломжийг надад олгосон.

Гэсэн хэдий ч асуудал үүгээр дуусахгүй: (Энтропи нь үгийн дунд (эгшиг дээр) унждаг, эсвэл бага зэрэг чимээ шуугианаас болж гэнэт үсэрч болно. Эхний асуудлыг шийдэхийн тулд бид дараахь зүйлийг нэвтрүүлэх ёстой. "Үг хоорондын хамгийн бага зай" ба "хамтдаа наах" гэсэн ойлголтууд нь суултаас болж тусгаарлагдсан фрэймүүдийн хоёр дахь асуудлыг шийдэж, сонгон шалгаруулалтад тэнцээгүй (мөн тэнцээгүй) бүх нэр дэвшигчийг таслах замаар шийддэг. эхний хэсэгт ашигласан).

Хэрэв яриа нь зарчмын хувьд "үзэгдэхгүй" бол та анхны хүрээг тодорхой аргаар бэлтгэсэн дэд дарааллаар задлахыг оролдож болно, тэдгээр нь тус бүрийг хүлээн зөвшөөрөх журамд хамрагдах болно. Гэхдээ энэ бол шал өөр түүх :)

Тиймээс бидэнд тодорхой үгэнд тохирсон хүрээнүүд бий. Бид хамгийн бага эсэргүүцлийн замыг дагаж, түүний бүх утгын дундаж квадратыг (Root Mean Square) хүрээний тоон шинж чанар болгон ашиглаж болно. Гэсэн хэдий ч ийм хэмжүүр нь цаашдын дүн шинжилгээ хийхэд тохиромжтой маш бага мэдээлэл агуулдаг.

Энд Мел-давтамжийн цепстрал коэффициентүүд гарч ирдэг. Википедиагийн хэлснээр (энэ нь худлаа ярьдаггүй) MFCC нь дохионы энергийн спектрийн нэг төрөл юм. Үүнийг ашиглах давуу талууд нь дараах байдалтай байна.

  • Дохионы спектрийг ашигладаг (өөрөөр хэлбэл ортогональ [ко]синусын функцүүдийн суурь өргөтгөл) нь цаашдын шинжилгээнд дохионы долгионы "мөн чанарыг" харгалзан үзэх боломжийг олгодог;
  • Спектрийг тусгай мел масштабаар төлөвлөж, хүний ​​ойлголтод хамгийн чухал давтамжийг тодруулах боломжийг танд олгоно;
  • Тооцоолсон коэффициентүүдийн тоог ямар ч утгаар (жишээлбэл, 12) хязгаарлаж болох бөгөөд энэ нь хүрээг "шахах" боломжийг олгодог бөгөөд үүний үр дүнд боловсруулсан мэдээллийн хэмжээг;

Тодорхой хүрээний хувьд MFCC коэффициентийг тооцоолох үйл явцыг авч үзье.

Бидний хүрээг вектор гэж төсөөлье, энд N нь хүрээний хэмжээ юм.

Фурье цувралын өргөтгөл

Юуны өмнө бид дискрет Фурье хувиргалтыг ашиглан дохионы спектрийг тооцоолно (түүний "хурдан" FFT хэрэгжилт нь илүү тохиромжтой).

Өөрөөр хэлбэл, үр дүн нь дараах хэлбэрийн вектор болно.

X тэнхлэгийн дагуу ийм хувиргалт хийсний дараа бид дохионы давтамж (hz) байх ба Y тэнхлэгийн дагуу бид хэмжээстэй (нарийн төвөгтэй утгуудаас холдох арга зам) гэдгийг ойлгох нь чухал юм.

Мел шүүлтүүрийн тооцоо

Мел гэж юу вэ гэдгээс эхэлцгээе. Дахин Википедиагийн хэлснээр, mel бол дундаж хүмүүсийн субьектив ойлголт дээр үндэслэсэн "психофизикийн нэгдэл" юм. Энэ нь юуны түрүүнд дууны давтамжаас (мөн дууны хэмжээ, тембр) хамаарна. Өөрөөр хэлбэл, энэ утга нь тодорхой давтамжийн дуу чимээ бидний хувьд хэр их “утгатай” болохыг харуулдаг.

Та дараах томъёог ашиглан давтамжийг шохой болгон хувиргаж болно (үүнийг "томъёо-1" гэж санаарай):

Урвуу хувиргалт нь иймэрхүү харагдаж байна (үүнийг "томьёо-2" гэж санаарай):

мел/давтамжийн график:

Гэхдээ даалгавар руугаа буцаж орцгооё. Бид 256 элементийн хүрээтэй гэж бодъё. Энэ хүрээн дэх аудио давтамж нь 16000 Гц гэдгийг бид (аудио форматын өгөгдлөөс) мэднэ. Хүний яриа нь hz хүртэлх зайд оршдог гэж үзье. Шаардлагатай жижиг коэффициентүүдийн тоог M = 10 (санал болгож буй утга) гэж тохируулъя.

Мел масштабын дагуу дээр авсан спектрийг задлахын тулд бид шүүлтүүрийн "сам" үүсгэх шаардлагатай болно. Үндсэндээ мел шүүлтүүр бүр нь тодорхой давтамжийн муж дахь энергийн хэмжээг нэгтгэн, улмаар мел коэффициентийг олж авах боломжийг олгодог гурвалжин цонхны функц юм. Жижиг коэффициентүүдийн тоо болон дүн шинжилгээ хийсэн давтамжийн хүрээг мэдсэнээр бид дараах шүүлтүүрийг үүсгэж болно.

Шохойн коэффициентийн дарааллын тоо их байх тусам шүүлтүүрийн суурь илүү өргөн болохыг анхаарна уу. Энэ нь бидний сонирхож буй давтамжийн мужийг шүүлтүүрээр боловсруулсан мужид хуваах нь шохойн масштабаар явагддагтай холбоотой юм.

Гэвч бид дахин анхаарал сарниулсан. Тиймээс бидний хувьд бидний сонирхож буй давтамжийн хүрээ нь -тэй тэнцүү байна. Томъёо-1-ийн дагуу шохойн масштаб дээр энэ хүрээ нь болж хувирна.

m[i] =

Шохойн хуваарь дээрх цэгүүд нь жигд зайтай байгааг анхаарна уу. 2-р томъёог ашиглан хуваарийг герц болгон хөрвүүлье.

h[i] =

Таны харж байгаагаар масштаб одоо аажмаар сунаж эхэлсэн бөгөөд ингэснээр бага ба өндөр давтамжийн "ач холбогдол" -ын өсөлтийн динамикийг тэгшитгэж байна.

Одоо бид үр дүнгийн масштабыг хүрээнийхээ спектр дээр байрлуулах хэрэгтэй. Бидний санаж байгаагаар X тэнхлэгийн дагуу бид давтамжтай байдаг. Спектрийн урт нь 256 элемент бөгөөд үүнд 16000 Гц багтдаг. Энгийн пропорцийг шийдсэний дараа та дараах томъёог авч болно.

f(i) = шал((frameSize+1) * h(i) / sampleRate)

Манай тохиолдолд энэ нь тэнцүү юм

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

Ингээд л болоо! Мэдэх лавлах цэгүүдМанай спектрийн X тэнхлэг дээр дараах томъёог ашиглан шаардлагатай шүүлтүүрийг бүтээхэд хялбар байдаг.

Шүүлтүүрийн хэрэглээ, спектрийн энергийн логарифм

Шүүлтүүрийн хэрэглээ нь түүний утгыг спектрийн утгатай хосоор үржүүлэхээс бүрдэнэ. Энэ үйлдлийн үр дүн нь мел коэффициент юм. Бид M шүүлтүүртэй тул ижил тооны коэффициентүүд байх болно.

Гэсэн хэдий ч бид мел шүүлтүүрийг спектрийн утгуудад биш харин түүний энергид хэрэглэх хэрэгтэй. Дараа нь үр дүнгийн логарифмыг авна. Энэ нь коэффициентүүдийн дуу чимээний мэдрэмжийг бууруулдаг гэж үздэг.

Косинусын хувиргалт

Дискрет косинусын хувиргалтыг (DCT) эдгээр "cepstral" коэффициентийг олж авахад ашигладаг. Үүний утга нь олж авсан үр дүнг "шахах" бөгөөд эхний коэффициентүүдийн ач холбогдлыг нэмэгдүүлж, сүүлчийнх нь ач холбогдлыг бууруулдаг.

Энэ тохиолдолд DCTII-ийг (масштаб хүчин зүйлээр) үржүүлэхгүйгээр ашигладаг.

Одоо фрейм бүрийн хувьд бид цаашдын шинжилгээнд ашиглаж болох M mfcc коэффициентүүдийн багцтай байна.

Дээрх аргуудын кодын жишээг олж болно.

Таних алгоритм

Эрхэм уншигч таныг гол урам хугарах газар энд л хүлээж байна. Интернет дээр би таних арга нь илүү дээр болох талаар маш их ухаалаг (мөн тийм ч өндөр биш) маргааныг харсан. Зарим хүмүүс Далд Марковын загваруудыг дэмждэг бол бусад нь мэдрэлийн сүлжээг дэмждэг, зарим хүмүүсийн бодлыг ойлгох боломжгүй байдаг :)

Ямар ч байсан SMM-д маш их давуу эрх олгож байгаа бөгөөд үүнийгээ хэрэгжүүлэх нь би кодоо нэмж оруулах гэж байна... цаашид :)

Одоогийн байдлаар би үр дүн багатай, гэхдээ илүү хялбар арга дээр анхаарлаа хандуулахыг санал болгож байна.

Тиймээс бидний даалгавар бол тодорхой толь бичгээс үг таних явдал гэдгийг санацгаая. Энгийн байхын тулд бид эхний арван цифрийн нэрийг таних болно: "нэг", "хоёр", "гурав", "дөрөв", "тав", "зургаа", "долоо", "найм", "есөн", "арав".

Одоо iPhone/Android гар утсаа аваад L-н хамт олондоо эдгээр үгсийг бичиж авах хүсэлтийг илгээцгээе. Дараа нь (зарим локал мэдээллийн сан эсвэл энгийн файлд) L үг бүртэй харгалзах бичлэгүүдийн mfcc коэффициентүүдийн багцыг холбоно.

Бид энэ захидал харилцааг "Загвар" гэж нэрлэх бөгөөд үйл явц нь өөрөө - Machine Learning! Үнэн хэрэгтээ мэдээллийн санд шинэ дээж нэмэх нь машин сургалттай маш сул холболттой байдаг ... Гэхдээ энэ нэр томьёо хэтэрхий загварлаг юм :)

Одоо бидний даалгавар бол mfcc коэффициентүүдийн тодорхой багцад (танигдсан үг) "хамгийн ойр" загварыг сонгох явдал юм. Эхлээд харахад асуудлыг маш энгийнээр шийдэж болно:

  • загвар бүрийн хувьд тодорхойлсон mfcc вектор ба загварын векторуудын хоорондох дундаж (Евклидийн) зайг олно;
  • Бид хамгийн бага дундаж зайг зөв загвар болгон сонгох;

Гэсэн хэдий ч ижил үгийг Андрей Малахов болон түүний зарим Эстони хамтран зүтгэгчид хэлж чадна. Өөрөөр хэлбэл, ижил үгийн mfcc векторын хэмжээ өөр байж болно.

Аз болоход, өөр өөр урттай дарааллыг харьцуулах асуудлыг динамик цаг хугацааны өөрчлөлтийн алгоритм хэлбэрээр аль хэдийн шийдсэн. Энэхүү динамик програмчлалын алгоритмыг хөрөнгөтний Вики болон Ортодокс Хабр дээр хоёуланд нь маш сайн дүрсэлсэн байдаг.

Түүнд хийх цорын ганц өөрчлөлт бол зайг олох арга юм. Загварын mfcc вектор нь үнэндээ фреймээс олж авсан M хэмжээст mfcc “дэд векторуудын” дараалал гэдгийг бид санах ёстой. Тиймээс DTW алгоритм нь M хэмжээтэй ижил "дэд векторуудын" дарааллын хоорондох зайг олох ёстой. Өөрөөр хэлбэл, mfcc "дэд векторууд" хоорондын зайг (Евклид) зайны матрицын утга болгон ашиглах ёстой.

Туршилтууд

Ажлыг шалгах боломж байсангүй энэ хандлагатом "сургалт" түүвэр дээр. Синтетик бус нөхцөлд үг тус бүрийг 3 хувь түүвэр дээр хийсэн туршилтын үр дүн нь хамгийн сайн үр дүн биш, хамгийн сайн үр дүн - 65% -ийг зөв хүлээн зөвшөөрсөн байна.

Гэсэн хэдий ч миний зорилго бол аль болох энгийн яриа таних программ үүсгэх явдал байв. "Үзэл баримтлалын баталгаа" гэж хэлэхэд :) Шошго нэмнэ үү

Холбоотой нийтлэлүүд