Kas ir balss atpazīšana?

Balss atpazīšana jeb runas atpazīšana ir datortehnoloģija, kas datu ievadei izmanto audio ievadi, nevis tastatūru. Piemēram, runājot mikrofonā, tiek iegūts tāds pats rezultāts kā vārdu ievadīšanai manuāli ar tastatūru. Vienkārši sakot, balss atpazīšanas programmatūra ir izstrādāta ar iekšējo datu bāzi ar atpazīstamiem vārdiem vai frāzēm. Programma saskaņo runas audioparakstu ar atbilstošiem ierakstiem datu bāzē.

Lai gan runas pārvēršana tekstā var izklausīties viegli, tas ir ārkārtīgi grūts uzdevums. Problēma slēpjas praktiski bezgalīgajā individuālo runas modeļu un akcentu klāstā, ko papildina cilvēka dabiskā tieksme salikt vārdus kopā.

Dažādi runas atpazīšanas programmatūras modeļi tiek izmantoti dažādām lietojumprogrammām, sākot no personīgā diktēšanas līdz komerciālai automatizētai zvanu maršrutēšanai, no palīdzības invalīdiem līdz sporta un ziņu notikumu subtitriem. Katrs modelis darbojas atšķirīgi, un tam ir savas iespējas un robežas.

Balss atpazīšanas programmas, kurām lietotājam ir “jāapmāca” programmatūra, lai tā atpazītu viņu īpašos stilizētos runas modeļus, tiek sauktas par skaļruņiem atkarīgām sistēmām. Personas parasti izmanto šāda veida programmas mājās vai birojā. E-pastu, piezīmes, vēstules, datus un tekstu var ievadīt, runājot mikrofonā.

Dažām balss atpazīšanas sistēmām, ko sauc par diskrētām runas sistēmām, lietotājam ir jārunā skaidri un lēni, kā arī jāatdala vārdi. Nepārtrauktas runas sistēmas ir izstrādātas, lai saprastu dabiskāku runas veidu.
Diskrētās runas sistēmas tiek plaši izmantotas klientu apkalpošanas maršrutēšanai. Sistēma ir neatkarīga no skaļruņiem, taču saprot tikai nelielu vārdu vai frāžu kopumu. Zvanītājam tiek dota iespēja atbildēt uz jautājumu, parasti ar “jā” vai “nē”. Pēc atbildes saņemšanas sistēma pārceļ zvanītāju uz nākamo līmeni. Ja zvanītājs atbild ar unikālu atbildi, automātiskā atbilde parasti ir: “Atvainojiet, es jūs nesapratu; lūdzu, mēģiniet vēlreiz”, atkārtojot jautājumu un pieejamās atbildes. Šis balss atpazīšanas veids tiek saukts arī par gramatikas ierobežotu atpazīšanu.

Nepārtraukta runa ir sarežģītāks balss atpazīšanas programmatūras veids, kurā zvanītājs var runāt dabiski, lai izskaidrotu problēmu vai pieprasītu pakalpojumu. Šī programma ir izstrādāta, lai atlasītu atslēgas vārdus vai frāzes un sniegtu statistisku vislabāko uzminējumu par to, ko klients vēlas. Runāšana nepārprotami palīdz programmai noteikt vajadzību. Šāda veida sistēmām ir daudz intensīvāka datubāze nekā diskrētām runas sistēmām, un to sauc arī par dabiskās valodas atpazīšanu.

Automātiskā runas atpazīšana (ASR) ir balss atpazīšanas modelis, kas paredzēts diktēšanai. Šī programmatūra atšķiras no iepriekšējiem modeļiem ar to, ka tā necenšas saprast teikto, tikai identificē izrunātos vārdus. Tā kā daudzi vārdi angļu valodā izklausās līdzīgi, kļūdas ir viegli pieļaujamas. ASR programmatūra bieži ir atrodama digitālajos diktofonos.