Kas ir runas korpuss?

Runas korpuss, kas pazīstams arī kā runas korpuss, ir runu kopums, kas saglabāts audio vai teksta formātā. Šīs kolekcijas ir noderīgas runas programmatūras izstrādē un lingvistisko pētījumu veikšanā. Divas runas korpusa šķirnes ir spontānā runa un lasītā runa.
Ir svarīgi definēt, ko nozīmē vārdi “runa” un “korpuss”. Runa ietver domu un faktu apkopojumus, parasti runas formā. Jebkuru runāto izteikumu var uzskatīt arī par runu. Korpuss savukārt atsaucas uz formālu dažādu informācijas vienību kolekciju.

Lietotāji parasti veido runas korpusu, izmantojot audio ierakstus vai teksta transkripcijas. Ierakstus var veikt, izmantojot skaņas uzglabāšanas tehnoloģijas, un glabāt — bieži vien kā MP3 failus elektroniskās datubāzēs —, lai izveidotu korpusu. No otras puses, transkribētājs pārvērš runāto runu rakstiskā formā, kas pēc tam tiek apkopota ar citām transkripcijām.

Runas korpusā var atrast jebkura veida runu, taču šādas datu bāzes parasti iedala divās kategorijās. Pirmā, spontānā runa, satur neformalizētas runas, kuras cilvēks var teikt, piemēram, tās, kas atrodamas sarunās vai mutvārdu stāstu stāstos. Tomēr lasītajām runām ir formalizētāka un iepriekš plānota struktūra. Kā piemērus var minēt politiskas runas, ziņu pārraides un audiogrāmatu lasījumus. Dažas šķirnes var būt atkarīgas no konkrētā konteksta, piemēram, intervijas.

Viena no galvenajām runas korpusa rīku priekšrocībām ir to praktiskā lietderība, palīdzot izveidot uz runu balstītu programmatūru. Piemēram, daudzi datori un citas elektroniskas ierīces piedāvā runas atpazīšanas funkcijas, piemēram, drukāta teksta lasīšanu atpakaļ, runāto vārdu pārveidošanu tekstā vai runātāja identificēšanu pēc unikālām balss iezīmēm. Izvilkumi no runas korpusa var palīdzēt uzlabot šo tehnoloģiju, katrai atsevišķai skaņai piemērojot matemātiski pamatotas statistikas kopas, ko sauc par akustiskajiem modeļiem. Turklāt datu bāzes var palīdzēt izstrādāt valodu apguves audiokasetes.

Šīs funkcijas ir saistītas ar citu runas korpusa lietojumprogrammu. Proti, zinātnieki var ņemt šos saglabātos audio vai rakstiskos failus un izpētīt smalkās gramatikas variācijas, kas ietver valodu. Tāpēc runas korpuss var kalpot kā vērtīgs instruments, lai uzzinātu par izrunu, vārdu secību un citiem lingvistiskiem modeļiem. Pētnieki var vēl vairāk salīdzināt līdzības un atšķirības dažādos reģionālajos dialektos un valodās, ja viņi izveido kolekciju ar vairākām valodām vai daudzvalodu korpusu. Korpusu, kas ietver runu, novērtējums ir specializēta pētniecības koncentrācija, kas pazīstama kā korpuslingvistika, un tās datorizēto ieviešanu sauc par skaitļošanas lingvistiku.

Daudzās atšifrējumu datu bāzēs ir ietverti apzīmējumi vai atzīmes, kas satur informāciju par atsevišķiem teksta elementiem. Šo procesu sauc par anotāciju. Abstrakcijas procesā valodnieki runā dokumentēs un tulkos dažādus terminus. Šāda ievade var būt noderīga, ja indivīds vēlas uzzināt par nezināmām civilizācijām ar tekstu palīdzību. Pēdējais korpusa izpētes solis ietver analīzi vai salīdzinājumu un teorētisko ideālu atvasināšanu no runas komponentu kolekcijas.