Kas ir korpuslingvistika?

Korpuslingvistika valodas izpēte, izmantojot reālās dzīves piemērus. Tā nav lingvistikas nozare, bet gan metodoloģija vai pieeja. Korpuss, latīņu vārds “ķermenis”, attiecas uz dabisko tekstu kopumu, un šī pieeja ietver valodas lietošanas modeļu atklāšanu, analizējot korpusu. Korpuslingvistika piedzīvo atgriešanos, jo datorprogrammas ir mainījušas šo pieeju.

Vecāku dienasgrāmatas par bērna runu, kad viņš pirmo reizi apgūst valodu, ir vienkāršs korpusa piemērs, ko pēc tam var pētīt, lai apgūtu valodas modeļus. Svešvalodu mācīšana 20. gadsimta pirmajā pusē bieži izmantoja mērķvalodas korpusus, lai sastādītu studentu vārdu krājuma sarakstus. Izcilais valodnieks Noams Čomskis neuzskatīja korpusu izmantošanu par derīgu rīku, jo uzskatīja, ka valodas prasme ir svarīgāka par veiktspējas datiem. Agrīnā korpuslingvistika lielā mērā balstījās uz pieņēmumu, ka dabiskajā valodā ir ierobežots teikumu skaits un ka šos teikumus var apkopot un novērtēt.

Pēc tam, kad 60. un 70. gados korpuslingvistika piedzīvo atdzimšanu, pateicoties datora metodoloģiskajam lietojumam. Saskaņošanas programma ir valodnieku visbiežāk izmantotās programmatūras nosaukums. Lai gan modeļu meklēšana miljoniem vārdu korpusā cilvēkam aizņemtu pārāk daudz laika un rezultāti nebūtu tik precīzi, dators var meklēt un izgūt informāciju dažu sekunžu laikā. Tas var aprēķināt biežumu, kārtot datus un izmantot korpusus tādos veidos, kas agrāk nebija iespējams.

Korpusa analīze var izpētīt, kā reģistrs ietekmē valodu; valodas lietošanas modeļi, piemēram, tas, kā vīrieši un sievietes atšķirīgi izmanto atzīmju jautājumus; valodas modeļu izmantošanas apjoms; un faktori, kas ietekmē valodas lietojuma mainīgumu. Mācīšana var gūt labumu no korpusa lingvistikas mācību programmas izstrādē, izmantoto materiālu izstrādē un klasē izmantoto aktivitāšu veidā. Studenti varētu gūt labumu no šīs pieejas, spējot skaidrāk noteikt parasto vārdu atšķirīgos lietojumus un nozīmes, atšķirības, kas raksturīgas rakstītajai un runātajai valodai, kā arī frāzes un kolokācijas, kuras viņi varētu izmantot. Datu kopums, kas ir korpuss, tiek pastāvīgi atjaunināts un ir reālās sociālās mijiedarbības rezultāts. Tādējādi korpusi ir naturālistiski dati, kuriem var viegli piekļūt, un konstatējumus var vispārināt.