Kas ir leksiskais blīvums?

Leksiskais blīvums attiecas uz leksisko un funkcionālo vārdu attiecību jebkurā konkrētā tekstā vai tekstu kolekcijā. Tā ir skaitļošanas lingvistikas un lingvistiskās analīzes nozare. Tas ir saistīts ar vārdu krājumu, jebkura indivīda zināmajiem vārdiem, un to var izmantot, lai salīdzinātu jebkuras personas runāto un rakstīto leksiku. Leksika atšķiras no kopējā vārdu krājuma, jo tajā nav iekļauti funkcionāli vārdi, piemēram, vietniekvārdi un daļiņas.

Runas vai teksta blīvumu aprēķina, salīdzinot leksisko vārdu skaitu un funkcionālo vārdu skaitu. Īsus teikumus un mazus tekstus var aprēķināt, izmantojot prāta aritmētiku vai vienkāršu skaitīšanu. Lielāki salīdzinājumi, piemēram, par Čārlzu Dikensu vai Viljamu Šekspīru, tiek veikti, ievadot informāciju datorprogrammā. Programma izsijās tekstu funkcionālos un leksikos vārdos.

Līdzsvarots leksiskais blīvums ir aptuveni 50 procenti. Tas nozīmē, ka pusi no katra teikuma veido leksikas vārdi un pusi funkcionālie vārdi. Zema blīvuma teksta attiecība būs mazāka par 50:50, bet augsta blīvuma tekstam — lielāka par 50:50. Akadēmiskie teksti un valdības, žargonu piepildīti dokumenti parasti rada vislielāko blīvumu.

Viens no trūkumiem leksiskā blīvuma aprēķinā ir tāds, ka tajā nav ņemtas vērā dažādās vārdu veidojošos formas un gadījumus. Statistiskās analīzes mērķis ir tikai vārdu veidu attiecības izpēte. Tas nerada viena indivīda leksisko zināšanu izpēti. Ja tā būtu, leksiskā blīvuma analīze atšķirtu tādas formas kā “dot” un “deva”. Teorētiski leksisko blīvumu var attiecināt uz tekstiem, lai pētītu noteiktu leksisko vienību biežumu.

Personas rakstīto leksiku var palīdzēt, izmantojot vārdnīcas un tēzaurus. Šādi rīki nodrošina alternatīvus vārdus un precizē nozīmi. Runājot, cilvēkam jāpaļaujas tikai uz savu garīgo vārdu krājumu. Tas nozīmē, ka leksisko blīvumu var izmantot kā līdzekli runātās un rakstītās leksikas salīdzināšanai. Runāto valodu leksiskais blīvums mēdz būt mazāks nekā rakstītam tekstam.

Datorlingvistika ir lingvistiskās analīzes statistiskās modelēšanas joma. Tas radās no aukstā kara un Amerikas vēlmes izmantot datorus, lai tulkotu tekstus no krievu valodas angļu valodā. Lai to izdarītu, bija jāizmanto matemātika, statistika, mākslīgais intelekts un datorprogrammēšana. Programmētāju lielākā problēma bija panākt, lai dators saprastu sarežģītu gramatiku un valodas pragmatiku. Tas radīja Ķīnas istabas teoriju, ka datori var veikt vārdu burtiskus tulkojumus, bet galu galā nespēj saprast valodas.