Kas ir frekvenču saraksts?

Biežuma saraksts ir rīks kvantitatīvās lingvistiskās analīzes veikšanai, uzskaitot visu, kas parādās izvēlētajā teksta blokā un cik bieži tas notiek. Lingvistiskā analīze ir starpdisciplināra joma, kas pēta valodas struktūru un to, kā tā tiek lietota. Apvienojot antropoloģijas, matemātikas, datorzinātnes un loģikas elementus, lingvistiskā analīze tiek izmantota tādos projektos kā mehāniskā tulkošana, kriptogrāfija un seno rakstu atšifrēšana.

Biežuma saraksti var būt vārdu vai burtu saraksti. Burtu frekvences parasti tiek izmantotas kriptogrāfijā. Viens no vienkāršākajiem kodiem ir aizstāšanas šifrs, kur katrs burts tiek aizstāts ar citu burtu vai simbolu. Piemēram, ziņojums “uzbrukums rītausmā” var būt kodēts kā “zoozhl zo azqp”. Aizstāšanas šifru priekšrocība ir tāda, ka tiem nav nepieciešama kodu grāmata, bet trūkums ir tāds, ka tos var uzlauzt, salīdzinot vēstuļu burtu un burtu kombināciju biežumu ar bieži lietotu biežumu sarakstu.

Artūra Konana Doila filmā Dejojošo vīriešu piedzīvojums izdomātais detektīvs Šerloks Holmss izmanto frekvences analīzi, lai uzlauztu aizstāšanas šifru. Vēsturiski kodu veidotāji ir izmēģinājuši dažādus trikus, lai padarītu savus šifrus grūtāk uzlauzt, izmantojot frekvenču sarakstu: šifru ritināšanu, kur izmantotā aizstāšana bija atkarīga no burta atrašanās vietas ziņojumā, atstarpes likvidēšanu vai kodēšanu, lai vārdu frekvences nevarētu izmantot, ziņojumu saglabāšana. īsi un izvairoties no paredzētajiem vārdiem, lai kodu lauzējiem nebūtu pietiekami daudz parauga, ko izmantot biežuma analīzei. Galu galā jebkuru šifru var sabojāt ar pietiekami lielu paraugu, tāpēc par standartu ir kļuvuši sarežģītāki šifrēšanas protokoli.

Vārdu un vārdu veidu frekvenču saraksti tiek izmantoti arī seno valodu pētījumos. Kad Žans Fransuā Šampolions 1820. gados tulkoja Rozetas akmeni, viņa procesā tika izmantots frekvenču un transliterāciju salīdzinājums, lai apvienotu hieroglifu valodu. Pētījumi ir parādījuši, ka senajās valodās, tāpat kā mūsdienu angļu valodā, 1,500 līdz 2,000 vārdu pamatvārdnīca aptver 85–90 procentus izplatīto tekstu, kas ļauj lasītājam paplašināt savu vārdu krājumu no konteksta.

Zipf likums, kas nosaukts Hārvardas valodniecības profesora Džordža Kingslija Zipa vārdā, ir empīrisks novērojums par frekvences reitingu uzvedību. Tajā teikts, ka notikuma biežums ir apgriezti proporcionāls notikuma rangam. Notikums parasti ir vārds vai burts valodu biežuma sarakstā, taču Zipf likums ir vispārināts, lai aptvertu arī citas parādības, piemēram, pilsētu iedzīvotājus un uzņēmumu ienākumus.

Frekvenču saraksts ir svarīgs rīks projektos, kas palīdz datoriem izprast runāto un rakstīto valodu. Viens piemērs ir mehāniskā tulkošana — datoru izmantošana dokumentu tulkošanai no vienas valodas uz citu. Vēl viens piemērs ir Watson, dabiskās valodas superdators, kas tika demonstrēts kā dalībnieks televīzijas spēļu šovā Jeopardy! 2011. gada februārī. Gan vārdu, gan lietojuma veidu frekvences ir iekļautas to programmēšanā kā rīks nozīmes atrašanai.