Satura noteikšana notiek, kad persona, grupa vai programma izlemj, kāda informācija ir jāiekļauj vai jāizslēdz dokumentā vai tekstā. Tas ir saistīts ar jēdzieniem, kas saistīti ar dokumentu strukturēšanu. Tas ir saistīts arī ar dabiskās valodas ģenerēšanu un skaitļošanas lingvistiku. Katrā studiju jomā tiek izmantota satura noteikšana, lai pārbaudītu, kā tiek izvēlēta informācija.
Apsverot, ko ievietot dokumentā vai tekstā, sastādītājs būs veicis savu pētījumu vai arī viņam būs sniegti visi pieejamie dati. Satura noteikšana ietver veidus, kā šī informācija tiek iekļauta galīgajā dokumentā. Tas tiek darīts, nosakot, kāds ir teksta leņķis vai mērķis un kāda informācija tekstā ir saistīta ar to.
Otrs satura noteikšanas apsvērums ir tā stils. Tas mēdz būt atkarīgs no paredzētās auditorijas rakstura. Auditorijas intelekts un priekšmeta pārzināšana mainīs sniegtās informācijas leksisko blīvumu un sarežģītību. Akadēmiķi mēdz veidot blīvākus tekstus nekā, piemēram, tenku žurnāli. Citi apsvērumi ietver formāta lielumu, neatkarīgi no tā, vai tā būs grāmata, raksts vai īsziņa.
Katru satura noteikšanu veic cilvēks. Ir pētnieks un rakstnieks, kas bieži, bet ne vienmēr, ir viena un tā pati persona, un pēc tam redaktors vai redaktori. Katram līmenim ir viedoklis par to, kāds saturs atbilst teksta mērķim. Datorlingvisti un datoru inženieri ir meklējuši veidus, kā reproducēt šo sistēmu, izmantojot datorprogrammas, nevis paļaujoties uz cilvēkiem.
Satura noteikšanai datori izmanto trīs skaitļošanas metodes. “Shēmas tehnika” ir balstīta uz rakstītu tekstu pārbaudi. Tas izmanto iepriekš pārbaudītos tekstus kā pamatu tam, kādu informāciju iekļaut izstrādātajā tekstā. “Statistikas” metode automātiski nosaka saturu, pamatojoties uz virkni vispārīgu statistiku. “Izteiktajā argumentācijā” informācijas pārbaudei un filtrēšanai tiek izmantots mākslīgais intelekts (AI).
Satura noteikšanas vispārējais mērķis ir saprast, kā tiek sagatavoti dokumenti, lai tos varētu reproducēt, izmantojot datorus. Šāda veiksmes rezultāts būs dators, kas spēs saņemt datus, filtrēt tos un sagatavot svarīgākās informācijas kopsavilkumus. Dators šādus dokumentus balstīs ne tikai uz informāciju, bet arī uz izstrādājamā teksta mērķiem. Saskaņā ar Ķīnas istabas teoriju tas var nozīmēt, ka dators spēj saprast datus, nevis tos replicēt un aprēķināt.