Kas ir genoma datu bāze?

Genoms ir visa ģenētiskā materiāla kopums, kas atrodas vienā organismā. Tā kā šī ģenētiskā materiāla secība un struktūra virza visu bioloģisko dzīvi, zinātnieki ir ļoti ieinteresēti noskaidrot, kam tie visi ir paredzēti. Genoma datu bāze ir savstarpējas atsauces informācijas apkopojums par vienu vai vairākiem organismiem, tāpēc viens zinātnieks var apskatīt visu pieejamo ģenētisko informāciju, lai palīdzētu viņam vai viņai veikt pētījumus.

Genomi ir ļoti sarežģīti un satur miljardiem bāzu informācijas secībā. Tāpēc datorizētas datu bāzes ir vienīgais praktiskais veids, kā sakārtot informāciju vienuviet. Parasti tās ir pieejamas kā tiešsaistes datubāzes zinātniskiem pētījumiem. Salīdzinoši jauna zinātnes joma, ko sauc par bioinformātiku, ir izveidojusies, lai pilnveidotu veidu, kā bioloģiskos datus var interpretēt, izmantojot datorsistēmas.

Genomu datu bāzes satur organisma gēnu secību, ja ir zināma visa secība. Pretējā gadījumā tajā var būt daļējas secības. Piemēram, ir sekvencēti cilvēka, peles un Drosophila mušu genomi. Ja ir zināma genoma secība, ģenētiķi var identificēt konkrētus gēnus genomā. Katrs gēns ir viena konkrēta šūnu produkta instrukciju lapa.

Ja gēnam ir mutācija, tam ir cita secība nekā parastajam funkcionālajam gēnam. Mutācijas var būt labvēlīgas un radīt noderīgu īpašību mutācijas organismā. Tie var arī neietekmēt produktu, vai arī tie var kaitēt normālai organisma darbībai. Piemēram, daudzi veselības stāvokļi ir saistīti ar mutācijām noteiktā gēnā.

Mutācijas var izmantot arī, lai aprēķinātu, cik cieši saistīta konkrēta suga ir citai, jo laika gaitā uzkrājas vairāk mutāciju. Indivīdiem var atšķirties arī genoma secība, jo īpaši tāpēc, ka lielas genoma daļas nav gēni un nekodē nevienu būtisku šūnu produktu. Genoma datu bāzē ir kāda organisma secība, kas ir noteikta kā standarts, taču starp patvaļīgi izvēlēto standartu un citiem sugas indivīdiem būs daudz nelielu atšķirību.

Neskatoties uz daudzām atšķirībām, gēnus var atpazīt pēc sekvencēm. Ja ģenētiķi zina, ko konkrētais gēns dara vienā organismā, tad gēns ar līdzīgu secību citā dzīvniekā, visticamāk, veic to pašu funkciju. Ģenētiķi var izmantot genoma datu bāzi, lai identificētu gēnu, ko viņi pēta, vai lai noskaidrotu, ko gēns dara.
Katra genoma datu bāze ir meklējama. Parasti zinātnieki var meklēt datubāzē vienā no vairākiem dažādiem veidiem. Parasti viņš vai viņa var ievadīt viņa sekvencētā gēna secību. Pēc tam datu bāze salīdzināšanai atrod vienu vai vairākas līdzīgas secības.

Vienkāršāks datubāzes meklēšanas veids ietver gēna atslēgas vārda, piemēram, gēna nosaukuma, meklēšanu. Iestādes, piemēram, ASV Nacionālā biotehnoloģijas informācijas iestāde (NCBI), var piešķirt sekvencēm atšķirīgus atsauces numurus, un ģenētiķis var arī meklēt genoma datu bāzē, izmantojot vienu no šiem identifikatoriem. Viņš vai viņa var arī sašaurināt rezultātus, izmantojot vairāk meklēšanas parametru. Savstarpējās atsauces informācija ir vairums genomu datu bāzu iezīme, un vienas secības rezultāts arī nodrošinās datu bāzes lietotājam noderīgas saites, lai iegūtu vairāk ģenētiskās informācijas. Papildus informācijai par konkrētu secību daudzas datu bāzes nodrošina vizuālu secības un šīs apgabala ievērojamo iezīmju attēlojumu.
Dažādiem organismiem var būt noteiktas genoma datu bāzes, bet dažās lielākās datubāzēs ir vairāk nekā viena suga. Dažādas iestādes kontrolē dažādas pieejamās datu bāzes, tāpēc visas datu bāzes var izmantot atšķirīgus formātus un meklēšanas iespējas. Daži šo iestāžu piemēri ir NCBI, Eiropas Bioinformātikas institūts vai pat atsevišķas universitātes.