NCBI中的GenBank和RefSeq
RefSeq NM_xxxxxx 和 GenBank Afxxxxxx 看起來是重復的,但 RefSeq 和 GenBank 是分開的數據庫,而且兩者都是可以通過在 Entrez nucleotide 中輸入各自的 ACCESSION 獲得。開始時臨時的 RefSeq 記錄與 GenBank 記錄非常相似。
但是,當 RefSeq 記錄被專家 review 以后,新增的序列數據、生物學注解、和參考文獻常被加入。那時, RefSeq 條目(即序列)代表一個來自不同實驗室的綜合信息,這時二者可以非常不同。
GenBank 是一個多種序列的存儲池,對每個基因都含有許多序列。而 RefSeq 數據庫被設計成每個人類位點挑出一個代表序列來減少重復,是 NCBI 提供的校正的序列數據和相關的信息。數據庫包括構建的基因組 contig 、 mRNA 、蛋白和整個染色體。
RefSeq 記錄是有三種可以獲得的狀態:預測的,臨時的和檢查過的( reviewd )。檢查過的記錄代表了目前關于一個基因和它的轉錄子的知識的匯編。它們很多都來自于 GenBank 記錄、人類基因組命名委員會、和 OMIM 。 RefSeq 標準為人類基因組的功能注解提供一個基礎。
RefSeq 記錄通過以下步驟創建:
1 、確定代表不同基因的序列
2 、建立正確的基因名字到登錄號的聯系
3 、確定完整范圍的可以獲得的序列數據
4 、創建一個新的處于三種狀態之一的參考序列 (RefSeq) 記錄
為什么 RefSeq 記錄中的基因符號( symbol )有時和相關的 GenBank 中的不一樣? RefSeq 全部使用官方基因符號。而 GenBank 是一個公共的序列備份庫,由數據發現者提供。有的作者會向相關的物種命名委員會取得官方基因符號,但有的作者沒有,所以有時會產生別名。
GenBank 與 Pubmed 相同,通過 display 可以選擇顯示格式,常用的有 GenBank 和 FASTA 兩種格式。如果要對基因序列作進一步分析, FASTA 格式是很好的選擇。 FASTA 格式僅包括該序列的簡要特征,并以 ATGC4 種堿基列出核苷酸序列,簡單明了。
而 GenBank 格式可顯示較完整的基因序列記錄,反映核苷酸序列的詳細信息。
北京天優福康生物科技有限公司
服務熱線:400-860-6160
聯系電話/微信:13718308763
QQ:2136615612 3317607072
E-mail:Tianyoubzwz@163.com