中度重復(fù)序列大致指在真核基因組中重復(fù)數(shù)十至數(shù)萬(wàn)(<105)次的重復(fù)順序。其復(fù)性速度快于單拷貝順序,但慢于高度重復(fù)順序。少數(shù)在基因組中成串排列在一個(gè)區(qū)域,大多數(shù)與單拷貝基因間隔排列。依據(jù)重復(fù)順序的長(zhǎng)度,中度重復(fù)順序可分為兩種類(lèi)型。
(1)短分散片段 (short interspersed repeated segments, SINES)這類(lèi)重復(fù)順序的平均長(zhǎng)度約為300bp(〈500bp),它們與平均長(zhǎng)度約為1000bp的單拷貝順序間隔排列。拷貝數(shù)可達(dá)10萬(wàn)左右。如Alu家族,Hinf家族等屬于這種類(lèi)型的中度重復(fù)序列。
(2)長(zhǎng)分散片段 (Long interspersed repeated segments, LINES)這類(lèi)重復(fù)順序的長(zhǎng)度大于1000bp,平均長(zhǎng)度為3500-5000bp,它們與平均長(zhǎng)度為13000bp(個(gè)別長(zhǎng)幾萬(wàn)bp)的單拷貝順序間隔排列。
也有的實(shí)驗(yàn)顯示人基因組中所有LINES之間的平均距離為2.2kb,拷貝數(shù)一般在1萬(wàn)左右,如KpnⅠ家族等。中度重復(fù)順序在基因組中所占比例在不同種屬之間差異很大,一般約占10-40%,在人約為12%。這些順序大多不編碼蛋白質(zhì)。
這些非編碼的中度重復(fù)順序的功能可能類(lèi)似于高度重復(fù)順序。在結(jié)構(gòu)基因之間,基因簇中,以及內(nèi)含子內(nèi)都可以見(jiàn)到這些短的和長(zhǎng)的中度重復(fù)順序。按本文的分類(lèi)原則有些中度重復(fù)順序則是編碼蛋白質(zhì)或rRNA的結(jié)構(gòu)基因,如HLA基因,rRNA基因,tRNA基因,組蛋白基因,免疫球蛋白基因等。
中度重復(fù)順序一般具有種特異性;在適當(dāng)?shù)那闆r下,可以應(yīng)用它們作為探針區(qū)分不同種哺乳動(dòng)物細(xì)胞的DNA。下面介紹幾種典型的中度重復(fù)順序。
Alu家族: Alu家族是哺乳動(dòng)物包括人基因組中含量最豐富的一種中度重復(fù)順序家族,在單倍體人基因組中重復(fù)達(dá)30萬(wàn)-50萬(wàn)次,約占人基因組的3-6%。
Alu家族每個(gè)成員的長(zhǎng)度約300bp,由于每個(gè)單位長(zhǎng)度中有一個(gè)限制性內(nèi)切酶Alu的切點(diǎn)(AG↓CT)從而將其切成長(zhǎng)130和170bp的兩段,因而定名為Alu序列(或Alu家族)。Alu序列分散在整個(gè)人體或其他哺乳動(dòng)物基因組中,在間隔DNA,內(nèi)含子中都發(fā)現(xiàn)有Alu序列,平均每5kbDNA就有一個(gè)Alu順序。
已建立的基因組中無(wú)例外地含有Alu順序。Alu順序具有種的特異性,人的Alu順序制備的探針只能用于檢測(cè)人的基因組中的Alu序列。由于在大多數(shù)的含有人的DNA的克隆中都含有Alu順序,因此,可以這樣認(rèn)為,用人的Alu序列制備的探針與要篩選的克隆雜交,陽(yáng)性者即為含有人DNA克隆,陰性者不含有人DNA。
序列分析表明人類(lèi)Alu順序是由兩個(gè)約130bp的正向重復(fù)構(gòu)成的二聚體,而在第二個(gè)單體中有一個(gè)31bp的插入序列,該插入序列在Alu家族的不同成員之間核苷酸順序相似但不相同。每個(gè)Alu順序兩側(cè)為6-20bp的正向重復(fù)順序,不同的Alu成員的側(cè)翼重復(fù)順序也各不相同。
Alu序列的5'端比較保守,但富含脫氧腺苷酸殘基的3'端在不同的Alu成員中是有變化的。在相近的生物體中Alu家族在結(jié)構(gòu)上存在相似性,一般認(rèn)為靈長(zhǎng)類(lèi)基因組中的Alu順序多為由兩個(gè)130bp的正向重復(fù)組成的二聚體,而嚙類(lèi)動(dòng)物則為由一個(gè)130bp左右的DNA片段組成的單體。
Alu序列在不同的哺乳動(dòng)物之間存在著一定的相似性,但其序列相差較大,不會(huì)產(chǎn)生交叉雜交。Alu順序廣泛散布于整個(gè)基因組的原因可能是由于Alu順序可由RNA聚合酶轉(zhuǎn)錄成RNA分子,再經(jīng)反轉(zhuǎn)錄酶的作用形成cDNA,然后重新插入基因組所致。
也有人認(rèn)為Alu序列兩側(cè)存在著短的重復(fù)順序,使得Alu順序很象轉(zhuǎn)座子,因此推測(cè)Alu順序可能也是能夠移動(dòng)的。這可能是它們?cè)谡麄€(gè)基因組中含量如此豐富,頒布如此廣泛的原因之一。
Alu家族的功能是多方面的,由于在許多核內(nèi)不均一RNA(hnRNA)中含有大量的Alu順序,而且,Alu順序含有與某些真核基因內(nèi)含子剪接接頭相似的序列,因而,Alu順序可能參與hnRNA的加工與成熟。
Alu序列在人基因組中不尋常地大量存在,提示它與遺傳重組及染色體不穩(wěn)定性有關(guān)。最近發(fā)現(xiàn)在人的組織細(xì)胞中存在自然發(fā)生的染色體外雙鏈環(huán)狀DAN,被稱(chēng)為人類(lèi)質(zhì)粒(human plasmid),而這些質(zhì)粒又毫無(wú)例外地含有Alu順序。還有研究表明,Alu順序中的某些區(qū)段有形成Z-DNA的能力。
另外,Alu順序可能具有轉(zhuǎn)錄調(diào)節(jié)作用。
KpnⅠ家族: KpnⅠ家族是中度重復(fù)順序中僅次于Alu家族的第二大家族。用限制性內(nèi)切酶KpnⅠ消化人類(lèi)及其它靈長(zhǎng)類(lèi)動(dòng)物的DNA,在電泳譜上可以看到4個(gè)不同長(zhǎng)度的片段,分別為1.2,1.5,1.8和1.9kb,這就是所謂的KpnⅠ家族。
KpnⅠ家族成員順序比Alu家族更長(zhǎng)(如人KpnⅠ順序長(zhǎng)6.4kb),而且更加不均一,呈散在分布,屬于中度重復(fù)順序的長(zhǎng)分散片段型。盡管不同長(zhǎng)度類(lèi)型的KpnⅠ家族(稱(chēng)為亞類(lèi),subfamily)之間同源性比較小,不能互相雜交,但它們的3'端有廣泛的同源性。
KpnⅠ家族的拷貝數(shù)約為3000 ̄4800個(gè),占人體基因組的1%,與散在分布的Alu家族相似,KpnⅠ家族中至少有一部份也是通過(guò)KpnⅠ順序的RNA轉(zhuǎn)錄產(chǎn)物的cDNA拷貝的重新插入到人基因組DNA中而產(chǎn)生的。
Hinf家族: 這一家族以319bp長(zhǎng)度的串聯(lián)重復(fù)存在于人體基因組中。用限制性內(nèi)切酶HinfⅠ消化人體DNA,可以分離到這一片段。Hinf家族在單位基因組內(nèi)約有50 100個(gè)拷貝,分散在不同的區(qū)域。319bp單位可以再分成兩個(gè)亞單位,分別為172bp和147bp,它們之間有70%的同源性。
多聚dT-dG家族: 這一家族的基本單位是dT-dG雙核苷酸,多個(gè)dT-dG雙核苷酸串聯(lián)重復(fù)在一起,分散于人體基因組中。已經(jīng)發(fā)現(xiàn),這個(gè)家族的一個(gè)成員位于人類(lèi)δ和β珠蛋白基因之間,含有17個(gè)dT-dG雙核苷酸組成的串聯(lián)重復(fù)順序。
在人基因組中,dT-dG交替順序達(dá)106拷貝,這些順序的平均長(zhǎng)度為40bp。人們推測(cè),這樣一個(gè)短的串聯(lián)重復(fù)順序可能是基因轉(zhuǎn)變(gene conversion)或不等交換(unequal crossing-over)的識(shí)別信號(hào)。
另外,這些嘌呤和嘧啶的交替順序有助于Z-DNA的形成,在基因調(diào)節(jié)中可能起著重要的作用。中度重復(fù)順序除了包括以上非編碼區(qū)域外,許多編碼區(qū)如rRNA基因,tRNA基因,組蛋白基因等在基因組中也多次重復(fù),屬于中度重復(fù)順序。
rRNA基因: 在原核生物如大腸桿菌基因組中,rRNA基因一共是七套;在真核生物中rRNA基因的重復(fù)次數(shù)更多。
在真核生物基因組中18S和28S,rRNA基因是在同一轉(zhuǎn)錄單位中,低等的真核生物如酵母中,5SrRNA也和18S,28SrRNA在同一轉(zhuǎn)錄單位中;而在高等生物中,5SrRNA是單獨(dú)轉(zhuǎn)錄的,而且其在基因組中的重復(fù)次數(shù)高于18S和28S基因。和一般的中度重復(fù)順序不一樣,各重復(fù)單位中的rRNA基因都是相同的。
rRNA基因通常集中成簇存在,而不是分散于基因組中,這樣的區(qū)域稱(chēng)為rDNA,如染色體的核仁組織區(qū)(nucleolus organizer region)即為rDNA區(qū)。 18S和28SrRNA基因構(gòu)成一個(gè)轉(zhuǎn)錄單位。從轉(zhuǎn)錄單位上轉(zhuǎn)錄下來(lái)的rRNA前體經(jīng)過(guò)酶切成為18S和28SrRNA。
在哺乳動(dòng)物和兩棲動(dòng)物中,18S和28SrRNA之間一同被轉(zhuǎn)錄下來(lái)的間隔區(qū)經(jīng)過(guò)加工成為5.8SrRNA(在大腸桿菌中該區(qū)含有tRNA序列)。rRNA前體的其它部份被降解成核苷酸。真核生物中每個(gè)轉(zhuǎn)錄單位約長(zhǎng)7-8kb(在哺乳動(dòng)物中長(zhǎng)13kb),其中編碼rRNA的部份占70-80%(哺乳動(dòng)物中只占50%左右)。
一個(gè)rRNA基因簇(rDNA簇)含有許多轉(zhuǎn)錄單位,轉(zhuǎn)錄單位之間為不轉(zhuǎn)錄的間隔區(qū),該間隔區(qū)由21-100bp片段組成的類(lèi)似衛(wèi)星DNA的串聯(lián)重復(fù)順序。
轉(zhuǎn)錄單位和不轉(zhuǎn)錄的間隔區(qū)構(gòu)成一個(gè)rDNA重復(fù)單位。由于不轉(zhuǎn)錄的間隔區(qū)中類(lèi)似衛(wèi)星DNA的串聯(lián)重復(fù)次數(shù)不一樣,因此,在不同生物及同種生物的不同rDNA重復(fù)單位之間不轉(zhuǎn)錄間隔區(qū)的長(zhǎng)短相差甚大。
非洲爪蟾的rDNA簇中,由類(lèi)似衛(wèi)星DNA的重復(fù)序列交替排列構(gòu)成。5'端為一固定長(zhǎng)度的獨(dú)特順序;后面的重復(fù)區(qū)域是由97bp的重復(fù)單位組成;另外兩個(gè)重復(fù)區(qū)域是由60bp或81bp的重復(fù)單位構(gòu)成;由于每個(gè)重復(fù)區(qū)域中重復(fù)單位的重復(fù)次數(shù)在不同的rDNA重復(fù)單位中不一樣,因而造成不同的不轉(zhuǎn)錄間隔區(qū)的長(zhǎng)短不一。
另外兩個(gè)固定長(zhǎng)度的區(qū)域稱(chēng)為Bam島(因?yàn)檫@兩個(gè)片段的分離是采用BamHI酶消化制備的)。
Bam島的后半部與轉(zhuǎn)錄單位前面的序列(含有啟動(dòng)子)相似;另外在60/81bp的重復(fù)區(qū)域中也有類(lèi)似的序列。根據(jù)這些結(jié)構(gòu)特點(diǎn),有人認(rèn)為不轉(zhuǎn)錄的間隔區(qū)可能在轉(zhuǎn)錄單位的轉(zhuǎn)錄起始中起著重要作用。
rDNA的重復(fù)單位在許多動(dòng)物的卵子形成過(guò)程中進(jìn)行大量復(fù)制擴(kuò)增,如爪蟾在擴(kuò)增前有rDNA重復(fù)單位500個(gè),在從卵母細(xì)胞前身
(oocyteprecursor)發(fā)展到卵母細(xì)胞過(guò)程中(3周時(shí)間),rDNA的重復(fù)單位可擴(kuò)增400倍,每個(gè)細(xì)胞核的核仁數(shù)增加到幾百個(gè)。
擴(kuò)增rDNA的過(guò)程是采用滾環(huán)式復(fù)制方式在核仁區(qū)進(jìn)行的,擴(kuò)增的DNA不納入到染色體中,而是包含在核區(qū)。卵母細(xì)胞成熟后,大量的rDNA由于失去了存在的意義而逐漸降解。
在卵子形成的過(guò)程中rDNA大量擴(kuò)增的目的,就是為了產(chǎn)生大量的rRNA,組裝成核糖體,用于合成大量的蛋白質(zhì),以滿足受精后發(fā)育的需要。在大多數(shù)真核細(xì)胞中5SrRNA基因和18S,28SrRNA基因不屬于一個(gè)轉(zhuǎn)錄單位。
5SrRNA基因在基因組中亦呈串聯(lián)重復(fù)排列成基因簇。其結(jié)構(gòu)在非洲爪蟾中研究得最為清楚。在爪蟾體細(xì)胞中5SrRNA基因約有500拷貝,而在卵細(xì)胞中5S基因可重復(fù)20000多次。這大概是為了和卵細(xì)胞中大量擴(kuò)增的28S和18S基因相統(tǒng)一。
在爪蟾中發(fā)現(xiàn)有幾種5SrRNA基因。最主要的一種其結(jié)構(gòu)形式與18S、28S基因相似,即5S基因與非轉(zhuǎn)錄間隔區(qū)相間排列,組成一個(gè)重復(fù)單位。
每個(gè)重復(fù)單位的5'端是含有A-T豐富區(qū)的一段49bp長(zhǎng)的G-C豐富區(qū);下面跟是120bp的5SrRNA基因;后面又是一段 并不轉(zhuǎn)錄的序列,而且與前面的5S基因比較有9個(gè)點(diǎn)突變,因此稱(chēng)為這段基因?yàn)榧倩颍╬seudo gene)。盡管假基因不被轉(zhuǎn)錄,但在5S基因簇中總是有等量的5S基因和它的假基因。
在卵細(xì)胞中還有一個(gè)次要的5SrRNA基因,與主要的5S基因在序列上有一定和差異,在結(jié)構(gòu)上與主要的5S基因相似,但整個(gè)重復(fù)單位長(zhǎng)只有350bp,而且間隔區(qū)與主要的5S基因完全不一樣。
人類(lèi)的rRNA基因位于13,14,15,21和22號(hào)染色體的核仁組織區(qū),每個(gè)核仁組織區(qū)平均含有50個(gè)rRNA基因的重復(fù)單位。5SrRNA基因似乎全部位于1號(hào)染色體(1q42-43)上,每單倍體基因組約有1000個(gè)5SrRNA基因。tRNA基因的清確重復(fù)次數(shù)比較難以估計(jì)。
在非洲爪蟾中約有300個(gè)拷貝由tRNAmet,tRNAphe,tRNATrp及其它tRNA基因組成的3.18kb的串聯(lián)重復(fù)單位。而在人體單倍基因組中約有1000-2000個(gè)tRNA基因,為50-60種rRNA編碼,每種平均重復(fù)20-30次。
組蛋白基因: 組蛋白基因在各種生物體內(nèi)重復(fù)的次數(shù)不一樣,但都在中度重復(fù)的范圍內(nèi)。通常每種組蛋白的基因在同一種生物中拷貝數(shù)是相同的。雞的基因組中組蛋白基因有10個(gè)拷貝,在哺乳動(dòng)物中為20拷貝,非洲爪蟾為40拷貝,而海膽的每種組蛋白的基因達(dá)300-600拷貝。
不同生物中組蛋白基因在基因組中的排列不一樣,組蛋白基因沒(méi)有一定的排列方式,而在拷貝數(shù)高的基因組中(>100拷貝),大部份組蛋白基因串聯(lián)重復(fù)形成基因簇。
海膽發(fā)育早期五種組蛋白基形成一個(gè)重復(fù)單位,每種組蛋白基因之間是非轉(zhuǎn)錄間隔區(qū),5個(gè)間隔區(qū)均不相同。這樣的重復(fù)單位在整個(gè)基因組中重復(fù)300次以上,而且這些重復(fù)單位基本上是相同的。在海膽中,5種組蛋白基因的轉(zhuǎn)錄方向都是相同的,每種組蛋白基因獨(dú)立的產(chǎn)生自己的mRNA。
非洲爪蟾卵細(xì)胞5S基因重復(fù)單位包括一個(gè)基因和一個(gè)假基因。在三種不同的海膽中,其組蛋白基因重復(fù)單位中非轉(zhuǎn)錄間隔區(qū)在長(zhǎng)度和序列上差異是很大的,盡管它們的組蛋白基因的長(zhǎng)度和序列相差不多。實(shí)際上,在同一種海膽內(nèi)不同的組蛋白基因重復(fù)單位之間,相應(yīng)的非轉(zhuǎn)錄間隔區(qū)也不是完全相同的。
另外,在海膽胚胎發(fā)育晚期,要由晚期組蛋白基因來(lái)編碼組蛋白,該基因與上述的早期組蛋白基因有輕微的差異,但該組蛋白基因不成簇排列,整個(gè)基因組僅有10個(gè)拷貝,呈散在分布。
在果蠅和非洲爪蟾中,5種組蛋白也排成一個(gè)重復(fù)單位,也存在間隔區(qū),而且組蛋白基因的轉(zhuǎn)錄方向不一樣。多個(gè)重復(fù)單位也形成串聯(lián)重復(fù)排列。進(jìn)化到哺乳動(dòng)物,組蛋白基因一般不再形成重復(fù)單位,而呈散在分布或集成一小群。
盡管組蛋白基因在基因組中的排列和分布在不同生物之間相差甚大,但是所有組蛋白基因都不含內(nèi)含子,而且在序列上相應(yīng)的組蛋白基因都很相似,從而編碼的組蛋白在結(jié)構(gòu)上和功能上也極為相似。
基因組中存在大量重復(fù)序列用以編碼組蛋白是有其重要意義的。DNA復(fù)制時(shí),組蛋白也要成倍增加,而且往往在DNA合成一小段后,組蛋白馬上就要與其相結(jié)合,這要求在較短的時(shí)間內(nèi)合成大量的組蛋白,因而需要有大量的組蛋白基因存在。
人體基因組中還有幾個(gè)大的基因簇,也屬于中度重復(fù)順序長(zhǎng)的分散片段型。在一個(gè)基因簇內(nèi)含有幾百個(gè)功能相關(guān)的基因,這些基因簇又稱(chēng)為超基因(Super gene),如人類(lèi)主要組織相容性抗原復(fù)合體HLA和免疫球蛋白重鏈及輕鏈基因都屬于超基因。
超基因可能是由于基因擴(kuò)增后又經(jīng)過(guò)功能和結(jié)構(gòu)上的輕微改變而產(chǎn)生的,但仍保留了原始基因的結(jié)構(gòu)及功能的完整性。
北京天優(yōu)福康生物科技有限公司
官網(wǎng):http://www.jyzjsd.com/
服務(wù)熱線:400-860-6160
聯(lián)系電話/微信:13718308763
QQ:2136615612 3317607072
E-mail:Tianyoubzwz@163.com