Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

人類基因組

Подписчиков: 0, рейтинг: 0
根據一般人類體細胞所擁有的染色體而繪製的「染色體組型圖」。

人類基因組(human genome)又称人類基因體,是一套完整的人类核酸序列,其被编码成“细胞核中23对染色体内的DNA”及“个别线粒体内的一条小DNA分子”;通常被分成核基因组线粒体基因组两类探讨。人类基因组含有約30億個DNA鹼基對,鹼基對是以氫鍵相結合的兩個含氮鹼基,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鳥嘌呤(G)四種鹼基排列成鹼基序列,其中A与T之间由两个氢键连接,G与C之间由三个氢键连接,碱基对的排列在DNA中也只能是A对T,G对C。其中一部分的鹼基對組成了大約20000到25000個蛋白質編碼基因

全世界的生物學醫學界在人類基因組計畫中,調查人類基因組中的真染色質基因序列,發現人類的基因数量比原先預期的少得多,其中的外顯子,也就是能夠製造蛋白質的編碼序列,只佔總長度的1.5%。

組成

染色體

人類基因組是由23對染色體(共46個)所構成,每一個染色體皆含有數百個基因,在基因與基因之間,會有一段可能含有調控序列和非編碼DNA的基因間區段

人類擁有23對不同的染色體,其中22對屬於常染色體體染色體),另外還有1對能夠決定性別的性染色體,分別是2或1條X染色體與0或1條Y染色體。1號到22號染色體的編號順序,大致符合他們由大到小的尺寸排列。最大的染色體約含有2億5千萬個鹼基對,最小的則約有3800萬個鹼基對。這些染色體通常以細絲狀存於細胞核內,若將單一細胞內的染色體拉成直線,那麼將大約有1.83公尺(6英尺)長(1英尺=30.48公分)。

在人類個體的體細胞中,通常含有來自親代的1到22對體染色體,再加上來自母親的X染色體,以及來自父親的X或Y染色體,總共是46個(23對)染色體。科學家將這些染色體分為7組:1號到3號是A組;4號與5號是B組;X染色體以及6號到12號是C組;13號到15號是D組;16號到18號是E組;19號與20號是F組;21號、22號與Y染色體是G組。對於一般人類來說,每個細胞核內只有兩套染色體。

基因

人類與其他物種的基因組比較(大約)
物種 鹼基對數量 基因數量
Mycoplasma genitalium
黴漿菌(生殖器支原體)
580,000 500
Streptococcus pneumoniae
肺炎雙球菌
2,200,000 2,300
Haemophilus influenzae
流感嗜血桿菌
1,830,140 1,700
Escherichia coli
大腸桿菌
4,600,000 4,400
Saccharomyces cerevisiae
釀酒酵母
12,000,000 5,538
Caenorhabditis elegans
秀麗隱杆線蟲
97,000,000 18,250
Arabidopsis thaliana
阿拉伯芥(擬南芥)
125,000,000 25,500
Drosophila melanogaster
黑腹果蠅
180,000,000 13,350
Oryza sativa
亞洲稻
466,000,000 45,000-55,000
Mus musculus
小家鼠
2,500,000,000 29,000
Homo sapiens
人類
2,900,000,000 27,000

人體內估計約有20000到25000個蛋白質編碼基因。原本這個估計的數目超過100000,在更好的基因組序列品質與基因識別技術出現之後,才逐漸向下修正為現在的數字。雖然人類的基因數量比起某些較為原始的生物(如線蟲果蠅)更少,但是在人類細胞中使用了大量的選擇性剪接(alternative splicing;將穿插在內含子中的外顯子以選擇性的方式進行轉錄),這使得一個基因能夠製造出多種不同的蛋白質,且人類的蛋白質組規模也較前述的兩個物種更龐大。

大多數人類基因擁有許多的外顯子,且人類的內含子比位在其兩端的外顯子更長。這些基因參差不齊地分佈在染色體中,每一個染色體皆含有一些基因較多的區段與基因較少的區段。這些區段的差異,則與染色體帶(chromosome bands)及GC含量相關。基因密度所顯現的非隨機模式之涵義與重要性尚未明瞭。

除了蛋白質編碼基因之外,人類的基因組還包含了數千個RNA基因(製造非編碼RNA),其中包括用來轉錄轉運RNA(tRNA)、核糖體RNA(rRNA)與信使RNA(mRNA)的基因。其中轉錄rRNA的基因稱為rDNA,分佈在許多不同的染色體上。

調控序列

人類基因組含有許多不同的調控序列,並以此來控制基因表現。這些序列是典型的短序列,會出現在靠近基因的位置。由於高通量表達(high-throughput expression;指利用電腦與機器輔助以進行大量的序列分析)技術與比較基因組學研究的出現,人們開始系統性地了解這些調控序列,以及它們共同構成的基因調控網路(gene regulatory network)。

人們之所以能夠出辨認哪些基因序列是調控序列,是因為生物在演化過程中對基因的保留。以大約7千萬年前到9千萬年前分支的人類老鼠為例:若以電腦比較兩者的基因序列,並且將兩者皆保有的非編碼序列辨識出來,就可以知道哪些基因序列可能對於基因調控來說相當重要。

人類所擁有的調控序列所在位置,可以利用河豚的基因定位出來。因為河豚與人類擁有相同的基因,同時也擁有和人類相同的調控序列,但是「垃圾」基因比人類更少。如此較為簡潔的DNA序列,使得調控基因的位置較容易定位。

其他DNA

蛋白質編碼序列(也就是外顯子)在人類基因組中少於1.5%。在基因與調控序列之外,仍然有許多功能未知的廣大區域。科學家估計這些區域在人類基因組中約占有97%,其中許多是屬於重複序列重複序列)、轉位子(transposon)與偽基因(pseudogene)。除此之外,還有大量序列不屬於上述的已知分類。

這些序列大多數可能是演化的產物,現在已經沒有作用,也因此有時會被稱作是「垃圾DNA」(junk DNA)。不過有一些跡象顯示,這些序列可能會經由某些仍然未知的方式產生作用。最近一些使用微陣列技術所作的實驗發現,大量非基因DNA事實上會被轉錄成為RNA,這顯示轉錄作用背後可能還存在一些未知的機制。此外,不同種類的哺乳動物在演化的過程中共同保留了這些序列,也顯示基因組中還有很多作用未知的部分。人類基因組內大量功能未知的序列,是目前科學研究的重點之一。

變異

大多數對於人類遺傳變異的研究集中在單一核苷酸多型性(single nucleotide polymorphisms;SNPs),也就是DNA中的個別鹼基變換。科學家分析估計,在人類的真染色質(富含基因的染色質)中,平均每100到1000個鹼基會出現1個SNPs,不過密度並不均勻。由於SNPs的存在,如「所有人類的基因有99%都是相同的」一的說法並不精確。國際人類基因組單體型圖計劃(International HapMap Project),便是爲了要將人類基因組中的SNP變異作編錄,而組成的一個大規模合作計畫。

基因組中有一些小型的重複序列,它們所擁有的基因座與基因長度,在不同的人類個體之間有很大的變異性。這也是DNA指紋(DNA fingerprinting)與親子鑑定(paternity testing)技術得以應用的基礎。異染色質(heterochromatin)是人類基因組的一些部分,總共包括有數百萬個鹼基對,這些鹼基對在人類族群之中的變異性也相當大。而且由於異染色質的重複性很高而且長度很長,因此目前的技術仍然無法精確地解出它們的序列。此外異染色質不含基因,對於表現型也沒有顯著的作用。

配子細胞中大多數的基因組突變,可能會造成胚胎不正常發育,而人類的一些疾病也與大尺度的基因組異常有關。例如唐氏症透納氏症(Turner Syndrome),以及許多其他疾病,是染色體的不分離(nondisjunction)現象所造成。在細胞中的染色體,則是頻繁地出現非整倍性(aneuploidy)現象,不過這種現象與癌症之間的關係仍然不明。

2006年一篇發表在《自然》的研究報告中,研究人員發現在人類與其他哺乳類DNA序列中的拷貝數變異(copy number variation;CNV),可能非常重要。拷貝數變異又稱為拷貝數多型性(copy number polymorphisms;CNPs),是缺失(deletion)、插入(insertion)、複寫(duplication),以及複雜多位置變異(complex multi-site variants)的合稱,在所有人類以及其他已測試的哺乳動物中皆可發現。

遺傳疾病

當一個或多個基因發生不正常表現時,便可能會使某個相對應的表型產生一些症狀。遺傳異常的原因包括了基因突變染色體數目異常,或是三聯體擴張重複突變(triplet expansion repeat mutations)。如果受損的基因會從親代遺傳到子代,那就會成為一種遺傳性疾病。目前已知有大約4000種遺傳疾病,囊腫性纖維化是其中最普遍的疾病之一。

科學家通常會以群體遺傳學的方法進行遺傳疾病的研究,對於疾病的治療,則是由一些經過臨床遺傳學訓練,且同時也是遺傳學家的醫生來進行。人類基因組計畫的成果,使遺傳檢測技術能夠更有效地檢查出一些與基因有關的疾病,並且改進治療方法。父母能夠透過遺傳諮詢來偵詢一些遺傳症狀的嚴重性、遺傳的機率,以及如何避免或是改善這些症狀。

基因劑量(Gene dosage)會對人類的表現型產生龐大的影響,對於染色體中造成疾病的複寫、省略與分裂等現象的形成擁有一定的角色。例如唐氏症患者(21號染色體為三體)有較高的比率得到阿茲海默症,可能是因為與阿茲海默症有關的類澱粉前趨蛋白基因(位在21號染色體上)的過度表現所致。而且相對而言,唐氏症患者中則有較低的比率得到乳癌,可能是因為腫瘤抑制基因(tumor-suppressor gene)的過度表現。

演化

比較基因組學(Comparative genomics)對於哺乳類基因組的研究顯示,人類與大約兩億年前就已經分化的各物種相比,有大約5%的比例在人類基因組中保留了下來,其中包含許多的基因與調控序列。而且人類與大多數已知的脊椎動物間,也享有了一些相同的基因。

黑猩猩的基因組與人類的基因組之間,有98.77%是相似的。而平均每一個屬於人類的標準蛋白質編碼基因,只與屬於黑猩猩的同源基因相差兩個氨基酸;並且有將近三分之一的人類基因與黑猩猩的同源基因,能夠轉譯出相同的蛋白質。人類的2號染色體,是人類與黑猩猩基因組之間的主要差異,這一條染色體是由黑猩猩的染色體12號13號融合而成。

人類在晚近的演化過程中失去了嗅覺受器基因,這解釋了為何人類比起其他的哺乳動物來說,擁有較差的嗅覺。演化上的證據顯示,人類與某些靈長類所擁有的彩色視覺,降低了這些物種對於嗅覺能力的需求。

粒線體基因組

大多數的基因是存在細胞核中,但是細胞中一個稱為粒線體胞器,也擁有自己的基因組。粒線體基因組在粒線體疾病(mitochondrial disease)中具有一定的重要性。而且這些基因也可以用來研究人類的演化,舉例而言,若分析人類粒線體基因組的變異情況,將能夠使科學家描繪出人類的共同祖先,稱為「粒線體夏娃」(Mitochondrial Eve)。之所以稱為夏娃,是因為粒線體是位於細胞質中,而人類的精子與卵子結合時,源自母親(女性)的卵子提供了絕大多數的細胞質,因此人類細胞中的粒線體基因皆是來自母親。

由於粒線體缺乏用來檢查複製錯誤的能力,因此粒線體DNA(mDNA)的變異速率比細胞核DNA(一般所指的DNA)更快。粒線體的突變速率快了20倍,這使mDNA能夠用來較為精確地追溯出母系祖先。研究族群中的mDNA,也能使人們得知此族群過去的遷移路徑,例如來自西伯利亞美洲原住民;以及來自東南亞波里尼西亞人。更有甚者,mDNA研究顯示在歐洲人的基因中並無參雜尼安德塔人的DNA。

與每個細胞核皆只有兩套染色體組成的核基因組不同,粒線體基因組在每個粒線體當中,皆有大約10個以環狀DNA,整個細胞裡則約有8000個。每個環DNA上有16569個鹼基對,共組成37個基因,其中13個是蛋白質編碼,22個是RNA基因。這些基因大多與呼吸作用有關。

研究

人類基因組計畫

雷纳托·杜爾貝科(Renato Dulbecco;主要研究基因與腫瘤的關係)是最早提出人類基因組定序的科學家之一。他認為如果能夠知道所有人類基因的序列,對於癌症的研究將會很有幫助。不過以1986年的技術而言,若要將所有人類的DNA都定序完成,需要花上1500年。美國能源部(DOE)與美國國家衛生研究院(NIH),分別在1986年與1987年加入人類基因組計畫。除了美國之外,日本在1981年就已經開始研究相關問題,但是並沒有美國那樣積極。

到了1988年,詹姆士·華生(DNA雙螺旋結構發現者之一)成為NIH的基因組部門主管。1990年,開始國際合作。1996年,多個國家招開百慕達會議,以2005年完成定序為目標,分配了各國負責的工作,並且宣布研究結果將會即時公佈,並完全免費。

1998年,克萊格·凡特塞雷拉基因組公司成立,邀請具基因定序之父的陳奕雄博士擔任首席科學家,開發出全世界第一台全自動定序儀,啟動了全自動定序的時代來到;賽雷拉宣布將在2001年完成定序工作。隨後,國際團隊也將完成工作的期限提前。2000年6月26日,塞雷拉公司的代表凡特,以及國際合作團隊的代表弗朗西斯·柯林斯(Francis Collins),在美國總統柯林頓的陪同下發表演說,宣布人類基因組的概要已經完成。2001年2月,國際團隊與塞雷拉公司,分別將研究成果發表於《自然》與《科學》兩份期刊。

在基因組計畫的研究過程中,陳奕雄博士使用的是霰彈槍定序法(shotgun sequencing),這種方法較為迅速,但是仍需以傳統定序來分析細節。

專利問題

23條染色體上的專利數目
染色體編號 基因數目 專利數目
1號 2769 504
2號 1776 330
3號 1445 307
4號 1023 215
5號 1261 254
6號 1401 225
7號 1410 232
8號 952 208
9號 1086 233
10號 1042 170
11號 1626 312
12號 1347 252
13號 477 97
14號 821 155
15號 915 141
16號 1139 192
17號 1471 313
18號 408 74
19號 1715 270
20號 762 178
21號 357 66
22號 106 657
X 1090 200
Y 144 14

從1981年到1995年間,全世界共有1175件DNA序列的專利許可。早期的申請對象主要是機能已知的基因,後來原屬於美國國家衛生研究院克萊格·凡特,將2716件尚未了解功能的基因,反轉錄cDNA型式,並且提交專利申請。這些申請受到了當時掌管NIH基因組部門的詹姆士·華生等許多科學家的反對,並且被專利局駁回。

目前人們對於基因資訊是否應該登記專利仍有爭議。由於學術研究並非營利性,因此通常不受這些專利所拘束。此外由於美國政府近年來將專利申請條件提高,因此與DNA有關的專利許可,在2001年之後已逐漸減少。到2005年4月為止,美國國家生計資訊中心所記載的基因資料中,有82%沒有專利標示,另外有14%屬於私人機構,3%屬於公家單位。

右表顯示2006年時每條染色體上的基因數目與專利數目,由於有時候會有多個基因登記成一項專利;或者是一個基因擁有多項專利,因此表中的基因與專利不一定有一對一的關係。

圖譜

基因組圖譜主要可以分成兩種,一種是遺傳圖譜(genetic map),另一種則是物理圖譜(physical map)。遺傳圖譜是利用基因的重組率來做分析,單位是分莫甘(centimorgan)。這種圖譜表現出來的是基因或特定DNA片段之間的相對位置,而不是它們各自的絕對位置。物理圖譜則是DNA兩點的實際距離,是實際將DNA片段排序而得,單位是鹼基的數目(如Kb;kilobase)。有時候物理圖譜上相隔很遠的基因,可能會因為發生互換的機率較少(雖然理論上相隔愈遠互換率愈高),而在遺傳圖譜上顯得較相近。

參考文獻

引用

来源

期刊文章
  • Lindblad-Toh K; et al. Genome sequence, comparative analysis and haplotype structure of the domestic dog.. Nature. 2005, 438 (7069): 803–19. PMID 16341006. 

外部連結

參見


Новое сообщение