Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
人類基因組
人類基因組(human genome)又称人類基因體,是一套完整的人类核酸序列,其被编码成“细胞核中23对染色体内的DNA”及“个别线粒体内的一条小DNA分子”;通常被分成核基因组和线粒体基因组两类探讨。人类基因组含有約30億個DNA鹼基對,鹼基對是以氫鍵相結合的兩個含氮鹼基,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鳥嘌呤(G)四種鹼基排列成鹼基序列,其中A与T之间由两个氢键连接,G与C之间由三个氢键连接,碱基对的排列在DNA中也只能是A对T,G对C。其中一部分的鹼基對組成了大約20000到25000個蛋白質編碼基因。
全世界的生物學與醫學界在人類基因組計畫中,調查人類基因組中的真染色質基因序列,發現人類的基因数量比原先預期的少得多,其中的外顯子,也就是能夠製造蛋白質的編碼序列,只佔總長度的1.5%。
目录
組成
染色體
人類擁有23對不同的染色體,其中22對屬於常染色體(體染色體),另外還有1對能夠決定性別的性染色體,分別是2或1條X染色體與0或1條Y染色體。1號到22號染色體的編號順序,大致符合他們由大到小的尺寸排列。最大的染色體約含有2億5千萬個鹼基對,最小的則約有3800萬個鹼基對。這些染色體通常以細絲狀存於細胞核內,若將單一細胞內的染色體拉成直線,那麼將大約有1.83公尺(6英尺)長(1英尺=30.48公分)。
在人類個體的體細胞中,通常含有來自親代的1到22對體染色體,再加上來自母親的X染色體,以及來自父親的X或Y染色體,總共是46個(23對)染色體。科學家將這些染色體分為7組:1號到3號是A組;4號與5號是B組;X染色體以及6號到12號是C組;13號到15號是D組;16號到18號是E組;19號與20號是F組;21號、22號與Y染色體是G組。對於一般人類來說,每個細胞核內只有兩套染色體。
基因
人類與其他物種的基因組比較(大約) | ||
---|---|---|
物種 | 鹼基對數量 | 基因數量 |
Mycoplasma genitalium 黴漿菌(生殖器支原體) |
580,000 | 500 |
Streptococcus pneumoniae 肺炎雙球菌 |
2,200,000 | 2,300 |
Haemophilus influenzae 流感嗜血桿菌 |
1,830,140 | 1,700 |
Escherichia coli 大腸桿菌 |
4,600,000 | 4,400 |
Saccharomyces cerevisiae 釀酒酵母 |
12,000,000 | 5,538 |
Caenorhabditis elegans 秀麗隱杆線蟲 |
97,000,000 | 18,250 |
Arabidopsis thaliana 阿拉伯芥(擬南芥) |
125,000,000 | 25,500 |
Drosophila melanogaster 黑腹果蠅 |
180,000,000 | 13,350 |
Oryza sativa 亞洲稻 |
466,000,000 | 45,000-55,000 |
Mus musculus 小家鼠 |
2,500,000,000 | 29,000 |
Homo sapiens 人類 |
2,900,000,000 | 27,000 |
人體內估計約有20000到25000個蛋白質編碼基因。原本這個估計的數目超過100000,在更好的基因組序列品質與基因識別技術出現之後,才逐漸向下修正為現在的數字。雖然人類的基因數量比起某些較為原始的生物(如線蟲與果蠅)更少,但是在人類細胞中使用了大量的選擇性剪接(alternative splicing;將穿插在內含子中的外顯子以選擇性的方式進行轉錄),這使得一個基因能夠製造出多種不同的蛋白質,且人類的蛋白質組規模也較前述的兩個物種更龐大。
大多數人類基因擁有許多的外顯子,且人類的內含子比位在其兩端的外顯子更長。這些基因參差不齊地分佈在染色體中,每一個染色體皆含有一些基因較多的區段與基因較少的區段。這些區段的差異,則與染色體帶(chromosome bands)及GC含量相關。基因密度所顯現的非隨機模式之涵義與重要性尚未明瞭。
除了蛋白質編碼基因之外,人類的基因組還包含了數千個RNA基因(製造非編碼RNA),其中包括用來轉錄轉運RNA(tRNA)、核糖體RNA(rRNA)與信使RNA(mRNA)的基因。其中轉錄rRNA的基因稱為rDNA,分佈在許多不同的染色體上。
調控序列
人類基因組含有許多不同的調控序列,並以此來控制基因表現。這些序列是典型的短序列,會出現在靠近基因的位置。由於高通量表達(high-throughput expression;指利用電腦與機器輔助以進行大量的序列分析)技術與比較基因組學研究的出現,人們開始系統性地了解這些調控序列,以及它們共同構成的基因調控網路(gene regulatory network)。
人們之所以能夠出辨認哪些基因序列是調控序列,是因為生物在演化過程中對基因的保留。以大約7千萬年前到9千萬年前分支的人類與老鼠為例:若以電腦比較兩者的基因序列,並且將兩者皆保有的非編碼序列辨識出來,就可以知道哪些基因序列可能對於基因調控來說相當重要。
人類所擁有的調控序列所在位置,可以利用河豚的基因定位出來。因為河豚與人類擁有相同的基因,同時也擁有和人類相同的調控序列,但是「垃圾」基因比人類更少。如此較為簡潔的DNA序列,使得調控基因的位置較容易定位。
其他DNA
蛋白質編碼序列(也就是外顯子)在人類基因組中少於1.5%。在基因與調控序列之外,仍然有許多功能未知的廣大區域。科學家估計這些區域在人類基因組中約占有97%,其中許多是屬於重複序列(重複序列)、轉位子(transposon)與偽基因(pseudogene)。除此之外,還有大量序列不屬於上述的已知分類。
這些序列大多數可能是演化的產物,現在已經沒有作用,也因此有時會被稱作是「垃圾DNA」(junk DNA)。不過有一些跡象顯示,這些序列可能會經由某些仍然未知的方式產生作用。最近一些使用微陣列技術所作的實驗發現,大量非基因DNA事實上會被轉錄成為RNA,這顯示轉錄作用背後可能還存在一些未知的機制。此外,不同種類的哺乳動物在演化的過程中共同保留了這些序列,也顯示基因組中還有很多作用未知的部分。人類基因組內大量功能未知的序列,是目前科學研究的重點之一。
變異
大多數對於人類遺傳變異的研究集中在單一核苷酸多型性(single nucleotide polymorphisms;SNPs),也就是DNA中的個別鹼基變換。科學家分析估計,在人類的真染色質(富含基因的染色質)中,平均每100到1000個鹼基會出現1個SNPs,不過密度並不均勻。由於SNPs的存在,如「所有人類的基因有99%都是相同的」一的說法並不精確。國際人類基因組單體型圖計劃(International HapMap Project),便是爲了要將人類基因組中的SNP變異作編錄,而組成的一個大規模合作計畫。
基因組中有一些小型的重複序列,它們所擁有的基因座與基因長度,在不同的人類個體之間有很大的變異性。這也是DNA指紋(DNA fingerprinting)與親子鑑定(paternity testing)技術得以應用的基礎。異染色質(heterochromatin)是人類基因組的一些部分,總共包括有數百萬個鹼基對,這些鹼基對在人類族群之中的變異性也相當大。而且由於異染色質的重複性很高而且長度很長,因此目前的技術仍然無法精確地解出它們的序列。此外異染色質不含基因,對於表現型也沒有顯著的作用。
配子細胞中大多數的基因組突變,可能會造成胚胎不正常發育,而人類的一些疾病也與大尺度的基因組異常有關。例如唐氏症、透納氏症(Turner Syndrome),以及許多其他疾病,是染色體的不分離(nondisjunction)現象所造成。在癌細胞中的染色體,則是頻繁地出現非整倍性(aneuploidy)現象,不過這種現象與癌症之間的關係仍然不明。
2006年一篇發表在《自然》的研究報告中,研究人員發現在人類與其他哺乳類DNA序列中的拷貝數變異(copy number variation;CNV),可能非常重要。拷貝數變異又稱為拷貝數多型性(copy number polymorphisms;CNPs),是缺失(deletion)、插入(insertion)、複寫(duplication),以及複雜多位置變異(complex multi-site variants)的合稱,在所有人類以及其他已測試的哺乳動物中皆可發現。
遺傳疾病
當一個或多個基因發生不正常表現時,便可能會使某個相對應的表型產生一些症狀。遺傳異常的原因包括了基因突變、染色體數目異常,或是三聯體擴張重複突變(triplet expansion repeat mutations)。如果受損的基因會從親代遺傳到子代,那就會成為一種遺傳性疾病。目前已知有大約4000種遺傳疾病,囊腫性纖維化是其中最普遍的疾病之一。
科學家通常會以群體遺傳學的方法進行遺傳疾病的研究,對於疾病的治療,則是由一些經過臨床遺傳學訓練,且同時也是遺傳學家的醫生來進行。人類基因組計畫的成果,使遺傳檢測技術能夠更有效地檢查出一些與基因有關的疾病,並且改進治療方法。父母能夠透過遺傳諮詢來偵詢一些遺傳症狀的嚴重性、遺傳的機率,以及如何避免或是改善這些症狀。
基因劑量(Gene dosage)會對人類的表現型產生龐大的影響,對於染色體中造成疾病的複寫、省略與分裂等現象的形成擁有一定的角色。例如唐氏症患者(21號染色體為三體)有較高的比率得到阿茲海默症,可能是因為與阿茲海默症有關的類澱粉前趨蛋白基因(位在21號染色體上)的過度表現所致。而且相對而言,唐氏症患者中則有較低的比率得到乳癌,可能是因為腫瘤抑制基因(tumor-suppressor gene)的過度表現。
演化
比較基因組學(Comparative genomics)對於哺乳類基因組的研究顯示,人類與大約兩億年前就已經分化的各物種相比,有大約5%的比例在人類基因組中保留了下來,其中包含許多的基因與調控序列。而且人類與大多數已知的脊椎動物間,也享有了一些相同的基因。
黑猩猩的基因組與人類的基因組之間,有98.77%是相似的。而平均每一個屬於人類的標準蛋白質編碼基因,只與屬於黑猩猩的同源基因相差兩個氨基酸;並且有將近三分之一的人類基因與黑猩猩的同源基因,能夠轉譯出相同的蛋白質。人類的2號染色體,是人類與黑猩猩基因組之間的主要差異,這一條染色體是由黑猩猩的染色體12號與13號融合而成。
人類在晚近的演化過程中失去了嗅覺受器基因,這解釋了為何人類比起其他的哺乳動物來說,擁有較差的嗅覺。演化上的證據顯示,人類與某些靈長類所擁有的彩色視覺,降低了這些物種對於嗅覺能力的需求。
粒線體基因組
大多數的基因是存在細胞核中,但是細胞中一個稱為粒線體的胞器,也擁有自己的基因組。粒線體基因組在粒線體疾病(mitochondrial disease)中具有一定的重要性。而且這些基因也可以用來研究人類的演化,舉例而言,若分析人類粒線體基因組的變異情況,將能夠使科學家描繪出人類的共同祖先,稱為「粒線體夏娃」(Mitochondrial Eve)。之所以稱為夏娃,是因為粒線體是位於細胞質中,而人類的精子與卵子結合時,源自母親(女性)的卵子提供了絕大多數的細胞質,因此人類細胞中的粒線體基因皆是來自母親。
由於粒線體缺乏用來檢查複製錯誤的能力,因此粒線體DNA(mDNA)的變異速率比細胞核DNA(一般所指的DNA)更快。粒線體的突變速率快了20倍,這使mDNA能夠用來較為精確地追溯出母系祖先。研究族群中的mDNA,也能使人們得知此族群過去的遷移路徑,例如來自西伯利亞的美洲原住民;以及來自東南亞的波里尼西亞人。更有甚者,mDNA研究顯示在歐洲人的基因中並無參雜尼安德塔人的DNA。
與每個細胞核皆只有兩套染色體組成的核基因組不同,粒線體基因組在每個粒線體當中,皆有大約10個以環狀DNA,整個細胞裡則約有8000個。每個環DNA上有16569個鹼基對,共組成37個基因,其中13個是蛋白質編碼,22個是RNA基因。這些基因大多與呼吸作用有關。
研究
人類基因組計畫
雷纳托·杜爾貝科(Renato Dulbecco;主要研究基因與腫瘤的關係)是最早提出人類基因組定序的科學家之一。他認為如果能夠知道所有人類基因的序列,對於癌症的研究將會很有幫助。不過以1986年的技術而言,若要將所有人類的DNA都定序完成,需要花上1500年。美國能源部(DOE)與美國國家衛生研究院(NIH),分別在1986年與1987年加入人類基因組計畫。除了美國之外,日本在1981年就已經開始研究相關問題,但是並沒有美國那樣積極。
到了1988年,詹姆士·華生(DNA雙螺旋結構發現者之一)成為NIH的基因組部門主管。1990年,開始國際合作。1996年,多個國家招開百慕達會議,以2005年完成定序為目標,分配了各國負責的工作,並且宣布研究結果將會即時公佈,並完全免費。
1998年,克萊格·凡特的塞雷拉基因組公司成立,邀請具基因定序之父的陳奕雄博士擔任首席科學家,開發出全世界第一台全自動定序儀,啟動了全自動定序的時代來到;賽雷拉宣布將在2001年完成定序工作。隨後,國際團隊也將完成工作的期限提前。2000年6月26日,塞雷拉公司的代表凡特,以及國際合作團隊的代表弗朗西斯·柯林斯(Francis Collins),在美國總統柯林頓的陪同下發表演說,宣布人類基因組的概要已經完成。2001年2月,國際團隊與塞雷拉公司,分別將研究成果發表於《自然》與《科學》兩份期刊。
在基因組計畫的研究過程中,陳奕雄博士使用的是霰彈槍定序法(shotgun sequencing),這種方法較為迅速,但是仍需以傳統定序來分析細節。
專利問題
23條染色體上的專利數目 | ||
---|---|---|
染色體編號 | 基因數目 | 專利數目 |
1號 | 2769 | 504 |
2號 | 1776 | 330 |
3號 | 1445 | 307 |
4號 | 1023 | 215 |
5號 | 1261 | 254 |
6號 | 1401 | 225 |
7號 | 1410 | 232 |
8號 | 952 | 208 |
9號 | 1086 | 233 |
10號 | 1042 | 170 |
11號 | 1626 | 312 |
12號 | 1347 | 252 |
13號 | 477 | 97 |
14號 | 821 | 155 |
15號 | 915 | 141 |
16號 | 1139 | 192 |
17號 | 1471 | 313 |
18號 | 408 | 74 |
19號 | 1715 | 270 |
20號 | 762 | 178 |
21號 | 357 | 66 |
22號 | 106 | 657 |
X | 1090 | 200 |
Y | 144 | 14 |
從1981年到1995年間,全世界共有1175件DNA序列的專利許可。早期的申請對象主要是機能已知的基因,後來原屬於美國國家衛生研究院的克萊格·凡特,將2716件尚未了解功能的基因,反轉錄成cDNA型式,並且提交專利申請。這些申請受到了當時掌管NIH基因組部門的詹姆士·華生等許多科學家的反對,並且被專利局駁回。
目前人們對於基因資訊是否應該登記專利仍有爭議。由於學術研究並非營利性,因此通常不受這些專利所拘束。此外由於美國政府近年來將專利申請條件提高,因此與DNA有關的專利許可,在2001年之後已逐漸減少。到2005年4月為止,美國國家生計資訊中心所記載的基因資料中,有82%沒有專利標示,另外有14%屬於私人機構,3%屬於公家單位。
右表顯示2006年時每條染色體上的基因數目與專利數目,由於有時候會有多個基因登記成一項專利;或者是一個基因擁有多項專利,因此表中的基因與專利不一定有一對一的關係。
圖譜
基因組圖譜主要可以分成兩種,一種是遺傳圖譜(genetic map),另一種則是物理圖譜(physical map)。遺傳圖譜是利用基因的重組率來做分析,單位是分莫甘(centimorgan)。這種圖譜表現出來的是基因或特定DNA片段之間的相對位置,而不是它們各自的絕對位置。物理圖譜則是DNA兩點的實際距離,是實際將DNA片段排序而得,單位是鹼基的數目(如Kb;kilobase)。有時候物理圖譜上相隔很遠的基因,可能會因為發生互換的機率較少(雖然理論上相隔愈遠互換率愈高),而在遺傳圖譜上顯得較相近。
參考文獻
引用
来源
- 期刊文章
- Lindblad-Toh K; et al. Genome sequence, comparative analysis and haplotype structure of the domestic dog.. Nature. 2005, 438 (7069): 803–19. PMID 16341006. 引文格式1维护:显式使用等标签 (link)
外部連結
- (英文)The National Human Genome Research Institute(页面存档备份,存于互联网档案馆)
- (英文)National Library of Medicine human genome viewer (页面存档备份,存于互联网档案馆).
- (英文)UCSC Genome Browser(页面存档备份,存于互联网档案馆).
- (英文)Human Genome Project.
- (英文)The National Office of Public Health Genomics (页面存档备份,存于互联网档案馆)
參見
|
|
|