高通量測(cè)序技術(shù)是對(duì)傳統(tǒng)測(cè)序一次**性的改變,一次對(duì)幾十萬到幾百萬條DNA分子進(jìn)行序列測(cè)定,因此在有些文獻(xiàn)中稱其為下一代測(cè)序技術(shù)(next generation sequencing)足見其劃時(shí)代的改變,同時(shí)高通量測(cè)序使得對(duì)一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能,所以又被稱為深度測(cè)序(deep sequencing)。
自從2005年454 Life Sciences公司(2007年該公司被Roche正式收購)推出了454 FLX焦磷酸測(cè)序平臺(tái)(454 FLX pyrosequencing platform)以來,曾推出過3730xl DNA測(cè)序儀(3730xl DNA Analyzer)的AppliedBioSystem(ABI)這家一直占據(jù)著測(cè)序市場(chǎng)大份額的公司的地位就開始動(dòng)搖了,因?yàn)樗麄兊娜^產(chǎn)品毛細(xì)管陣列電泳測(cè)序儀系列(series capillary array electrophoresis sequencing machines)遇到了兩個(gè)強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手,一個(gè)就是羅氏公司(Roche)的454 測(cè)序儀(Roche GS FLXsequencer),,另一個(gè)就是2006年美國Illumina公司推出的Solexa基因組分析平臺(tái)(Genome Analyzer platform),為此,2007年ABI公司推出了自主研發(fā)的SOLiD 測(cè)序儀(ABI SOLiD sequencer)。這三個(gè)測(cè)序平臺(tái)即為目前高通量測(cè)序平臺(tái)的代表。(見表一)
表一:主流測(cè)序平臺(tái)一覽
這些平臺(tái)共同的特點(diǎn)是極高的測(cè)序通量,相對(duì)于傳統(tǒng)測(cè)序的96道毛細(xì)管測(cè)序,高通量測(cè)序一次實(shí)驗(yàn)可以讀取40萬到400萬條序列。讀取長(zhǎng)度根據(jù)平臺(tái)不同從25bp到450bp,不同的測(cè)序平臺(tái)在一次實(shí)驗(yàn)中,可以讀取1G到14G不等的堿基數(shù),這樣龐大的測(cè)序能力是傳統(tǒng)測(cè)序儀所不能比擬的。盡管如此,在這項(xiàng)新的劃時(shí)代的測(cè)序技術(shù)剛出現(xiàn)的時(shí)候,科學(xué)界對(duì)這項(xiàng)新技術(shù)卻并不熱衷。許多習(xí)慣用桑格技術(shù)的科學(xué)家懷疑新技術(shù)的準(zhǔn)確度、閱讀能力、成本消費(fèi)、實(shí)用性。代理Sanger型測(cè)序硬件的經(jīng)銷商害怕其投資失敗而首先提出了這些懷疑。
然而大多數(shù)人卻忽略了一個(gè)事實(shí),即桑格技術(shù)的普及初也遇到同樣的阻礙。桑格技術(shù)剛開發(fā)出來時(shí),閱讀能力很難超過25bp,即使在Fred Sanger雙脫氧終止法發(fā)明后也只達(dá)到80bp,如今卻達(dá)到了750bp;而新發(fā)展的合成測(cè)序技術(shù),應(yīng)用焦磷酸測(cè)序方法,其閱讀能力初只有100bp,推向市場(chǎng)16個(gè)月后增加至250bp,隨著技術(shù)的不斷完善,目前已達(dá)到了400bp,很快就接近桑格技術(shù)目前的水平。除了閱讀能力外,能否以有限的成本用一臺(tái)儀器產(chǎn)生足夠數(shù)量的序列標(biāo)記也是另一個(gè)需要改善的重要問題。這個(gè)問題已經(jīng)被Roche公司解決了,應(yīng)用他們的系統(tǒng),僅花費(fèi)閱讀35bp或者更小片段的成本就能產(chǎn)生比35bp多10倍的序列標(biāo)記。
圖二:GS FLX 高通量測(cè)序方法原理示意圖
一、高通量測(cè)序的應(yīng)用
高通量測(cè)序可以幫助研究者跨過文庫構(gòu)建這一實(shí)驗(yàn)步驟,避免了亞克隆過程中引入的偏差。依靠后期強(qiáng)大的生物信息學(xué)分析能力,對(duì)照一個(gè)參比基因組(referencegenome)高通量測(cè)序技術(shù)可以非常輕松完成基因組重測(cè)序(re-sequence),2007年vanOrsouw等人結(jié)合改進(jìn)的AFLP 技術(shù)和454測(cè)序技術(shù)對(duì)玉米基因組進(jìn)行了重測(cè)序,該重測(cè)序?qū)嶒?yàn)發(fā)現(xiàn)的超過75%的SNP位點(diǎn)能夠用SNPWave技術(shù)驗(yàn)證,了一條對(duì)復(fù)雜基因組特別是含有高度重復(fù)序列的植物基因組進(jìn)行多態(tài)性分析的技術(shù)路線。2008年Hillier對(duì)線蟲CB4858品系進(jìn)行Solexa重測(cè)序,尋找線蟲基因組中的SNP位點(diǎn)和單位點(diǎn)的缺失或擴(kuò)增。但是也應(yīng)該看到,由于高通量測(cè)序讀取長(zhǎng)度的限制,使其在對(duì)未知基因組進(jìn)行從頭測(cè)序(novo sequencing)的應(yīng)用受到限制,這部分工作仍然需要傳統(tǒng)測(cè)序(讀取長(zhǎng)度達(dá)到850堿基)的協(xié)助。但是這并不影響高通量測(cè)序技術(shù)在全基因組mRNA表達(dá)譜,microRNA表達(dá)譜,ChIP-chip以及DNA甲基化等方面的應(yīng)用。
2008年Mortazavi等人對(duì)小鼠的大腦、肝臟和骨骼肌進(jìn)行了RNA深度測(cè)序,這項(xiàng)工作展示了深度測(cè)序在轉(zhuǎn)錄組研究上的兩大進(jìn)展,表達(dá)計(jì)數(shù)和序列分析。對(duì)測(cè)得的每條序列進(jìn)行計(jì)數(shù)獲得每個(gè)特定轉(zhuǎn)錄本的表達(dá)量,是一種數(shù)碼化的表達(dá)譜檢測(cè),能檢測(cè)到豐度非常低的轉(zhuǎn)錄本。分析測(cè)得的序列,有大于90%的數(shù)據(jù)顯示落在已知的外顯子中,而那些在已知序列之外的信息通過數(shù)據(jù)分析展示的是從未被報(bào)道過的RNA剪切形式,3’端非翻譯區(qū),變動(dòng)的啟動(dòng)子區(qū)域以及潛在的小RNA前體,發(fā)現(xiàn)至少有3500個(gè)基因擁有不止一種剪切形式。而這些信息無論使用芯片技術(shù)還是SAGE文庫測(cè)序都是無法被發(fā)現(xiàn)的。
高通量測(cè)序另一個(gè)被廣泛應(yīng)用的領(lǐng)域是小分子RNA或非編碼RNA(ncRNA)研究。測(cè)序方法能輕易的解決芯片技術(shù)在檢測(cè)小分子時(shí)遇到的技術(shù)難題(短序列,高度同源),而且小分子RNA的短序列正好配合了高通量測(cè)序的長(zhǎng)度,使得數(shù)據(jù)“不浪費(fèi)”,同時(shí)測(cè)序方法還能在實(shí)驗(yàn)中發(fā)現(xiàn)新的小分子RNA。在衣藻、斑馬魚、果蠅、線蟲、人和黑猩猩中都已經(jīng)成功地找到了新的小分子RNA。在線蟲中獲得了40萬個(gè)序列,通過分析發(fā)現(xiàn)了18個(gè)新的小RNA分子和一類全新的小分子RNA。