在2016年的瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇期間,美國(guó)副總統(tǒng)Joe Biden詢(xún)問(wèn)了阻礙研究人員和臨床醫(yī)生在抗擊癌癥過(guò)程中的突破的障礙。在眾多重要話(huà)題中,最重要的是大數(shù)據(jù),確切的說(shuō),是大數(shù)據(jù)的收集、分析和應(yīng)用。
大數(shù)據(jù)的“大”指的是積累的數(shù)據(jù)集的量很大,通過(guò)合理地分析這些數(shù)據(jù)可以得到很多的有效信息。另一方面,在實(shí)踐中對(duì)大數(shù)據(jù)的分析可以得到變化趨勢(shì)、發(fā)現(xiàn)關(guān)聯(lián)以及確認(rèn)模式。
一些研究人員稱(chēng),大數(shù)據(jù)很有效,因?yàn)樗鼈償y帶了豐富的信息。大量的樣本可以揭示出一些未被注意到的細(xì)節(jié)。然而還有的研究人員認(rèn)為大數(shù)據(jù)技術(shù)所需要的不僅僅是非常多的數(shù)據(jù)。美國(guó)圣猶大兒童研究醫(yī)院的Keith Perry就是持后者意見(jiàn)的人。
Perry說(shuō):“大數(shù)據(jù)豈止于‘大’?還需要具有另外三層意思:數(shù)據(jù)類(lèi)型的多樣性,數(shù)據(jù)生成的速度,大量數(shù)據(jù)整合的程度。我們現(xiàn)在擁有的很多數(shù)據(jù)并沒(méi)有互相連接的接口,因?yàn)樗鼈冊(cè)诓煌牟块T(mén)產(chǎn)生?!?/P>
另一個(gè)持此觀點(diǎn)的人是Narayan Desai博士,他是愛(ài)立信公司的計(jì)算機(jī)科學(xué)家,他曾說(shuō)過(guò):“基因組學(xué)將要解決的基本問(wèn)題是應(yīng)該生成多少數(shù)據(jù)。數(shù)據(jù)收集和分析處理的能力如何更加有效,應(yīng)該好好研究?!?/P>
影響一:隱藏的弱點(diǎn)
最近,一些科學(xué)家呼吁更加專(zhuān)注和創(chuàng)造性地利用現(xiàn)存數(shù)據(jù)來(lái)進(jìn)行臨床實(shí)踐。比如美國(guó)加州大學(xué)的細(xì)胞和分子藥物學(xué)教授Nevann Krogan說(shuō),基因組學(xué)使我們離治愈癌癥更近了一大步,這種進(jìn)步超過(guò)很多遺傳學(xué)家的想象。
Krogan博士說(shuō):“基因測(cè)序人員說(shuō)只要有更多的錢(qián)進(jìn)行更多的測(cè)序就可以使問(wèn)題的答案更加明朗。但我不認(rèn)為這樣。我認(rèn)為我們已經(jīng)達(dá)到了可提取信息的飽和點(diǎn)?!?/P>
Krogan博士認(rèn)為,盡管數(shù)據(jù)的積累量在變大,但是癌癥治療并沒(méi)有取得太多突破。這是因?yàn)樾律傻臄?shù)據(jù)只是用來(lái)描述癌癥驚人的多樣性,即使是單一腫瘤也會(huì)包含成千上萬(wàn)種基因突變。
Krogan和他的同事認(rèn)為,研究人員不應(yīng)該只專(zhuān)注于收集大量數(shù)據(jù),而應(yīng)該仔細(xì)研究已有數(shù)據(jù)中隱藏的聯(lián)系。Krogan在2015年發(fā)起了癌細(xì)胞地圖計(jì)劃(Cancer Cell Map Initiative ,CCMI)。
CCMI致力于系統(tǒng)地詳細(xì)描述癌癥基因之間的復(fù)雜關(guān)系,以及它們?cè)诓煌募膊『徒】禒顩r之下的區(qū)別,并制作出癌細(xì)胞中正?;颉⑼蛔兓蛞约暗鞍踪|(zhì)的“連線(xiàn)圖”。
影響二:腫瘤樣本
腫瘤細(xì)胞地圖項(xiàng)目(CCMI)將加利福尼亞大學(xué)圣迭戈分校(UCSD)的生物醫(yī)學(xué)大數(shù)據(jù)提取技術(shù)和舊金山加州大學(xué)(UCSF)分析細(xì)胞結(jié)構(gòu)和功能的先進(jìn)技術(shù)相結(jié)合。UCSD的Trey Ideker博士說(shuō):“我們已經(jīng)有了基因組信息。現(xiàn)在的瓶頸是如何翻譯腫瘤基因組?!?/P>
在2015年的基因組大會(huì)上,Ideker博士指出,正在進(jìn)行的癌癥DNA測(cè)序已經(jīng)完成了20000例基因組。但是,在沒(méi)有關(guān)于基因網(wǎng)絡(luò)知識(shí)的前提下分析這些癌癥基因組是非常困難的,因?yàn)樵诨驅(qū)用嫔?,沒(méi)有兩個(gè)癌癥患者的腫瘤是一樣的。他認(rèn)為生物信息學(xué)可以解決這個(gè)問(wèn)題。
Ideker于2013年9月發(fā)表在《Nature Methods》上的一篇論文稱(chēng),癌癥基因組圖譜(TCGA)和國(guó)際癌癥基因組聯(lián)盟(ICGC)已經(jīng)開(kāi)始系統(tǒng)地為上萬(wàn)種腫瘤進(jìn)行歸檔,包括信使核糖核酸(mRNA)和微小核糖核酸(microRNA)的表達(dá),DNA拷貝數(shù)量和甲基化,DNA序列。文章作者稱(chēng):“現(xiàn)在急需可以將基因組規(guī)模的分子信息整合并翻譯的信息技術(shù),以更深入的洞察驅(qū)動(dòng)癌癥發(fā)展的分子過(guò)程。這種技術(shù)對(duì)臨床來(lái)說(shuō)也很急需。”
影響三:子網(wǎng)絡(luò)分析
為了滿(mǎn)足對(duì)這些綜合信息技術(shù)的需求,UCSD的研究團(tuán)隊(duì)整合了對(duì)多組可以編碼蛋白質(zhì)的基因的基因表達(dá)測(cè)定,這些蛋白質(zhì)會(huì)在蛋白質(zhì)子網(wǎng)絡(luò)或者通路數(shù)據(jù)集中相互作用。該檔案并沒(méi)有把單獨(dú)的基因和蛋白質(zhì)列出來(lái),而是將基因和蛋白質(zhì)子網(wǎng)絡(luò)集合地表達(dá)出來(lái)。
研究人員稱(chēng),這些子網(wǎng)絡(luò)可以確認(rèn)不同患者的基因表達(dá)的不同。子網(wǎng)絡(luò)分析與其他傳統(tǒng)的分析不同,它可以解讀出基因表達(dá)的不同。
2007年,Ideker博士發(fā)表在《Molecular Systems Biology》上的一篇論文稱(chēng),盡管攜帶乳腺癌突變的基因無(wú)法通過(guò)差異表達(dá)分析檢測(cè)出來(lái),但是它們?cè)诘鞍踪|(zhì)網(wǎng)絡(luò)中非常重要,與很多不同的基因相互作用。
對(duì)于大部分有中等乳腺癌風(fēng)險(xiǎn)的患者來(lái)說(shuō),傳統(tǒng)因素并不足以預(yù)測(cè),大約有70–80%淋巴結(jié)陰性患者要接受不必要的輔助化療。Ideker認(rèn)為,現(xiàn)在的很多危險(xiǎn)因素其實(shí)只是次要的臨床表現(xiàn),而不是主要的患病機(jī)制。
現(xiàn)在的挑戰(zhàn)是與疾病更加相關(guān)的預(yù)后指標(biāo),更加精確地預(yù)測(cè)病人的新陳代謝風(fēng)險(xiǎn)。
影響四:預(yù)后意義
研究人員最近正在收集更多的證據(jù)以證明基因網(wǎng)絡(luò)分析可以為預(yù)后提供信息。比如UCSD的Chang博士于2012年在《BLOOD》上發(fā)表的一篇論文認(rèn)為,基因網(wǎng)絡(luò)分析可以預(yù)測(cè)慢性淋巴細(xì)胞白血(CLL)病患者的結(jié)果。
特別的,研究人員們使用基因子網(wǎng)絡(luò)的基因表達(dá)檔案分析法區(qū)別出了不同病人的CLL風(fēng)險(xiǎn)。CLL患者的臨床病程各不相同。一些病人在很多年后仍然沒(méi)有癥狀,而一些病人很快就會(huì)出現(xiàn)嚴(yán)重的疾病并需要治療。
因?yàn)闃?biāo)準(zhǔn)療法會(huì)涉及到毒性,準(zhǔn)確的預(yù)測(cè)很重要,因?yàn)槟壳暗闹委熃ㄗh是,在患者表現(xiàn)出明確癥狀之前不能使用這種標(biāo)準(zhǔn)療法。
一些研究報(bào)道稱(chēng),幾組基因可以用于CLL已知預(yù)后因素替代指標(biāo),比如IGHV突變狀態(tài)。
UCSD研究人員稱(chēng),他們從130名CLL患者中識(shí)別出38個(gè)預(yù)后子網(wǎng)絡(luò),這些子網(wǎng)絡(luò)可以預(yù)測(cè)疾病進(jìn)展的風(fēng)險(xiǎn)。此外,這些子網(wǎng)絡(luò)標(biāo)記可以產(chǎn)生更精確的預(yù)測(cè)。
研究人員得出結(jié)論,他們的分析對(duì)理解癌癥進(jìn)貨和開(kāi)發(fā)新型治療方案具有指示意義。這些指示來(lái)源于生物信息技術(shù),該技術(shù)使大數(shù)據(jù)變得有意義,并且可以促進(jìn)更多的發(fā)現(xiàn)。