代謝組學是近年發(fā)展快速的一門學科,目前在醫(yī)學、植物學、微生物學、毒理學、藥物研發(fā)等諸多領域中得到了廣泛的應用。代謝組學研究產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)具有高維、小樣本、高噪聲等復雜特征。如何從復雜的代謝組學數(shù)據(jù)中提取出有價值的信息,篩選出潛在的生物標志物成為近年來代謝組學研究的熱點和難點。據(jù)此,本文針對目前代謝組學數(shù)據(jù)分析中的常用統(tǒng)計學方法及其研究進展進行介紹。
代謝組學數(shù)據(jù)的特點
代謝組學是系統(tǒng)生物學領域中繼基因組學和蛋白質(zhì)組學之后新近發(fā)展起來的一門學科,它通過檢測生物體在受到外源刺激或基因修飾后其體內(nèi)代謝物質(zhì)的變化來探索整個生物體的代謝機制。
其研究對象為生物體內(nèi)所有內(nèi)源性小分子代謝物(分子量<1000Da)。
研究手段為高通量檢測技術和數(shù)據(jù)處理方法,最終目標是數(shù)據(jù)建模和生物標志物的篩選。
生物樣品如血漿、尿液、組織等,經(jīng)過GC/MS、NMR、LC/MS等高通量儀器檢測后,得到大量的圖譜數(shù)據(jù),使用XCM等軟件對這些圖譜數(shù)據(jù)進行轉換,獲得用于統(tǒng)計分析的標準格式的數(shù)據(jù)。
歸納起來,代謝組學數(shù)據(jù)具有以下特點:
高噪聲:生物體內(nèi)含有大量維持自身正常功能的內(nèi)源性小分子,具有特定研究意義的生物標志物只是其中很少一部分,絕大部分代謝物和研究目的無關。
高維、小樣本:代謝物的數(shù)目遠大于樣品個數(shù),不適合使用傳統(tǒng)的統(tǒng)計學方法進行分析,多變量分析容易出現(xiàn)過擬合和維數(shù)災難問題。
高變異性:一是不同代謝物質(zhì)的理化性質(zhì)差異巨大,其濃度含量動態(tài)范圍寬達7~9個數(shù)量級,二是生物個體間存在各種來源的變異,如年齡、性別都可能影響代謝產(chǎn)物的變化,三是儀器測量受各種因素影響,容易出現(xiàn)隨機測量誤差和系統(tǒng)誤差,這使得識別有重要作用的生物標志物可能極其困難。
相互作用關系復雜:各種代謝物質(zhì)可能不僅具有簡單的相加效應,而且可能具有交互作用,從而增加了識別這些具有復雜關系的生物標志物的難度。
相關性和冗余性:各種代謝物并非獨立存在,而是相互之間具有不同程度的相關性,同時由于碎片、加合物和同位素的存在使得數(shù)據(jù)結構存在很大的冗余性,這就需要采用合理的統(tǒng)計分析策略來揭示隱藏其中的復雜數(shù)據(jù)關系。
分布的不規(guī)則和稀疏性:代謝組學數(shù)據(jù)分布不規(guī)則,而且數(shù)據(jù)具有稀疏性(即有很多值為零),因此,傳統(tǒng)的一些線性和參數(shù)分析方法此時可能失效。
數(shù)據(jù)的預處理
代謝組學數(shù)據(jù)分析的目的是希望從中挖掘出生物相關信息,然而,代謝組學數(shù)據(jù)的變異來源很多,不僅包括生物變異,還包括環(huán)境影響和操作性誤差等方面。
處理手段主要包括歸一化(standardization)、標準化(normalization),即中心化(centering)和尺度化(scaling),以及數(shù)據(jù)轉換(transformation)。
歸一化是針對樣品的操作,由于生物個體間較大的代謝物濃度差異或樣品采集過程中的差異(如取不同時間的尿樣),為了消除或減輕這種不均一性,一般使用代謝物的相對濃度,即每個代謝物除以樣品的總濃度,以此來校正個體差異或其他因素對代謝物絕對濃度的影響。
標準化是對不同樣品代謝物的操作,即統(tǒng)計學意義上的變量標準化。標準化的目的是消除不同代謝物濃度數(shù)量級的差別,但同時也可能會過分夸大低濃度組分的重要性,即低濃度代謝物的變異系數(shù)可能更大。
數(shù)據(jù)轉換是指對數(shù)據(jù)進行非線性變換,如log轉換和power轉換等。數(shù)據(jù)轉換的目的是將一些偏態(tài)分布的數(shù)據(jù)轉換成對稱分布的數(shù)據(jù),并消除異方差性的影響,以滿足一些線性分析技術的要求。不同的預處理方法會對統(tǒng)計分析結果產(chǎn)生不同的影響(見表1),在實際應用中,我們應該根據(jù)具體的研究目的﹑數(shù)據(jù)類型以及要選用的統(tǒng)計分析方法綜合考慮,選擇適當?shù)念A處理方式。例如,RobertA.vandenBerg等(2006)通過實際代謝組學數(shù)據(jù)的分析發(fā)現(xiàn),選用不同預處理方法在很大程度上影響著主成分分析(PCA)的結果,自動尺度化(autoscaling)和全距尺度化(rangescaling)在對代謝組學數(shù)據(jù)進行探索性分析時表現(xiàn)更優(yōu),其PCA分析后的結果在生物學上能夠得到更合理的解釋。
單變量分析方法
單變量分析方法簡便﹑直觀和容易理解,在代謝組學研究中通常用來快速考察各個代謝物在不同類別之間的差異。
代謝組學數(shù)據(jù)在一般情況下難以滿足參數(shù)檢驗的條件,使用較多的是非參數(shù)檢驗的方法,如Wilcoxon秩和檢驗或Kruskal-Wallis檢驗,t’檢驗也是一種比較好的統(tǒng)計檢驗方法。
由于代謝組學數(shù)據(jù)具有高維的特點,所以在進行單變量分析時,會面臨多重假設檢驗的問題。如果我們不對每次假設檢驗的檢驗水準α進行校正,則總體犯一類錯誤的概率會明顯增加。
一種解決方法是采用Bonferion校正,即用原檢驗水準除以假設檢驗的次數(shù)m作為每次假設檢驗新的檢驗水準(α/m)。由于Bonferion校正的方法過于保守,會明顯降低檢驗效能,所以在實際中更為流行的一種做法是使用陽性發(fā)現(xiàn)錯誤率(falsediscoveryrate,F(xiàn)DR)。
這種方法可用于估計多重假設檢驗的陽性結果中,可能包含多少假陽性結果。FDR方法不僅能夠將假陽性的比例控制在規(guī)定的范圍內(nèi),而且較之傳統(tǒng)的方法在檢驗效能上也得到顯著的提高。
實際中也可以使用局部FDR(用fdr表示),其定義為某一次檢驗差異顯著時,其結果為假陽性的概率。局部FDR的使用,使得我們能夠估計出任意變量為假陽性的概率,通常情況下有FDR≤fdr。
除了進行傳統(tǒng)的單變量假設檢驗分析,代謝組學分析中通常也計算代謝物濃度在兩組間的改變倍數(shù)值(foldchange),如計算某個代謝物濃度在兩組中的均值之比,判斷該代謝物在兩組之間的高低表達。計算ROC曲線下面積(AUC)也是一種經(jīng)常使用的方法。
多變量分析
代謝組學產(chǎn)生的是高維的數(shù)據(jù),單變量分析不能揭示變量間復雜的相互作用關系,因此多變量統(tǒng)計分析在代謝組學數(shù)據(jù)分析中具有重要的作用。
總體來說,代謝組學數(shù)據(jù)多變量統(tǒng)計分析方法大致可以分為兩類:
一類為非監(jiān)督的學習方法,即在不給定樣本標簽的情況下對訓練樣本進行學習,如PCA、非線性映射(NLM)等;
另一類為有監(jiān)督的學習方法,即在給定樣本標簽的情況下對訓練樣本進行學習,如偏最小二乘判別分析(PLS-DA)、基于正交信號校正的偏最小二乘判別分析(OPLS-DA)、人工神經(jīng)網(wǎng)絡(ANN)、支持向量機(SVM)等。其中,PCA、PLS-DA和OPLS-DA是目前代謝組學領域中使用最為普遍的多變量統(tǒng)計分析方法。
PCA
PCA是從原始變量之間的相互關系入手,根據(jù)變異最大化的原則將其線性變換到幾個獨立的綜合指標上(即主成分),取2~3個主成分作圖,直觀地描述不同組別之間的代謝模式差別和聚類結果,并通過載荷圖尋找對組間分類有貢獻的原始變量作為生物標志物。通常情況下,由于代謝組學數(shù)據(jù)具有高維、小樣本的特性,同時有噪聲變量的干擾,PCA的分類結果往往不夠理想。
盡管如此,PCA作為代謝組學數(shù)據(jù)的預分析和質(zhì)量控制步驟,通常用于觀察是否具有組間分類趨勢和數(shù)據(jù)離群點。在組間分類趨勢明顯時,說明其中一定有能夠分類的標志物。
PCA還可以用于分析質(zhì)控樣品是否聚集在一起,如果很分散或具有一定的變化趨勢,則說明檢測質(zhì)量存在一定的問題。ZhangZhiyu等(2010)通過PCA成功區(qū)分了骨肉瘤患者和正常人,并發(fā)現(xiàn)良性骨腫瘤患者中有兩例是異常值。KishoreK.Pasikanti等(2009)利用PCA對尿液膀胱癌代謝組學數(shù)據(jù)進行分析后觀察到質(zhì)控樣品在PCA得分圖上緊密聚集,從而驗證了儀器檢測的穩(wěn)定性和代謝組學數(shù)據(jù)的可靠性。
PLS-DA
PLS-DA是目前代謝組學數(shù)據(jù)分析中最常使用的一種分類方法,它在降維的同時結合了回歸模型,并利用一定的判別閾值對回歸結果進行判別分析。ZhangTao等(2013)運用PLS-DA技術分析尿液卵巢癌代謝組學數(shù)據(jù),成功將卵巢癌患者和良性卵巢腫瘤患者以及子宮肌瘤患者相互鑒別,并鑒定出組氨酸、色氨酸、核苷酸等多種具有判別能力的卵巢癌生物標志物。
PLS的思想是,通過最大化自變量數(shù)據(jù)和應變量數(shù)據(jù)集之間的協(xié)方差來構建正交得分向量(潛變量或主成分),從而擬合自變量數(shù)據(jù)和應變量數(shù)據(jù)之間的線性關系。
PLS的降維方法與PCA的不同之處在于PLS既分解自變量X矩陣也分解應變量Y矩陣,并在分解時利用其協(xié)方差信息,從而使降維效果較PCA能夠更高效地提取組間變異信息。
當因變量Y為二分類情況下,通常一類編碼為1,另一類編碼為0或-1;當因變量Y為多分類時,則需將其化為啞變量。通常,評價PLS-DA模型擬合效果使用R2X、R2Y和Q2Y這三個指標,這些指標越接近1表示PLS-DA模型擬合數(shù)據(jù)效果越好。其中,R2X和R2Y分別表示PLSDA分類模型所能夠解釋X和Y矩陣信息的百分比,Q2Y則為通過交叉驗證計算得出,用以評價PLS-DA模型的預測能力,Q2Y越大代表模型預測效果較好。
實際中,PLS-DA得分圖常用來直觀地展示模型的分類效果,圖中兩組樣品分離程度越大,說明分類效果越顯著。代謝組學數(shù)據(jù)分析中另一種常用的方法是OPLS-DA,它是PLS-DA的擴展,即首先使用正交信號校正技術,將X矩陣信息分解成與Y相關和不相關的兩類信息,然后過濾掉與分類無關的信息,相關的信息主要集中在第一個預測成分。JohanTrygg等認為該方法可以在不降低模型預測能力的前提下,有效減少模型的復雜性和增強模型的解釋能力。
與PLSDA模型相同,可以用R2X、R2Y、Q2Y和OPLS-DA得分圖來評價模型的分類效果。CarolynM.Slupsky等(2010)使用OPLS-DA發(fā)現(xiàn)卵巢癌患者、乳腺癌患者、正常人這三者之間的尿液代謝輪廓顯著不同,從而推斷尿液代謝組學可能為癌癥的特異性診斷提供重要依據(jù)。
由于代謝組學數(shù)據(jù)具有高維、小樣本的特性,使用有監(jiān)督學習方法進行分析時很容易產(chǎn)生過擬合的現(xiàn)象。
為此,需要使用置換檢驗考察PLS-DA在無差異情況下的建模效果。該方法在固定X矩陣的前提下,隨機置換Y分類標簽n次,每次隨機置換后建立新的PLS-DA模型,并計算相應的R2Y和Q2Y;然后,與真實標簽模型得到的結果進行比較,用圖形直觀表達是否有過擬合現(xiàn)象。
由于樣本量的不足,通常采用上述的交叉驗證和置換檢驗方法作為模型驗證方法。而實際中,在樣本量允許的情況下,最為有效的模型驗證方法即將整個數(shù)據(jù)集嚴格按照時間順序劃分為內(nèi)部訓練數(shù)據(jù)和外部測試數(shù)據(jù)兩部分,利用內(nèi)部訓練數(shù)據(jù)建立模型,再對外部測試數(shù)據(jù)進行預測,客觀地評價模型的有效性和適用性。
生物標志物的篩選
代謝組學分析的最終目標是希望從中篩選出潛在的生物相關標志物,從而探索其中的生物代謝機制,因此需要借助一定的特征篩選方法進行變量篩選。
對于高維代謝組學數(shù)據(jù)的特征篩選,研究的目的是從中找出對樣本分類能力最強或較強的一個或若干個變量。特征篩選方法主要分為三類:過濾法、封裝法和嵌入法。
過濾法主要是采用單變量篩選方法對變量進行篩選,優(yōu)點是簡單而快捷,能夠快速的降維,如t’檢驗、Wilcoxon秩和檢驗、SAM等方法。
封裝法是一種多變量特征篩選策略,通常是以判別模型分類準確性作為優(yōu)化函數(shù)的前向選擇、后向選擇和浮動搜索特征變量的算法,它通常是按照“節(jié)省原則”進行特征篩選,最終模型可能僅保留其中很少部分的重要變量,如遺傳算法等。
嵌入法的基本思想是將變量選擇與分類模型的建立融合在一起,變量的重要性評價依靠特定分類模型的算法實現(xiàn),在建立模型的同時,可以給出各變量重要性的得分值,如PLS-DA方法的VIP統(tǒng)計量等。
為了更加客觀、全面地評價每個變量的重要性,代謝組學研究中一般采取將上述方法結合起來的方式進行變量篩選。比較常見的一種策略是先進行單變量分析,再結合多變量模型中變量重要性評分作為篩選標準,如挑選fdr≤0.05和VIP>1.5的變量作為潛在生物標志物。
用篩選的潛在生物標志物對外部測試數(shù)據(jù)集進行預測,評價其預測效果。最后,可以通過研究生物標志物的生物學功能和代謝通路,分析不同生物標志物之間的相互作用和關系,從而為探索生物代謝機制提供重要線索和信息。
YangJinglei等(2013)即在代謝組學分析中使用fdr≤0.2和VIP>1.5的雙重標準來篩選精神分裂癥的特異生物標志物,所篩選出的差異代謝物其AUC在訓練數(shù)據(jù)中達94.5%,外部測試數(shù)據(jù)中達0.895。
浙公網(wǎng)安備33010802007965號