代謝組學(xué)是一門對某一生物或細(xì)胞所有低分子質(zhì)量代謝產(chǎn)物(以相對分子質(zhì)量<1000的有機(jī)和無機(jī)的代謝物為研究核心區(qū))進(jìn)行分析的新興學(xué)科。生物樣本通過NMR、GC-MS、LC-MS等高通量儀器分析檢測后,能產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)具有高維,少樣本、高噪聲等復(fù)雜特征,同時(shí)代謝物多且代謝物之間聯(lián)系密切,因此從復(fù)雜的代謝組學(xué)數(shù)據(jù)中確定與所研究的現(xiàn)象有關(guān)的代謝物,篩選出候選生物標(biāo)記物成為代謝物組學(xué)研究的熱點(diǎn)和難點(diǎn)。
代謝組學(xué)分析數(shù)據(jù)用于統(tǒng)計(jì)分析時(shí),數(shù)據(jù)集通常為一個(gè)N × K的矩陣(X矩陣),N表示N個(gè)樣本數(shù),每一行代表一個(gè)樣品, K表示K個(gè)變量,每一列代表一個(gè)變量,在代謝組學(xué)中變量通常是指代謝物含量。最常用的分析方法如圖1所示:

圖1 代謝組學(xué)最常用的數(shù)據(jù)分析方法
單變量分析
單變量分析方法僅分別分析單個(gè)變量,不考慮多個(gè)變量的相互作用與內(nèi)在聯(lián)系。具有簡單性、易應(yīng)用性和可解釋性。但是無法基于整體數(shù)據(jù)對所測樣品的優(yōu)劣、差異進(jìn)行綜合評價(jià)和分析。
差異倍數(shù)分析
差異倍數(shù)變化大小(Fold Change,F(xiàn)C)表示實(shí)驗(yàn)組與對照組的含量比值,可以快速考察各個(gè)代謝物在不同組別之間的含量變化大小。
顯著性檢驗(yàn)
p值即概率,反映某一事件發(fā)生的可能性大小,用于區(qū)分該變量是否具有統(tǒng)計(jì)顯著性,通常認(rèn)為p<0.05具有統(tǒng)計(jì)顯著性。常用的檢驗(yàn)方法有t-test、方差分析(Analysis of Variance, ANOVA),但是由于代謝組學(xué)的變量較多,必要時(shí)需要進(jìn)行多重假設(shè)檢驗(yàn),對p值進(jìn)行校正,減少Ⅰ類錯(cuò)誤,降低假陽性。
多變量分析
多變量分析方法能同時(shí)處理數(shù)百或數(shù)千個(gè)變量,并且能處理變量之間的相互關(guān)系。利用變量之間的協(xié)方差或相關(guān)性,使原始數(shù)據(jù)在較低維空間上的投影能盡可能地捕獲數(shù)據(jù)中的信息。但是如果存在大量無信息變量可能會(huì)妨礙多變量分析的能力,無信息變量的數(shù)量越多,減少真陽性數(shù)量的效果就越顯著。
多變量分析分為無監(jiān)督分析方法和有監(jiān)督分析方法。在代謝組學(xué)分析中無監(jiān)督學(xué)習(xí)有主成分分析(Principal Component Analysis,PCA),只需要數(shù)據(jù)集X,而有監(jiān)督分析方法主要是偏最小二乘判別分析(Partial Least Squares Discrimination Analysis, PLS-DA)和正交偏最小二乘判別分析(Orthogonal Partial Least Squares Discrimination Analysis , OPLS-DA),這類方法在分析時(shí)除了需要數(shù)據(jù)集X,還需對樣品進(jìn)行指定并分組, 這樣分組后模型將自動(dòng)加上另外一個(gè)隱含的數(shù)據(jù)集Y,通常Y的賦值用-1/1或者0/1表示類別信息。
PCA
PCA是一種使用最廣泛的數(shù)據(jù)降維算法,先找出數(shù)據(jù)X矩陣的方差最大方向作為PC1,在與PC1正交的平面中找出使得方差最大的作為PC2,依次類推。從而建立低維平面或空間 (通常2~5 維), 以此分析和概覽整個(gè)數(shù)據(jù)集。PCA不是一種分類方法,但能提供對復(fù)雜數(shù)據(jù)集的直觀解釋,并從中揭示出數(shù)據(jù)集中觀測數(shù)據(jù)的分組、趨勢以及離群。對明顯不同于大部分樣品的離群樣品,可加以甄別或剔除。如圖2所示。另外,如果存在質(zhì)控樣品,PCA還可進(jìn)行質(zhì)控,如果質(zhì)控樣品很分散或具有一定的變化趨勢,則說明檢測質(zhì)量存在一定的問題。

圖2 對照組與實(shí)驗(yàn)組的PCA得分圖
PLS-DA
PLS-DA在降維的同時(shí)結(jié)合了回歸模型,并利用一定的判別閾值對回歸結(jié)果進(jìn)行判別分析。通過多元線性回歸技術(shù)來找到數(shù)據(jù)集(X)和類別數(shù)據(jù)集(Y)之間的最大協(xié)方差的方向,建立兩個(gè)獨(dú)立數(shù)據(jù)集 (X?Y) 潛在關(guān)聯(lián)分析方法, 即基于 X 變量數(shù)據(jù)信息, 建立Y 變量預(yù)測模型 (X→Y)。
這種模型計(jì)算的方法強(qiáng)行把各組分開, 有利于發(fā)現(xiàn)不同組間的異同點(diǎn)。對于組間差異不夠明顯的樣品, 采用PCA 方法常常無法區(qū)分樣品的組間差異, 這種情況下采用PLS-DA 模型可能更加有效。如圖3所示。同時(shí)也能識(shí)別潛在的生物標(biāo)記物,適用于兩組或者兩組以上分析,在需要同時(shí)觀察多組別樣品相似性和差異性時(shí)體現(xiàn)更大價(jià)值。但是如果主成分過多或分組過于復(fù)雜而出現(xiàn)過擬合現(xiàn)象 (over-fitting), 會(huì)造成模型失真, 在實(shí)際數(shù)據(jù)分析時(shí)應(yīng)注意驗(yàn)證模型有效性和可靠性。

圖3 對照組與實(shí)驗(yàn)組PLS-DA得分圖
OPLS-DA
數(shù)據(jù)集X總會(huì)含有一些與研究無關(guān)的干擾信號,如人的生活方式,植物的生長環(huán)境或檢測儀器的噪音干擾等。若能濾掉這些噪音會(huì)有助于發(fā)現(xiàn)最重要的變量,提高模型的有效性。
與PLS相比,OPLS根據(jù)數(shù)據(jù)集Y的差異將數(shù)據(jù)集X的差異分為兩個(gè)部分,第一部分代表與Y相關(guān)的差異, 第二部分代表與Y不相關(guān) (正交垂直)的差異,OPLS-DA可將這兩部分差異進(jìn)行區(qū)分,控制與Y正交或者無關(guān)的X的變化并加以濾除。通過這種方式,OPLS-DA可以更好地區(qū)分組間差異,提高模型的有效性和解析能力。如圖4所示,OPLS-DA將組間差異主要集中在第一個(gè)預(yù)測主成分上,即X軸。OPLS-DA常用于對兩組樣品的代謝組學(xué)數(shù)據(jù)進(jìn)行判別分析, 能清晰展現(xiàn)組間樣品差別并能直接解釋和識(shí)別潛在的生物標(biāo)志物。

圖4 對照組與實(shí)驗(yàn)組OPLS-DA得分圖
●參考文獻(xiàn):
[1]. Saccenti E , Hoefsloot H C J , Smilde A K , et al. Reflections on univariate and multivariate analysis of metabolomics data[J]. Metabolomics, 2014, 10(3): 361-374.
[2]. Worley B, Powers R. Multivariate Analysis in Metabolomics[J]. Current Metabolomics, 2013, 1(1): 92–107.
[3]. Yi L , Dong N , Yun Y , et al. Chemometric methods in data processing of mass spectrometry-based metabolomics: A review[J]. Analytica Chimica Acta, 2016, 914: 17-34.
[4]. Lubes G , Goodarzi M . Analysis of Volatile Compounds by Advanced Analytical Techniques and Multivariate Chemometrics[J]. Chemical Reviews, 2017, 117(9): 6399-6422.
原創(chuàng): 小邁 邁維代謝
浙公網(wǎng)安備33010802007965號