美格基因·干货学习|一文读懂OPLS
正交偏最小二乘法判别分析(OPLS-DA)是一种多因变量到多自变量的回归建模方法。它是一种有监督的判别分析统计方法。该方法的特点是可以去除自变量X中与分类变量Y无关的数据变化,使分类信息主要集中在一个主成分上,有效滤除与分类信息无关的噪音,从而使得模型简单易懂,提高了模型的解析能力和有效性。其在代谢组学分析中应用较多。通过建立代谢物表达量与分组关系之间的模型,OPLS-DA可以更好地获取组间差异信息,还可以对样本的分组进行预测。
问:OPLS-DA分析有什么用?
OPLS-DA分析在代谢组学数据分析中,可以用于筛选不同组之间的差异代谢物。通过OPLS-DA分析,每个代谢物可以得出一个VIP值,VIP值越大,代表该物质对于区分两组所具有的贡献越大,因此我们在挑选差异代谢物时,通常会将VIP值作为其中一项重要的考察指标。
问:如何解读OPLS-DA的结果?
说到OPLS-DA分析,不得不说的就是OPLS-DA得分散点图了

OPLS-DA 得分图
得分图中每个点代表一个样本,分组相同的样本用同种颜色表示,Group为分组。横坐标表示预测成分得分值,横坐标方向可以看出组间的差距;纵坐标表示正交成分得分值,纵坐标方向可以看出组内的差距;百分比表示成分对数据集的解释度。
了解完得分图,咱们再来看看OPLS-DA分析中也会经常看到的S-plot图。

OPLS-DA S-plot
S-plot图都横坐标表示主成分与代谢物的协相关系数,纵坐标表示主成分与代谢物的相关系数,越靠近右上角和左下角的代谢物表示其差异越显著,红色的点表明这些代谢物的 VIP 值大于等于 1,绿色的点表示这些代谢物的 VIP 值小于 1。
虽然相对于PCA,OPLS-DA分析可以更大限度的展示组间差异,但是有监督的分类模型缺点是可能会出现过拟合(over-fitting)现象,即模型可以很好地将样本进行区分,但用来预测新的样本集时却表现很差。因此对于有监督的分类模型,我们需要验证模型的可靠性,这时候就需要OPLS-DA 置换检验出场了。
什么是置换检验呢?置换检验是Fisher于20世纪30年代提出的一种基于大量计算(computationally intensive),利用样本数据的全(或随机)排列,进行统计推断的方法,因其对总体分布自由,应用较为广泛,特别适用于总体分布未知的小样本资料,以及某些难以用常规方法分析资料的假设检验问题。其原理是以原假设为起点,假定两组没有差别,由此将两组样本合并,然后从中以无放回方式进行抽样,分别归入两个组再计算统计量,反复进行此过程,得到置换分布,在此基础上进行推断。
对于OPLS-DA分析来说,置换检验针对的就是实验组和对照组,置换检验模型是随机打乱实验组和对照组的分组标签(Y变量),多次(一般次数 n = 200)建立对应的 OPLS-DA 模型以获取随机模型的R 2Y 和 Q2 值,其中Q2值表示当前模型可对数据方差进行预测的比例,即预测率,该值越大表示该模型的预测能力越优;R2Y值为模型的累积方差值,指当前模型可对数据方差或变异进行解释的比例,即解释率,该值越大模型解释能力越强。

OPLS-DA 模型的置换检验图
该图中的横坐标表示置换保留度,就是与原模型Y变量顺序一致的比例,若置换保留度为1,即为原OPLS-DA模型的R2和Q2。纵坐标表示 R2Y 或 Q2 的取值,两条虚线分别表示 R2Y 和 Q2 的回归线。如果随着置换保留度的下降,R2和Q2下降,回归线呈向上的趋势,说明置换检验过关,模型不存在过拟合现象。反之,则说明模型存在过拟合现象。
经过上文的解释,您是不是对OPLS-DA有了更深的了解啦?如果想继续了解,那就跟我一起期待一下后期的科普视频吧!
网址:美格基因·干货学习|一文读懂OPLS https://mxgxt.com/news/view/1667671
相关内容
一图读懂吃货经济学高考文言文阅读二轮复习:《读懂文本之人物传记》 教学设计
干货学堂:向明星学习转化粉丝(一)
【干货】筹备、拍摄、拿龙标,一文看懂电影制作全流程
一文读懂KOL带货,数据造假、甄选匹配和它的未来
固原企业进货出货平台 最新供应链优化技巧 一文读懂
那一刻我读懂了你作文(精选20篇)
如何快速解读一张星盘?读懂基本三元,就能看懂一个人
初学者如何学习算命?了解八字、六壬、紫微的基本原理
一文读懂社交网络分析.PDF