在利用代谢组学筛选临床样本潜在biomarker的过程中经常会用到ROC曲线,ROC全名为接收者操作特征(Receiver Operating Characteristic),表示为一个画在二维平面上的曲线。ROC曲线最早是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌军飞机、船舰,也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。数十年来,ROC分析被用于医学、无线电、生物学、犯罪心理学领域中,而且在机器学习(machine learning)和数据挖掘(data mining)中也得到了很多发展。 ● 基本概念 在ROC之前首先解释一下什么是TPR,什么是FPR。 TPR(True Positive Rate,正例覆盖率):真实值是正,且预测为正的比例,也叫敏感性 FPR(False Positive Rate,负例覆盖率):真实值为负,而预测为正的比例,也叫特异性 举例说明: 班里要转来一个新生,大家都在猜是男生还是女生,真实的情况和预测的情况把整体分成了4个部分,如果定义是女生就是正例,那么:TPR=猜对是女生/猜对是女生+没猜到是女生;FPR=没猜到不是女生/没猜到不是女生+猜到不是女生。 ROC曲线是以TPR(Sensitivity)为Y轴,该指标越高代表诊断的准确率越高,FPR(Specificity)为X轴,然后对不同的预测值进行分类,得到的不同的TPR和FPR对应于ROC曲线上的每一个点。因此ROC就是反映FPR与TPR之间的动态关系的曲线。一般情况下,这个曲线都应该处于(0, 0)和(1, 1)连线的上方。因为 (0, 0) 和 (1, 1) 连线形成的ROC曲线实际上代表的是一个随机分类器。TPR增长得越快,斜率越大,反映了模型的分类性能就越好。ROC曲线越是靠近左上角,即灵敏度越高,误判率越低。ROC曲线上最靠近左上角的ROC曲线上的点其灵敏度和特异度之和最大,这个点或其邻近点常被称为诊断参考值。 图1 ROC图示例 ● 选择预测效果最好的解——AUC值 用ROC curve来表示分类器的performance很直观,可是人们总是希望能有一个标准或者数值来表示分类的好坏。于是Area Under ROC Curve (AUC) 就出现了。顾名思义,AUC的值就是ROC 曲线下方的面积的大小。通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的分类效果。 表1 AUC值评价模型分类的准确程度 ● 分类器 可以借助于很多分类器评价候选生物标志对分类模型的效果,做到基于一组预测变量预测一个分类结果。有监督机器学习领域中包含许多可用于分类的方法,如逻辑回归、决策树、随机森林、支持向量机、神经网络等。有监督学习基于一组包含预测变量值和输出变量值的样本单元。可以将全部数据分为一个训练集和一个验证集,其中训练集用于建立预测模型,验证集用于测试模型的准确性。可以选择独立于训练数据集之外的单独另外一批样本作为验证数据集(数目可小于训练数据集),也可将原数据集分为训练集和测试集。 图2 诊断能力评价ROC图示例 ● 一个简单的绘制ROC曲线的方法 MetaboAnalyst 5.0(网址https://www.metaboanalyst.ca/),主要作者Jianguo (Jeff) Xia)这款在线的web server工具网站可以实现在线做biomarker分析: 小编绘制出来的图如下,有兴趣的老师可以进网站根据提示或者先使用网站提供的demo数据操作一下。 随着医学代谢组的发展,生物标志物作为最直接快速有效的诊断手段,其筛选可在疾病诊断、发展、治疗、以及疗效监测等方面发挥重要的作用。近年来寻找和发现有价值的Biomarker已经成为目前精准医疗研究的重要发展方向。中科新生命基于17年质谱经验,可提供高质、可靠的医学代谢组数据,助力精准医学和临床标志物发现!