医学统计学是一门很奇妙的科学。要说它简单吧,其实也挺简单的,常见的统计方法也就十余种,在教科书上都能找到,只要熟练掌握,虽不敢夸下海口说可以“以秋风扫落叶的气概横扫四海之内的杂志”,但足以轻车熟路地应付 99%的科学研究。要说它复杂吧,也挺复杂的,毫不夸张地说,绝大部分国内期刊,甚至在很多低分 SCI 杂志上,乱用统计学的现象多如牛毛。
很多同行在学习医学统计学时,都在抱怨自己很难走出“一学就会,一会就用,一用就错,一错就懵”的怪圈。究其原因,主要是部分同行学习医学统计学时都抱着一副“依葫芦画瓢”的态度,试图“套用统计学方法”来解决自己面临的问题,而不去仔细思考统计学方法的来龙去脉。本文拟谈几则与医学统计学相关的故事,希望能帮助大家从宏观上正确认识医学统计学这门科学。
1.两个指标诊断疾病的问题
(1)肝癌诊断指标的优劣
路人甲做了一个研究,旨在比较两个指标(A 和 B)对肝癌的诊断价值。路人甲以 A 和 B 的参考范围上限作为诊断界值,得出了 A 和 B 在该界值下对应的诊断敏感性和特异性。结果表明: A 的诊断敏感性为 0.80,特异性为 0.90; B 的诊断敏感性为 0.85,特异性为 0.87。路人甲很快撰写论文报道了自己的研究成果,指出 B 诊断肝癌的敏感性高于 A,而特异性低于 A。
路人乙是这篇文章的审稿人,当他看见这个结论后, 脸色铁青,毫不犹豫地在审稿意见中写道:就敏感性而言, B 高于 A;就特异性而言, A 高于 B。诊断敏感性和特异性与所采用的界值密切相关,作者得出的敏感性和特异性仅仅代表了一个诊断界点下面的诊断效能,无法从全局上反映 A 和B 的诊断价值。文章的结论到底是想说明 A 优秀还是 B 优秀呢?
这个故事说明:统计指标选错了,统计出来的东西往往难以“自圆其说”。
稿件被退了,路人甲有些许郁闷。经过认真学习科研设计与统计学知识后,路人甲终于明白了一个问题:两个指标诊断性能的比较是不能比较敏感性和特异性的,而应该比较 ROC 的曲线下面积,因为曲线下面积才是衡量整体诊断效率的最佳指标。路人甲很快绘制了 ROC 曲线,统计结果表明,A 的曲线下面积为 0.80, B 的曲线下面积为 0.82。路人甲欣喜若狂,赶紧动笔写论文,并且理直气壮地给文章定了一个结论: B 的诊断效率是优于 A 的,其理由就是因为 B 的曲线下面积大于 A。
路人丙是这篇文章的审稿人,当他看见这个结论后, 脸色铁青,毫不犹豫地在审稿意见中写道:从表面上看, B 的曲线下面积高于 A,但是导致这种差异的原因有两种,一种是抽样误差,一种是试验效应,即 B 确实是高于 A 的。你怎么能确定这不是抽样误差呢?在统计学上,要确定 0.82 是否高于 0.80,就一定要经过统计学检验的。
这个故事说明:在医学科研中,没有经过统计学检验的结论多半是不科学的。稿件被退了,路人甲很是郁闷。他吸取了经验教训,自学了很多统计学理论,终于弄清楚了采用何种方法去比较曲线下面积。接下来的事情就是改稿,然后另选杂志继续投稿。路人甲在文稿中特别注明了,曲线下面积是经过了统计学检验的, B 的曲线下面积(0.82)与 A 的曲线下面积(0.80)之间的差异是有统计学意义的,而且还大摇大摆地在后面加了个括号,写明 P=0.01。路人甲仰天长叹了一口气,很郑重地给自己的研究下了结论:本研究表明 B 的诊断效率是优于 A 的。
路人丁是这篇文章的审稿人,当他看见这个结论后, 脸色铁青,毫不犹豫地在审稿意见写道: B是常见的诊断指标,其检测结果并不对临床医师设盲,在很大程度上可以影响临床医师对疾病的诊断。 A 是新近发现的诊断指标,其结果完全对临床医师设盲,不可能影响医生的诊断。所以作者的结论(B 比 A 优秀)是不可靠的。
再说得通俗点,如果把 A 和 B 分别理解成法庭上的原告和被告,那 B 无疑既充当了辩护律师,又充当了法官的角色。在这种情况下, A 输掉了官司是十分正常的。如果换一个公平的、独立的法官来断案, B 能否胜出就不好说了。
这个故事说明:实(试)验设计有缺陷,再优秀、再正规的统计学方法也于事无补。
稿件又被退了,路人甲的心情极度郁闷。 思来想去,决定把实验重做一遍,让 A 和 B 在一个公平的环境中比较(为便于描述,此处忽略医学伦理学问题)。在新开展的研究中, A 和 B 都是对临床医生设盲的,不可能影响诊断标准。这下 A 和 B 的比较结果应该比较可靠了吧,路人甲又仰天长叹了一口气,感觉自己如释重负了。
科研太折腾人了,太不容易了!统计结果很快出来, A 的曲线下面积是 0.80, B 的曲线下面积则变成了 0.77,经过统计学检验后发现, A 的诊断效能确实是高于 B 的。整个研究的试验设计滴水不漏,统计学过程天衣无缝,我就不信还有人敢拒这篇稿件,路人甲心中开始暗喜。
路人戊是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道: A和 B 的检测并不矛盾,他们之间的关系不应该是竞争关系,而应该是合作关系。读者最关心的问题显然不是 A 和 B“孰强孰弱”的问题,虽然这个问题有一定的专业价值。
如果我是坐诊医生,我会说:A和 B 谁强谁弱关我什么事?总之来一个病人我就 A 和 B 都检测,我的患者都不差钱!作者的研究重点应该是明确 A 和 B 能否互补,联合使用是否能有助于提高诊断准确性的问题,而非 A 和 B“孰强孰弱”的问题。简单地说,就是明确 1+1 是否大于 1 的问题。
文章又被拒稿了。
这个故事说明:研究方向错了,即使是无懈可击的实(试)验设计和天衣无缝的统计方法,也是无济于事。
这四个故事说明:医学科研是很痛苦的,不重视统计学和科研设计,会走很多弯路的。
(2)降糖药的研究、学生自杀事件
路人甲长期从事降糖药的研究,最近他发现了一种药物,可以降低患者的血糖。为了评价该药的降糖效果,路人甲费尽心机地设计了一个看似完美的随机对照试验(RCT),为了保证结果可靠,路人甲严格遵守 RCT 设计准则,包括随机、双盲、安慰剂对照等措施。
研究结果表明,实验组和对照组在接受药物治疗前血糖浓度的均值都是 10mmol/L,差异无统计学意义,表明两组研究对象的基线特征具有可比性。对照组未经任何药物治疗(为便于描述,此处忽略医学伦理学问题),血糖浓度还是 10mmol/L;实验组经过药物干预后,血糖浓度变成了 9mmol/L。
统计学检验结果表明,实验组和对照组治疗后的血糖浓度的差异是有统计学意义的(P<0.01)。路人甲赶紧撰写论文,并毫不客气地给研究下了个结论:该药可以降低患者血糖。
路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:该药确实可以降低血糖,但是一个只能降低 1mmol/L 的降糖药有何临床价值?
这个故事说明:有统计学意义不一定有专业意义。
路人甲做了一个调查,同处一地的 A 和 B 两所中学,各有 1000 名学生,过去的一年, A 校有 5名学生自杀(自杀率为 0.5%), B 校没有学生自杀(自杀率为 0%)。统计学结果表明,两校自杀率的差异无统计学意义(P=0.07, Fisher 确切概率法,笔者进行了统计)。于是路人甲得出结论: A 和B 两校的自杀率是没有差异的, A 校 5 名学生自杀纯属小概率事件。
路人乙是这篇文章的审稿人,当他看见这个结论后, 脸色铁青,毫不犹豫地在审稿意见写道: 5个鲜活的生命就这样没有了, 5 个家庭就这样毁了,你却告诉我这纯属小概率事件,你就不怕“人神共愤”吗?
这个故事说明:有专业意义不一定有统计学意义。
这两个故事说明:做医学科研,不能死磕统计。
看完这两个故事,也许有的读者会有疑问:前面还强调“没有经过统计学检验的结论多半是不科学的”,为什么这里却淡化统计学的作用呢?对此,笔者认为:统计学仅仅是一种工具,用得好当然可以事半功倍,但是在某些情况下,工具往往就是个累赘,也许徒手干活才是最好的选择。
2.如何看待统计学结果
路人甲经历数十年的研究,动用了各种高精尖的研究手段,发现了一个新的蛋白(命名为蛋白A)。在肝癌患者中展开的研究表明,蛋白 A 和甲胎蛋白(AFP)有很好的相关性,其相关程度之好,几乎可以用“一塌糊涂”来形容,相关系数达到了 0.99(P<0.0001)。路人甲欣喜若狂,尽管蛋白 A的检测过程还十分繁琐,检测费用还十分高,但是路人甲还是把持不住内心的激动,日夜兼程地撰写论文,宣称自己找到了一个新的肝癌标志物。
路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:统计结果表明蛋白 A 和 AFP 的相关性十分明显。如果是这样,在临床实践中,通过检测 AFP 完全就可以得知蛋白 A 的浓度了,蛋白 A 在肝癌中的临床价值完全可以被 AFP 代替,还不说蛋白 A 的检测过程繁琐,费用太高的问题,你说蛋白 A 还有什么价值?
这个故事说明:统计学阳性的结果未必是“好结果”。
路人甲发明了两套诊断肺癌的方案,分别命名为 A 和 B。为了明确这两种方案到底谁“更胜一筹”,路人甲找了 100 个肺癌患者和 100 个疑似肺癌患者(结核、肺炎等),分别用 A、 B 两套方案去进行鉴别诊断。在 200 个研究对象中(100 个肺癌和 100 个非肺癌),方案 A 正确了 100 回,准确率 50%,方案 B 仅仅正确了 50 回,准确率仅为 25%。
卡方检验表明:方案 A 和 B 准确率之间的差异有统计学意义(P<0.01)。很明显,方案 A 的准确性要高于方案 B。路人甲赶紧发表论文,指出:方案 A 诊断肺癌的准确性优于方案 B。
路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:如果我(审稿人本人)是坐诊医生,他就会反着看方案 B 的结果,凡是方案 B 认为是肺癌的,他就认为病人不是肺癌;反之亦然。 这样下来, 200 个病人中, 方案 B 应该能正确识别 150 个人, 准确率为 75%。
统计学结果表明,方案 B 的准确率(75%)是高于方案 A(50%)的,所以真实的情况是方案B优于方案 A。实际上,当面对这 200 名患者的时候,随便到城隍庙找个瞎子来“算命(猜患者是否患病)”,按照统计学理论,准确率也应该是 50%,方案 A 的价值可以说是“一无是处”。
这个故事说明:统计学阴性的结果未必是“坏结果”。
还是那个 AFP 与蛋白 A 的例子。路人甲发现蛋白 A和甲胎蛋白(AFP)之间有很好的相关性,也开始撰写论文,但是他的结论并不是“蛋白 A 是诊断肝癌的标记物”。他认为,既然蛋白 A 与 AFP之间有很强的相关性,那提示 AFP 和蛋白 A 之间可能存在十分密切的“调节”或者“被调节”关系。
最终,路人甲围绕“蛋白 A与 AFP 之间的调节或者被调节关系”做了很多分子生物学试验,指出蛋白 A 是调节 AFP 表达的唯一(注意“唯一”这两个字)因子,因此二者之间才会呈现如此强烈的相关性。这是一项基础研究,虽然未能直截了当地地指出蛋白 A 的临床价值,但是这个研究形象生动地讲述了一个完整的分子生物学事件,丰富了我们对于肝癌发生与发展分子机制的认识。
最终,论文“堂而皇之”地被接受了。
这个故事说明:同一统计学结果,从不同的专业角度去解释,结论是完全不同的。
这三个故事说明:对统计学结果的解读一定要结合专业!从专业中来,到专业中去!
资料来源:胡志德(Journalof Thoracic Disease 学术沙龙委员、 Section Editor (Systematic Review and Meta-analysis),工作于济南军区总医院实验诊断科,现为第二军医大学临床检验诊断学博士研究生,以第一作者或通讯作者身份发表SCI 论文十余篇,并主持国家青年科学基金一项。)
内容简介
本书以数据挖掘与模式识别的七大原理在临床医学中的运用案例为切入点,系统而全面地介绍了医学数据挖掘的基本方法与原理,对 数据分析的常用算法进行了通俗易懂的讲解。本书最大的特色是采用了案例分析与实证的方法,每一个原理、算法都在案例讲解中生动地体现出来。更重要的是,本书对临床医学的数据挖掘与模式识别技术进行了开创性、系统性的讨论,用案例展现了数据挖掘技术如何与临床医学相结合,为广大的医生、医学数据挖掘工作者提供了很实用的技术示范、理念导入、系统思考。
本书所有概念的讲解基本结构为原理讲解与案例实操的二元结构,兼顾初学者与专业人士需要。本书重点探讨了数据挖掘技术如何与临床医学深度融合,如何运用现代的数据挖掘理念、模式识别与机器学习的基本方法解决临床科研中的应用问题,为广大的科研型临床医生提供助力,为广大的数据分析人员找到行业应用的范例,为广大初学者提供努力学习的方向;更重要的是在这个大数据时代,我们可以亲自见证数据技术是如何改变并深刻影响着临床医学的科研与教学的。
|