大数据和医工交叉时代下对医学统计的思考 环球聚看点
世界上最遥远的距离,不是两个人在天涯海角,而是两个人(一个医生,一个工科)坐在桌子对面,谈了一个小时,却发现一句都听不懂对方在说什么。
这是一种真实情况,我曾经坐在两个人中间,试图给他们当翻译(虽然两个人说的都是中文),我需要让医生明白,什么是标签、什么是召回率、什么是特征工程,我也同时需要告诉工科技术人员,我们要实现的目的是什么、数据如何收集等各种问题。
医工交叉目前很火,目前医学很多成果都是医工交叉的产物,如语音识别、疾病面容识别等。我们自己也在不断探索如何跟工科更好的结合,这并不容易。真正的医工交叉,不是简单地“医院收集数据、工科建立模型”,这太肤浅,而且往往容易因为沟通不充分而产生歧义。然而让医生和工科整天在一起沟通交流(各自说着对方听不懂的术语,而且都以为自己说的是最浅显的话),既痛苦且耗不起时间。
(资料图片)
如果说还有一种解决这种令人不安的局面的方法,那就是有个医学统计专业人员在二者之间翻译一下。医学统计学家在以前承担着各种临床试验设计、流行病学调查设计、数据清洗与管理、数据统计分析等各种责任,现在华丽的转身,变成了医学与工科沟通的桥梁。
在目前“大数据”充斥着各个领域的时代,仍有不少人认为统计学已经过时了,一味热衷于各种机器学习、深度学习。不少医学统计学研究生也在学习期间紧张地开始看各种机器学习的书籍(当然这是好事,但如果基础没打好,也可能会越看越糊涂)。然而,诺奖得主托马斯·萨金特和任正非却说,“人工智能就是统计学”(虽然这句话存在争议),这无疑给统计学专业人员吃了一个定心丸。
所谓“人工智能就是统计学”这句话,就算不能说百分百正确,但绝对是有道理的。其实各种机器学习中的术语,很多都是统计学中的变形,然而这很难统一。且不说统计学与机器学习领域的统一,单是统计学的同一名词在不同应用领域就存在不同叫法(如稳健vs鲁棒、甚至变量的类型都不统一,如医学中就没有定距变量这种说法)。
不少医学统计学专业的研究生,就对机器学习中所谓的“标签”、“特征工程”等各类术语茫然不知所措。同样,跟工科老师提“变量”、“指标”这些,他们有时也需要反应一会儿。尽管工科老师可以做出最复杂的模型,有时却难以理解像“关联”这种最简单的词在医学中的表达。因为工科生眼中看到的,往往只是数据本身,而医学的数据分析,却渗入了大量的设计思路。
机器学习往往简单粗暴,就是不断调优,最终接近目标。简单地说,你想要一根香肠,你把肉从机器这头塞进去,那一头就努力给你出来一根符合你需求的香肠,中间怎么做的,你不用管(事实上,你可能也管不了)。
统计学则并非如此,你想要一根香肠,需要自己精挑细选,准备好各种原料(肉、葱姜蒜、油盐酱醋等),然后一点一点尝试,最终在自己的不断努力下,终于做出一个符合自己口味的香肠。机器最多只是帮你做成香肠的样子,调馅什么的都是自己手工完成的。
如何利用统计学的技术做出一个符合需求的香肠,这个要求难度比较高。新手和老手做出的绝对不一样。因为新手往往可能缺乏经验,不知道如何选各种原料,如果做得效果不好,可能也不知道如何分析问题出在哪里。而资深统计学家则可以快速想到各种可能的问题并加以解决。
如果利用机器学习技术,你想让机器帮你调馅,你只负责把肉塞到机器里,这时候新手和老手可能差别并不大,因为大家都知道怎么把肉放进去,至于机器里面如何调馅(参数调优),你就放心地交给机器好了。然而一个很关键的问题是,如果你选的原料不好,这个机器再厉害,也不可能做出一个口感很好的香肠。机器可以帮你调馅,但绝不可能帮你选原料。这一点是绝对是资深统计学家值得夸耀之处,也是不可替代之处。
有的医学统计研究生(包括一些老师)很喜欢这些机器学习方法,却轻视传统的统计学方法。我一个朋友就曾收到一个审稿意见(文章目的是用logistic回归建立一个预测模型),建议他不要用logistic回归建模,改成所谓的“高级”统计方法。听起来很可笑,然而的确有一些人对这些所谓的“高级统计方法”着迷。
事实上,统计学和机器学习技术不是什么低级和高级的划分,如果真要说的话,统计学应该是机器学习之父(个人观点),虽然有的机器学习方法表面上看起来好像跟统计学没什么关系,但深入进去,其实是满满对统计学的敬意。不能因为二代变得似乎先进了,就忘了上一代的功劳。比如logistic回归和神经网络,能说神经网络比logistic回归高级?
相比机器学习技术而言,医学统计学的分析需要更多经验积累,同一份数据,有经验的统计学家可能会更容易发现数据背后的一些问题所在,可以更好地找出数据背后隐藏的真正规律。而新手有时则会错失这些规律,看不到一些提示或信息,有时可能会沉浸在一些似乎有意义的假阳性中沾沾自喜,有时则会为未能发现有意义的结果而苦恼。
举一个例子,我要基于logistic回归建立一个预测模型(共有a、b、c三个连续变量)。我直接把因变量(二分类)和3个自变量扔到软件里建模,最后3个变量都没有统计学意义,模型的ROC曲线下面积只有0.6:
如果我用两层的神经网络,也把这3个变量扔进去,最后得到的ROC曲线下面积是0.86:
乍一看似乎让人印象很深刻,神经网络优于logistic回归。这也是前几年不少这类文章的结论(我个人就审过好几篇):通过对同一批数据,分别用logistic回归和神经网络(或其它机器学习方法)建模,最后一比较ROC曲线下面积,得出结论认为神经网络预测效果优于logistic回归。
这种结论是否正确,说实话,很难说。比如,你让一个老外(根本不知道什么叫水饺)来包水饺,然后同时也让一个机器自动包水饺,最后比较一下谁包的好吃,结果发现,机器包的好吃,然后宣扬:机器包的水饺优于人包的水饺。这个结论是否可靠呢?大家可以自己想想就明白。如果不是让一个老外包水饺,而是一个资深的厨师来包呢?最后还是说机器的更好吗?我想未必。
为什么神经网络的ROC曲线下面积高,因为神经网络在不断参数调优过程中,找到了一个最佳模型。比如本例就发现,两层的神经网络就优于单层神经网络,然而这是一个很复杂的模型,你甚至无法用公式、用语言去描述它。
为什么logistic回归的ROC曲线下面积低?问题不在于logistic回归模型本身,而是做分析的人。你如果没有经验,直接将数据扔到软件里,不考虑各种logistic回归所需的应用条件,自然得不到一个好的结果。
然而有经验的统计学家不会采用“直接把数据扔到软件里”这种方式。
如果仔细分析一下这3个连续自变量,其实根据经验很容易发现它们与结局并非线性关系,对一个本身就是个线性模型的logistic回归而言,你让它拟合一个非线性关系,当然效果不好(就像你用菜刀想一刀把西瓜写出个弧形,你永远做不到)。
事实上,当把数据重新分析,把3个自变量重新变换一下形式(可以是变量变换,也可以是根据实际情况将其划分为分类变量),我们就会发现,原来logistic回归拟合的效果一样很好,ROC曲线下面积为0.86:
这个例子我只是想说,对于像logistic回归等这类似乎是“过时”的方法,需要更多的理解和深入分析。我的经验是:没有不好的方法,只有不会分析的人。就像摄影,真正懂得摄影的人,即使用手机也能拍出大片的效果。不懂的人,就算用单反拍的照片,始终总觉得差强人意。
当不同方法发生碰撞,很多医学统计学研究生就会困惑:我以前学的这些方法是不是过时了?我是不是应该转身去学习新的方法?方法是永不过时的,如果你觉得某种方法结果似乎不理想,我觉得首先应该自己想一下是不是自己没有用好,是不是有些问题你没有发现。《天龙八部》中乔峰用一套太祖长拳打败了少林寺的七十二绝技,是太祖长拳比七十二绝技厉害吗?非也!关键是看谁在用。或者像施瓦辛格在《终结者:创世纪》中说的:old, but not obsolete。旧的方法并不等同于无用的方法。
很多人把统计分析作为艺术来看待,如同作画、填词。确实如此。医学统计学的实用价值不是简单地理解几个概念、学会软件操作,计算某个结果。更重要的是,要学会理解分析思路,知道这些方法为什么要用、什么时候用、如何恰当地用,出现问题如何解决。
一个好的应用统计学家,不是说你会编程、会调参就够了,而是要从一开始收集数据就胸有成竹,从数据收集、清洗、整理,一直到如何分析,都要有明确的思路(就像一个好的厨师,从一开始选料过程就已经心里有数,他的能力绝不是只体现在最后一步炒菜上)。每一个变量都要清楚它为什么没有意义,是你的数据问题,还是你分析中漏掉了什么?我相信,一个真正的统计学家,是享受这一数据分析过程的。这种分析中发现问题、解决问题的过程,是一个让你不断提高的过程。
如果有的医学统计学研究生还在迷茫和彷徨,那其实没必要,在大数据和医工交叉时代下,医学统计学是变得更迫切和需要,而不是被取代。医学统计学家所考虑的角度,往往比工科更加实用,或者说,更贴近临床研究目的。
比如有一次讨论,一个工科老师先介绍一下他们跟医院合作做的一些结果,最后说,结果不算太理想,可能还需要进一步调参。我却从另一个角度提了一个建议:建议分不同年龄试试,因为这个疾病可能在不同年龄会有不同的变化和影响。这个建议看起来很简单,然而却并不是这么容易被想到。
从工科来讲,他们发现模型不够好,首先想到的可能就是继续调参,调到模型更好。临床大夫很难从这方面表达自己的想法,因为确实不懂工科他们在说什么。医学统计学家却会同时考虑模型和医学背景,提供更为中肯的、实用的建议。
所以,医学统计学家其实有很大的发挥余地,很多时候往往不经意的一些交流和碰撞,就会产生很多火花。我个人是深有体会的,与不同专业的人聊起来,往往会发现一些新的想法和问题。
最后给医学统计学研究生或新入行的人的建议就是:不要被当前各种层出不穷的新名词、新技术弄得眼花缭乱,也没有必要一味追求所谓的新方法和新技术(这些应该是一个自然而然的学习过程,而不是一个硬性拔高的过程),否则你会发现你好像永远跟不上技术的更新,永远处在焦虑之中。最好的方式就是:打好统计学基础,再去尝试接触自己需要的方法,你会发现很多方法其实都是触类旁通的,就像你学好了易筋经,你会发现再练其它招式都是事半功倍。
标签:
大数据和医工交叉时代下对医学统计的思考 环球聚看点
2023-03-22
半夏投资李蓓:美国银行危机远未结束
2023-03-22
2023年3月22日流媒体上线新片预告! 焦点日报
2023-03-22
今年河南将适度扩大中职招生规模_热消息
2023-03-22
全球微速讯:水滴保险商城怎么退保_水滴保险怎么退保
2023-03-22
关于十二生肖的故事传说(十二生肖的神话传说) 环球最资讯
2023-03-22
泰坦尼克号现在在哪里_泰坦尼克号现在在哪 环球热资讯
2023-03-22
黑裤子发黄怎么补救_黑裤子发黄如何补救 世界时快讯
2023-03-21
每日信息:快快评丨又见“造黄谣”,必须为维权者撑腰
2023-03-21
杭州每年交350元的医保卡是否有钱?_环球热讯
2023-03-21
半夏投资李蓓:美国银行危机远未结束
2023年3月22日流媒体上线新片预告! 焦点日报
今年河南将适度扩大中职招生规模_热消息
全球微速讯:水滴保险商城怎么退保_水滴保险怎么退保
关于十二生肖的故事传说(十二生肖的神话传说) 环球最资讯
泰坦尼克号现在在哪里_泰坦尼克号现在在哪 环球热资讯
黑裤子发黄怎么补救_黑裤子发黄如何补救 世界时快讯
每日信息:快快评丨又见“造黄谣”,必须为维权者撑腰
杭州每年交350元的医保卡是否有钱?_环球热讯
奖杯再回归,曼城福利来袭!本周末,曼城俱乐部自2..._今日看点
讯息:2023年泸州酒博会免费门票领取入口
怎么查提前批是否录取在哪里查录取结果_怎么查提前批是否录取
闽赣检察机关启动“2+5”监督协作机制 强化武夷山国家公园生态保护_全球速读
全球短讯!瓶邪是什么意思
违背祖宗的决定?消息称Redmi新机将去除屏幕塑料支架
日剧拍同妻三人行;李海海和林景云出演恐怖电影;台剧拍警察和私生子的故事|当前热讯
【乡村振兴】宁明那敏:干部回乡话发展 齐心聚力谋振兴|天天热点
2023杭州萧山机场青苗计划招聘通知
全球热消息:呼和浩特市公共租赁住房管理办法(政策原文)
九三学社南平市委青工委组织开展植树活动
字母哥正式超越名宿朱尼奥-布里奇曼 加冕雄鹿队史常规赛出场王
环球百事通!〖战山为王〗家有啵啵9
【天天速看料】中秋来历动画版_中秋来历动画
农家俏媳山里汉子强势宠_农女致富山里汉宠妻无度全文免费
抱不平|天天热点
毒雾电影正片(毒雾)_热讯
【天天新视野】韩媒:韩国防部启动韩日军情协定恢复正常化程序
全球球精选!林宝春_关于林宝春简述
微信如何发朋友圈图片加文字_微信如何发朋友圈
- 射阳交警“铁骑”多措并举扎实推进廉政文化建设_世界快资讯
- 4-0打爆王曼昱,孙颖莎一姐实至名归!赛后采访高情商给队友面子
- 速读:塔图姆34+12 杰伦27+6 利拉德41分 绿军送开拓者5连败
- 小学电子课本人教版_小学数学课本人教版电子版
- 晴雯曲喜庆版_晴雯 时讯
- 媒体称在水下约九百米处发现美军坠毁无人机
- 灌篮高手国语下载 ftp_灌篮高手国语版下载迅雷 全球微头条
- 初三学生被罚站倒地去世,家属质疑老师“冷眼旁观”,警方回应:已经在调查取证
- 华泰现代子公司Traka汽车系统简介 视点
- 【世界新要闻】2022年挂烫机市场零售量1146.5万台,同比降25.3%
- 全球关注:佛界众佛排名图片_佛界众佛排名
- 菲利华盘中异动 股价振幅达7.82% 跌6.9% 报43.31元
- 天天快报!禁止幼儿园对幼儿和家长入园考试!浙江发布2023年幼儿园招生工作通知
- 哈药股份(600664):3月16日北向资金增持76.82万股|全球速看
- 女生称呼男生直男是什么意思_女生叫你直男的意思-天天新资讯
- 党校学历算大学学历吗_急 党校学历有用吗|天天精选
- 本周末,宝安马拉松当日地铁提前营运、公交线路调整
- ST天润: 关于公司控股股东所持公司部分股份司法拍卖流拍的公告
- 中船汉光3月16日快速反弹 世界热门
- 多家百亿私募齐聚!中航证券“七星翎雲”财富管理品牌发布暨“航融杯”私募实盘大赛启动会圆满举办
- 【热闻】又一趟一站直达!太原⇄晋城1小时26分!最低票价89元!
- 金融科技公司Stripe估值降至500亿美元,自峰值削减近半|环球最资讯
- 北洋水师正式成立时间是哪一年_北洋水师正式成立时间 看点
- 5场比赛5球1助攻!拜仁官方:科曼当选俱乐部2月最佳球员
- CBA未讨论周琦归属:魔王无缘回归 朱彦硕批判新疆:篮协处罚呢?
- 英国玩具梗_关于英国玩具梗的简介|世界关注
- 吹捧韩国,痴迷日本,大小S的“无脑行为”,真是荒谬可笑 全球快资讯
- 全球快讯:中国兵王绝密任务_中国兵王
- 前2月房地产开发投资同比降5.7% 住宅销售额增3.5%-微速讯
- 美国最大地区体育网络的所有者钻石体育集团(DiamondSportsGroup)当地时间周二申请破产保护,因背负了超过80亿美元的债务
- 骨力遒劲_环球快看
- 司马光勤学文言文翻译及启示_司马光勤学文言文翻译_环球热闻
- 今日延禧攻略尔晴同人小说_延禧攻略尔晴结局
- 发作性睡病 全球信息
- 英国植树节_关于英国植树节的简介|全球快资讯
- 闻的成语有哪些_闻的成语|环球快看点
- 茅台技术开发公司被执行125万-当前最新
- 单人单车横穿中国,“独行女侠”太酷了!
- 石屏县气象台发布大雾橙色预警【Ⅱ级/严重】【2023-03-14】
- 圯桥进履怎么读_圯
- 【快播报】iphone6s最佳系统版本_iphone6分辨率
- 最新快讯!三大银行接连倒闭,全球金融雪崩进入倒计时?下一个是美债?
- 阿卡红珊瑚的鉴别方法_红珊瑚的鉴别方法
- 工银彭博国开债1-3年指数基金3月13日起限购|世界今日讯
- 全球微资讯!重磅!体育总局一把手正式表态,足坛反腐将迎突破,球迷拍手叫好
- 民进湖南省委会常委、中南出版传媒集团出版部部长戴茵代表:药品说明书适老化改造刻不容缓 世界热推荐
- 神舟十五号航天员乘组计划于今年6月返回地面-快消息
- 喝茶是为了愉悦,懂茶其实是虚妄!_即时焦点
- 北京市统计联网直报入口_北京市统计_全球热推荐
- 星际战甲伏特配卡_星际战甲伏特 世界最新
