统计学论文里的”睡美人”
关注微信:DuoDaaMath 每天获得更多数学趣文
对于做学术的人们,是非常看重自己发表的论文的引用量的。因为,一般认为,论文被引用数据来反映论文作者的水平,反映论文的价值。论文被引用次数越多,说明论文价值越大,作者的水平越高。很多时候,一篇学界大家发表于顶级杂志的论文在短期内被很多人引用,但有时时候也不尽然,有的论文被引用的次数很少,有的甚至“零引用”。
还有一种现象,一篇论文在发表初期,甚至在发表后几年、几十年都引用者寥寥,但之后被引用数量“大爆发”,成为被引用大户。这样的论文,就叫做“睡美人”论文,这些论文就像沉睡的公主一样,一旦被唤醒,就不断散发着她诱人的气息。对于这个现象,还有一种更专业的说法叫做“延迟承认”(Delayed Recognition)。俗话说,书中自有“颜如玉”,论文中也有“睡美人”。
2014年10月30日出版的《自然》杂志讨论了史上被引次数最高的100篇文献。列在第11位的是美国统计学家Edward Kaplan和Paul Meier发表于1958年第53卷《美国统计学会会刊》上的论文,这是一篇典型的“睡美人”文献。他发表后几乎没有什么人去引用,直到十几二十年后的20世纪70年代,由于计算机能力的增强,使得该文介绍的方法——Kaplan-Meier方法——连非专家都能掌握了。该方法简洁、易于使用,故引用者众。据了解,此文已被引用超过4万次了。
武夷山教授是中国科学技术发展战略研究院研究员,他对论文文献中的“睡美人”现象也颇也研究。他说:“千万不能忽视文献‘睡美人’现象。……如果我们在文献收藏上短视的话,等“睡美人”文献苏醒之时,恐怕已经找不到这些文献了。”
附录:Kaplan-Meier方法介绍(来源于网络)
Kaplan-Meier生存曲线
随访研究,如对 某人群进行跟踪,直至出现一个特殊事件或终点,如死亡、癌症复发等,对所有研究对象从某特定时间点开始追踪,记录出现特殊事件的时间。通常,当所有研究对 象出现该事件时研究才结束,但也有些研究对象可能失访,或者研究提前结束,这样就有一些对象的结局未知,对这些对象记录跟踪的时间(截尾数据)。
Kaplan-Meier生存曲线可以用来描述该人群的生存情况。
Kaplan-Meier方 法是一种非参数方法,既适用于小样本,又适用于大样本。基本思想是:将生存时间由小到大依次排列,在每个死亡点上,计算其期 初人数、死亡人数、死亡概率、生存概率和生存率。其思想与寿命表法相同。只不过寿命表法中时间段的划分是人为的、等距的,而Kaplan-Meier法划分时间段的分割点是实际死亡发生时间。
Kaplan-Meier方法的可用来
1. 估计某研究因素 不同水平的中位生存时间。
2. 比较该研究因素 不同水平的生存曲线有无差异。
3. 控制一分层因素 后对研究因素不同水平的生存时间比较(此时将按分层因素的不同水平对研究因素对生存时间的影响分别进行分析)。
关注微信:DuoDaaMath 每天获得更多数学趣文
评论已关闭