影响因子的前世今生 贺飞 北京大学 伴随着科研竞争的日益激烈,如果你正在获取tenure职位、获得基金、评上国家奖或是当选院士的道路上,那么你的一篇最新得意之作发表在哪家期刊比较好呢?论文发表后能得到较大的认同度和曝光率呢?如果你面临着科研选题,哪些期刊的研究情报才是最值得信赖的研究动态呢?一个可供你参考的答案那就是“期刊引证报告(Journal Citation Reports,简称JCR)”,这是对学术期刊影响力评估的各项指标的概要,其中的一个核心指标就是期刊影响因子。 世界上的期刊成千上万,五花八门,要收录世界所有的期刊显然是不可能的,汤森路透期刊遴选目标是收录相对较为重要的期刊。因此,确保JCR和期刊影响因子有效性是遴选和维护所收录期刊的必要环节。JCR候选期刊除了需要被Web of Science数据库平台及其所包含的其他数据库所收录外,还需要通过一系列包括出版及时性、内容新颖程度、国际多元化、以及其他标准的评估。 根据汤森路透的初衷,期刊影响因子(Journal Impact Factor,简称JIF)作为JCR的一个重要指标,通常被认为代表着期刊的重要性。汤森路透认为,期刊影响因子所具有的优势是直接反映了科学家和学者自己对于最值得关注和有帮助的科学研究的判断。 影响因子在一定程度上虽说是一本杂志质量高低的标准之一,但它还能带来期刊甚至科学以外太多的东西,如教职、基金、奖励、学术影响力等。那么什么是期刊影响因子呢? 根据汤森路透的定义,期刊影响因子即某期刊前两年发表的论文在第三年中平均被引次数。例如,某期刊在2014年影响因子为4.25,说明这本期刊2012年和2013年发表的论文在2014年平均被引用了4.25次。 在汤森路透的一份如何正确使用期刊影响因子的声明中,他们认为: 汤森路透一直强调,作为衡量期刊影响力的常用指标,期刊影响因子应予以恰当的应用,而不是作为评估作者或机构的替代品。 期刊影响因子仅仅是单一数据点,必须严谨地并且联系实际情况加以考虑,因为很多因素都会影响论文在不同学科中的引用情况。 让期刊影响因子作为评估论文本身或者作者的代替品并不合理。 当前,尽管很多人批评学术界对其滥用,但当前取消它,或者马上改革并不是一件一蹴而就的事。今年6月18日,汤森路透公布了年度期刊引证报告JCR。今年的JCR报告涵盖了来自82个国家的237个大类的11149本期刊,其中自然科学领域收录了8618份SCI杂志。今年有272本杂志第一次被收录,与去年相比,53%的杂志影响因子增加。Ca-Cancer J Clin、NEJM以及CHEM REV再次包揽了榜单的前三甲,影响因子分别为115.84、55.873、 46.568。 在今年的JCR报告中,综合性期刊总共只有56个,其中Nature和Science分别位列第1和第2。值得注意的是Nature Communications已经超过了PNAS,而美国《国家科学院院刊》(PNAS)仅以9.674的影响因子排名第198位。 另外今年的排名新加了一个特征因子(Eigenfactor score)。这个数字是衡量一个期刊在其学科中的总体贡献,而一个学科的全部贡献值是100。比如下面的Nature, Science, 和PNAS的Eigenfactor score分别是1.5, 1.2 和1.4。总体来说影响因子和这个系数是高度相关的(r2 = 0.83)。 6月30日出版的PNAS发表了其主编Inder M. Verma的一篇吐槽文章“影响力而非影响因子”,显然是针对不久前的6月18日汤森路透公布2014年度的期刊引证报告JCR而有感而发。Inder M. Verma是一位来自美国加州圣地亚哥索尔克生物科学研究所的分子生物学家,于2011年11月出任PNAS主编,其职责是确保PNAS的水准得以维持,而大部分的论文审查和出版工作则仍将由PNAS的职员和编委会进行。他还在索尔克研究所自己的实验室里继续从事基因疗法、肿瘤遗传学和炎症的研究。他在文章中说: 当英国哲学家赫伯特·斯宾塞1864年引入“适者生存”这个短语时,他万万没有想到可用来概括当前年轻科学家所处的困境。随着教师职位和研究经费竞争的持续白热化,今天的科研人员面临在高影响因子科学期刊上发表论文的巨大压力。但仅在几十年前的1970年代,当我作为一个病毒学家开始我的科学生涯时,我所在的领域普遍认同的是病毒学专业杂志。而只有跨学科的工作才会发表在那些迎合更多读者的期刊上。大多数研究人员阅读和发表论文时很少考虑传说中的所谓期刊自身的影响。教师任命、晋升以及科研项目的获取常常主要基于工作本身的未来可察觉的影响力,而不是依据其研究工作发表在所谓的“高影响力”期刊上。 不幸的是自那以后变化大潮势不可挡。美国科技情报所(ISI)(后来并入汤森路透)的创始人Eugene Garfield引入了期刊影响因子(JIF)这一概念。其最初的想法是帮助指导图书馆员决定订购那种期刊,自那以后这一指标长期被用于科技期刊的排名。按照Garfield的说法,“一份期刊的影响因子基于两个元素:分子是前两年发表的论文在计算年度被引用总数,分母是前两年发表的论文总数(论文和综述)” 。这一计算方法即便是用来测度期刊的科学影响力时也存在固有的不足。由两年的时间窗口的引用数来决定影响力可能会造成仅少数论文就会对期刊的总体影响力影响巨大尤其是在那些多产且快速变化的研究领域,占了绝大多数引用。(例如,最近在干细胞生物学和基因编辑领域的爆发性增长)。 反思这一缺陷,《自然》杂志在其2005年的一篇社论中认为其当时的期刊影响因子 32.2的89%可归因于有关时段发表的25%论文的贡献。正如Garfield自己所观察到的,从1900到2005年的3800万篇文献中仅有0.5%的论文被引超过200次,有一半论文没有被引用,并且四分之一并非原创性研究论文。此外,基于细微差别(有时精确到小数点后三位)的影响因子对期刊进行排序,以增加标的外观精度和识别力。. 诚然,那种认为选择何种期刊发表论文不重要的想法也是不切实际的,那些激动人心的重要论文常常发表在影响因子高的期刊上。但这种事实并不意味着科学界认为影响因子很有用处,特别是将发表在高影响因子期刊上作为评价某篇论文质量的一个指标。例如,任职于任命/晋升/评估委员会的研究人员如何将申请人的研究论文归入特定的类别:属于低引用的大多数还是高被引的少数? 当提及如何判断研究工作本身的质量和重要性时,没有更好的质量评价替代指标。只好反复使用影响因子,但它既不是一个论文层面的指标,也不是一个比较研究者学术贡献的指标。然而,许多机构的绩效评估非常看重这一数字,目前其对学者的科学生涯进步有着巨大的影响。以至于一些大学的工作申请根本不考虑那些没有一篇作为第一作者的高影响因子期刊上论文的申请人。另外有的机构在给予tenure时考核申请人所发表论文的累积期刊影响因子是否达到一个阈值,如果达不到将会影响其职业进步。有的机构甚至提供巨额的奖励给那些在该影响因子期刊上所发的论文(传说有的按比例缩减!)。 诚然,科学界承担过多的责任,包括书写和评审项目申请和论文,教学,还要阅读成百上千的助理教授申请、tenure以及晋升。因此很容易的将高影响力工作等同于发表在高影响因子的期刊上。但并不是所有高影响力论文发表或能够发表在这种期刊上。需要记住的是什么因素决定一个特定工作最终对科学发展起作用是同等重要的。就PNAS来说,我们要求作者提交120字的工作重要性声明,来指出其在领域的影响力。其他机构和经费部门开始要求候选人陈述其重要论文的重要性,这些都将对评审有帮助。 作为论文重要性和业绩的仲裁者,科学家不能专门依赖于期刊的影响因子,可接受的指标应基于许多考虑,包括趋势分析和按学科领域分析。令人高兴的是科学界已注意到影响因子的负面影响,开始着手认真解决这一问题。“科研评价的旧金山宣言”-这份2012年美国细胞生物学会提出的一系列指南,瞄准研究人员、出版商、经费组织以及其他相关人员-提倡对科研产出的合理评价。在这次会议上,有关不合理使用影响因子的对话已引起科学界注意这一问题。2015年4月在华盛顿举办的152届美国科学院年会上,由 eLife主编Randy Schekman组织了一个研讨会,更加深了上面提到的忧虑。持续的努力能帮助阻止对期刊影响因子的滥用,并减少科学界对其过分依赖。对正在庆祝诞生100年的PNAS来说,我们始终关注的影响力,而不是影响因子。 2013年5月17日,《科学》杂志还以“影响因子曲解(Impact Factor Distortions)”为题发表了社论。《科学》社论同《科研评价的旧金山宣言(DORA)》的观点一致,这一宣言是一些有识科学家于2012年美国细胞生物学年会之际开会的产物。为扭转科研评价中的曲解,DORA认为科学界应停止使用“期刊影响因子”来评价科学家个人的工作。宣言认为“影响因子不能作为替代物用于评价个人研究论文的质量,也不能用于评估科学家的贡献,以及用于招聘、晋升和项目资助等评审”。DORA还提出了以系列改进科研论文评价方式的行动,供基金资助机构、科研机构、出版商、研究人员以及评价机构借鉴。这些建议得到超过150多位知名科学家和包括美国科学促进会(AAAS)(《科学》出版商)在内的75家科学机构签署支持。社论认为这样做的理由如下: 影响因子是基于某一期刊的论文平均被引次数而计算的数字,从未被规定为可用于评价科学家个人。它仅是一个评价期刊质量的指标。但它正日益被滥用于评价科学家个人,人们常常根据论文所发期刊的影响因子对科学家进行排名。基于这一原因,在许多简历中,科学家都要标注其每篇论文所发期刊的影响因子,并且一般会按照3位小数(例如,11.345)的降序排列。并且在一些国家,发表在影响因子低于5.0期刊上论文被官方认为是零价值。正如许多知名科学家多次指出,这种影响因子躁狂症没有意义。 影响因子的滥用具有巨大的破坏性,它鼓励期刊的指标赌博,(影响期刊出版政策),造成一些期刊不愿发表某些领域的重要论文(如社会科学和生态学) ,仅仅因为这些领域的引用较其他领域(如生物医学)要少。并且浪费科学家大量时间,他们不顾一切地为从评估人处获得高分,而滥投高被引期刊(如《科学》)。 但任何“对研究者的质量自动打分”方式的最具破坏性的结果可能是鼓励“跟踪模仿”(me-too science)。任何评价体系如果是研究人员论文数量增加就带来某种纯粹数字或分数的增长,一般会成为从事高风险和潜在开创性突破的工作的极大的负面激励。因为建立新实验和新方法一般需要多年的努力,而这期间将不会有论文发表。这一指标进一步会阻碍创新,因为它鼓励科学家工作在已经高度热门的领域,因为只有这些领域才会有大量科学家引用别人的工作,而不管工作是否杰出。造成仅有那些十分勇敢的年轻科学家才会冒险从事一些冷门研究领域,除非取消对个人的自动数字评估。 DORA的建议对维护科学健康发展十分关键。作为一个底线,科学家领导人必须承担仔细周到分析其他研究人员科学贡献的完全责任。为了做好这个,需要实际阅读每一研究者少量精选论文,而这一任务不能交由期刊编辑去完成。 这里列出《旧金山宣言》中的具体评价建议全文,以供参考: 总体建议 1.不使用影响因子等评价期刊的指标作为评价单篇研究论文质量的代替指标,也不用来评价某位科学家的贡献,也不用于决定是否聘用、提职或经费资助的指标。 对资助机构 2.明确用于评价资助申请人科研生产力的标准,明确强调一篇文章的科学内容比刊载该篇论文的期刊的计量指标和知名度更重要,特别是对起步阶段的研究人员。 3.科研评价的目的,除了发表的论文外,还应考虑其他所有研究产出的价值和影响(包括数据集和软件等),此外,还应考虑采用包括研究影响力的定量指标在内的更广泛的影响力测度指标,如测度其对政策和实践的影响等。 对研究机构 4.明确用于决定聘用、tenure和提职的标准,明确强调一篇文章的科学内容比刊载该篇论文的期刊的计量指标和知名度更重要,特别是对起步阶段的研究人员。 5.科研评价的目的,除了发表的论文外,还应考虑其他所有研究产出的价值和影响(包括数据集和软件等),此外,还应考虑采用包括研究影响力的定量指标在内的更广泛的影响力测度指标,如测度其对政策和实践的影响等。 对出版商 6.应大大减少强调期刊影响因子作为促销工具,最好不推销影响因子,或只给出一些基于期刊评价的指标(例如,5年影响因子、特征因子,SCImago,出版频次等,以便全面了解期刊的绩效。 7.提供一系列的论文层面的指标,鼓励转向到基于论文科学内容的评价,而非发表论文的期刊的出版指标。 8.鼓励负责任的作者署名,能提供每一作者特定贡献的信息。 9.无论期刊是开放获取还是订阅模式,应去除所有对论文参考文献列表的再利用限制,使其能按照“公共领域贡献知识共享”( the Creative Commons Public Domain Dedication)原则得以获取利用。 10.去除或减少对论文的参考文献数量的限制,合适情况下,应强制要求引用原创性论文而不是综述论文,以便让首次报道某一发现的作者(们)能得到认可。 对指标提供机构 11.使用来计算所有指标的数据和方法公开透明。 12.允许所提供的数能够不受限制地被再利用,并提供数据的计算步骤。 13.明确声明不能容忍对指标的不当操控行为;明确哪些属于不当操控,以及将采用的打击操控措施。 14.在使用、总计或比较指标时,应考虑文献类别(如综述 vs.研究论文)和不同学科领域的差异。 对研究人员 15. 当参加一个委员会来决策经费资助、聘用、tenure或晋升时,应基于论文的科学内容而非所发表的期刊指标来做出评价。 16.任何时候最适当论文引用方式应是引用首次报道观察结果的原创文献而非综述,让原创作者实至名归。 17.采用一系列论文计量指标和个人指标/支持声明,作为某人所发论文和其它科研产出影响力的证据。 18.挑战不恰当地依靠期刊影响因子进行科研评价的行为,提倡关注特定研究产出的价值和影响的最佳实践。 影响因子在中国流行也是有它存在的土壤和原因的。由于科研竞争的日益激烈,各种评价也日益增多,面对种种科研不端行为,人们需要找到一种相对客观而又简单并且人为因素干预最少的办法。毋庸讳言,从这个意义上来说,影响因子在科研评价中还是发挥了一定的作用。期刊影响因子虽然不能作为研究水平的绝对和唯一的评价指标,在不同学科之间也是无法比较的。但它在同一学科内作为一般性评价指标还是有价值和意义的,一般来说同一学科内影响因子高的刊物的论文发表要求相对较高,文章的总体质量和平均水平也是相对较高的。虽然影响因子并不能完全反映一个科研工作者的水平,但从统计学的意义上讲,同一领域内,发在高影响因子杂志上文章的水平还是要普遍高于低影响因子杂志上的文章。在同行评议还不能做到完全客观和全面时,影响因子总体上还是能反映一些问题的。因此,影响因子评价虽然是有违科研精神的,但目前阶段还是一种较为公平的评价,大家在同一个游戏规则下也是平等的。 然而,影响因子只代表研究热点,不能直接代表研究水平(哪怕是同一个领域的), 因此,影响因子只能作为某种参考,不能唯影响因子是论,更不能赋予其太多的利益和好处。因为,在一些传统学科的老牌刊物,因为其综合性强,加之学科本身并不是十分热门,因而其影响因子并不太高,而一些新的学科其所推出的新期刊反而期刊影响因子很高,他们所发表的论文水平是不能放在一起比较的,更何况在同一高水平期刊中的论文还有好坏之分,有的甚至还会撤稿。 值得注意的是,就在近期,汤森路透又推出了一些最新的期刊评价指标。包括期刊规范化引文影响力、期刊期望引文数等新指标。 期刊规范化的引文影响力(JNCI)与学科规范化的引文影响力类似(关于这一指标,将在后续的文章中介绍),其区别在于JNCI没有对研究领域进行规范化,却对文献发表在特定期刊上的被引次数进行了规范化。每篇出版物的JNCI为该出版物的实际被引频次与该发表期刊同出版年、同文献类型论文的平均被引频次的比值。一组出版物的JNCI值为每篇出版物JNCI值的平均值。JNCI指标能够提供某单一出版物(或某组出版物)与其他科研工作者发表在同一期刊(或同一组期刊)上成果的比较信息。这个指标能够回答,诸如“我的论文在所发表期刊上表现如何?”之类的问题。如果JNCI的值超过1,说明该科研主体影响力高于平均值,如果JNCI的值低于1,说明其影响力低于平均值。JNCI对于出版社评价论文发表后的影响力水平亦是十分有用的指标,它揭示出那些超过平均水平并提高了期刊被引频次的研究工作。 表:作者层面的CNCI与JNCI指标示例
0 u5 S. D6 u4 q; Q6 l7 u0 j | 总出版物数 | 总引文数 | 引文影响力 | h指数 | CNCI | JNCI | 科研工作者D | 66 | 290 | 4.39 | 9 | 1.32 | 1.86 | 科研工作者E | 62 | 289 | 4.66 | 9 | 0.45 | 0.72 | : L. s: g% N$ W- A* w# E
表格列举了一个在作者层面应用CNCI和JNCI的例子。科研工作者D和科研工作者E的出版物数量与引文数均十分接近。他们的引文影响力也十分接近,h指数也是相同的。如果只从上表中的前四个指标,则不能区分两个科研工作者的科研绩效。实际上,两位科研工作者可能在两个不同的科研领域进行研究,其论文发表的历史也可能完全不同(老论文与新论文)。使用CNCI和JNCI指标,能够让我们更好的了解两位科研工作者与同领域、同文献类型、同出版年的同行的对比情况。从规范化的指标中,我们可以很快发现科研工作者D的CNCI(1.32)与JNCI(1.86)的值都超过了平均值(大于1)。发现科研工作者E的CNCI(0.45)与JNCI(0.72)的值均低于平均值(小于1)。应该注意到JNCI是一个相对的科研绩效评估指标。尽管在很多情况下,CNCI与JNCI可能正相关,但这并不是对所有情况都成立。例如,如果一个科研工作者的CNCI指标高于平均值,JNCI指标低于平均值,这可能意味着该科研工作者在其论文发表的科研领域获得了比平均水平更多的引用,但是这位科研工作者发表的期刊具有非常高的被引频次(例如《科学》或《自然》),因此他/她的论文被引频次低于这本期刊上论文的平均被引频次。 期刊期望引文数(Journal Expected citations)是同一期刊、同出版年、同文献类型的论文的平均引文数。可以通过计算实际/期望引用值的比值,也就是用一篇论文的实际引文数除以该期刊论文的平均引文数,来评估论文的表现。如果该比值大于1,说明论文的引文数高于平均值。例如,2004年,Circulation期刊的篇论文平均引文数为55.34,则期刊期望引文数即为55.34。如果某一2004年发表于Circulation期刊上的论文有30篇引文,则其实际引文数与期望引文数的比值为0.54,说明该论文表现低于平均值。事实上,在很多分析中,期刊实际/期望引文数的比值是一个累积的比值,也就是说,分母(期望引文数)是一组论文集发表的所有期刊期望被引频次的总和,而分子(实际引文数)则为该组论文集引文数的总和。 【补充之一】 无独有偶,就在今天(7月9日)本文发出后,《自然》杂志也以“数字游戏”为题提出科研机构必须对学术界使用的计量指标保持平常心。文章说,科学家喜欢抱怨同行评议系统用来判断研究质量,但常常也会反对用学术产出的计量指标来替代同行评议。本周英国出版的一份有关利用这类计量指标的报告认为,计量指标虽然并未达到能取代同行评议,来判断研究论文、项目申请书的质量以及研究人员的个人水平,但这一指标的诱惑力日益增加。在英国,许多高校开发各种系统来记录其学术人员的科研产出,收集其详细的经费数据和各种类型的产出 ,包括专利,论文,引用以及科研项目等,并将其同竞争大学进行比较以分析机构的优势。有的已经建设了其自有的内部科研信息系统,也有的依赖经费资助机构收集的研究人员产出的在线数据库。有的是公布信息的非营利系统,也有的是文献计量引用的商业系统。还有许多的商业对标服务也能够分析这类信息。这类分析服务正日益高端化。他们采用各种特色方式来分组引用指标,涵盖了个人、系、机构或期刊等的论文集,并同类似组别进行对标分析。因此,科学家不应对这一状况视而不见,要承认现实,积极参与了解和改进这些指标。 来源:科学网博客
4 m9 R# s/ M0 o, u9 y' l2 n" x W- V |