h-index越来越不可靠，但它的替代品也没好到哪里去

作为一种评价学术成就的度量标准，h-index的可靠度正在下滑。自2005年以来，人们提出了50多种代替h-index的方法，但没有任何实际意义。

图片来源：Search Engine People Blog, CC BY 2.0

科技巨头英特尔（Intel）公司的数据科学家所进行的一项新研究表明，h-index不再是评估科学家影响力的有效方法。

h-index是一种用于衡量一名学者出版成果和学术成就的方式，由美国物理学家Jorge Hirsch于2005年创建。当一名科学家的h-index 为30时，这意味着他发表了30篇每篇被引用次数超过30次的论文。

由于相对简易，h-index已成为一种被广泛使用的工具，用来量化科学家们在各自领域的影响力。但它的使用一直广受争议。德国马克斯-普朗克学会（Max Planck Society）的学术评估专家Lutz Bornmann称：“自推出以来，h-index一直受到专业的文献计量学者的强烈批判。”

批评者指出，h-index对于那些正处于职业生涯早期的科学家们而言并不公平——与前辈们相比，这群新人并没有足够多的时间去发表论文，建立引用。此外，该度量标准也未能考虑到各个学术领域中的不同发表率，甚至还有可能鼓励不良发表行为，如论文的过度自引或将贡献不大的作者也纳入合著者名单中。h-index还完全忽略了学术生涯中除了发表论文以外的其他重要部分，例如领导角色、教学指导或社会服务。但Bornmann指出：“即便如此，h-index在文献计量学的专业圈子外，依旧成为了一种备受青睐的指标。”

审视h-index

尽管存在上述种种问题，h指数仍然在主流的学术数据库中占重要地位，在某些情况下，它还会影响有关招聘和资助的重要决定，改变研究人员的职业生涯。英特尔智能系统实验室的首席科学家Vladlen Koltun对此解释说，他和同事们在浏览不同领域研究人员的h-index时，发现了一些矛盾之处。

Koltun表示：“当我们开始研究h-index时，我们对此提出质疑——它是否真的是我们能达到的最佳度量标准？因为现状是，无论人们对它的喜恶如何，h-index都在被广泛使用。自始至终，h-index一直被用于教育目的，但目前更为重要的一点是，它正被各种委员会拿来评估科学家的获奖或晋升资质等等。”

Koltun和同事David Hafner使用计算工具分析了来自四个不同科学领域的数百万篇文章的引文数据。Koltun介绍说：“我们收集了那些带有时间标注的数据，这样我们就可以追踪到研究人员的h-index随时间的变化情况，比如，我们能够算出研究人员在2010年、2019年和1998年的h-index分别是多少。此外，这个实验是以纳入数千名学者的规模进行的。”

Koltu和Hafner将这些数据与各种科学奖项的获奖者名单以及国家科学院的入选者名单进行了交叉比对，Koltun认为，被列入上述名单之中是这些科学家们在其所在学术圈子中享有声誉的证明。

Koltun解释道：“这么做，我们就可以实时检验学者的h-index与其当前声誉之间的相关性。但对我来说，更为有趣的一个问题是，h-index是否能够预测该学者未来的声誉呢？毕竟这才是它的实际用途。这些度量标准最重要的作用是帮助他人做出决定，比如身为雇主，我应该雇佣谁？”

不再“受宠”

根据Koltun的分析，当h-index刚出现时，它是个可以用来预测谁或许能在未来赢得奖项的一种相当好的指标。但随着时间的推移，这种“预测能力”开始减弱。Koltun说：“例如，在物理学领域中，学者们以h-index为参考的排名与他们以学术界的奖励和认可度为参考的排名，这两者之间目前的相关性是零，不存在任何关联。”

Koltun解释说，导致这种情况的原因之一是大型科学合作的数量不断增加。他指出，如今有一种日益增长的现象叫做“超级署名”（hyper-authorship），即全球研究共同体下的数千名学者共同撰写论文，这种模式能够使学者们快速获得极高的h-index。

Koltun补充道：“我们的数据还表明，‘超级署名’只是作者模式和出版模式发生更广泛转变的一种极端表现。一般来说，人们发表的论文会越来越多，与他人合写的论文会越来越多，作者名单也会越来越长。如果不考虑这一点，度量标准和h-index只会面临越来越水的结局。”

图片来源：Pixabay

为了解决这个问题，Koltun和Hafner提出了一种新的度量标准——h-frac，它会根据一篇论文的合著者数量，按照一定比例为每位作者分配被引次数。“h-frac比h-index更加可靠，即使回到2005年h指数刚出现的时候，h-frac 也更胜一筹。由于h-index的可靠性急剧下降，两者之间的差距已经显著增大。”

虽然，h-index和h-frac都在试图确定哪些研究人员在其一生中对所在领域做出了最大的累积贡献，但英特尔团队还很想知道，是否可以通过类似的方法，了解哪些团队正在进行最具创新性的工作，哪些团队一直在取得突破性的成果。在他们最新的一项研究中，Koltun和Hafner提出了另一个度量标准来解决这个问题，该度量标准被称之为“Cap”，它能够（平衡研究论文的数量和质量，）评估研究人员的工作相对于他们的发表量而言有多大的影响力。相关研究还未进行同行评审，目前以预印本形式发布。

不过，Bornmann不相信任何新的变量会成为（可替代h-index的）重要指标，自2005年以来，人们提出了50多种代替h-index的方法，但没有任何实际意义。据Bornmann介绍，Web of Science数据库最近采用了作者影响力射束图（beamplots），这是Bornmann的团队帮助该平台开发的一种数据可视化工具，用以展示研究人员的论文发表历史。负责管理维护Web of Science平台的科睿唯安表示，希望这类工具能够“让我们避开向着单一维度弱化的弯路，并迫使我们思考为什么引文（的作用）现在会走到如此境地”。

Koltun和Hafner承认目前有声音要求放弃这种简单的、基于引用的度量标准，他们一致认为，较理想的评定方案应该包括对研究人员工作的深入评估。但以h-index为代表的、基于论文被引数的评价方法仍被广泛承认，和过去没什么两样。对此他们辩称，只有推出更好的衡量标准才行。Koltun和Hafner希望，他们提出的Cap能够为科学学提供相关信息，并对研究、出版和学术成就给予进一步定量分析的支持。

原文链接：

https://www.chemistryworld.com/news/reliability-of-researcher-metric-the-h-index-is-in-decline/4014025.article

作者：Jamie Durrani

文章来源：Royal Society of Chemistry