喜欢看 arxiv 上论文的朋友推荐使用 alphaxiv 这个网站看论文,官方出品,集成了 AI 功能还免费
喜欢看 arxiv 上论文的朋友推荐使用 https://www.alphaxiv.org/ 这个网站看论文,官方 arxiv labs 出品,集成了 AI 功能,你不仅可以基于某篇论文进行问答,还可以通过 @ 引用其他论文的章节,有些类似于 AI 代码编辑器 Cursor 中 @ 引用其他代码文件或里面的方法。
另外在它上面还可以对论文点赞,点赞多的会进入排行榜,通过排行榜,就不担心错过热门优质论文。
![](/uploads/2025-02-07-1738899765728-10af9890-c57f-4a68-a59e-e104c348d506.png)
在对论文问答时,你可以选择 Gemini 2 或者 Claude 3.5 模型,目前应该是免费的。
![](/uploads/2025-02-07-1738899777408-9b26d711-da93-4084-a8f3-81e4e8a9e7a1.png)
它有个论坛,可以就某个话题讨论,也可以针对论文评论,最初只允许拥有验证过的高校邮箱或电话号码的用户发表评论,现在任何人都可以注册账号并发表评论,但也可以选择公开关联自己的机构或学术身份(如 ORCID)。
![](/uploads/2025-02-07-1738899813656-9bd1c604-9df0-40d2-97a8-e46f6b7ec071.png)
![](/uploads/2025-02-07-1738899820790-cdbf9f40-74ba-4063-97b8-b6bdc7d673b6.png)
很多细节在他们官方博客上有介绍,翻译如下:
一年来对 arXiv 论文的评论:alphaXiv 的早期经验
Rehaan Ahmad • 2025 年 1 月 14 日
自从 arXiv 出现以来,研究人员就一直在讨论是否要增设一个用于公开讨论和评论论文的空间 [1]。这种设想的吸引力显而易见:如果能够有一个中心化的场所,让读者在第一时间提出问题、纠正错误,并讨论刚刚出现的新研究,对于学术界而言无疑是非常有价值的。
不过,这个愿景在学术界也引发了持续的疑问:评论区能否带来更加深入的新研究探讨,抑或会沦为低效的批评?相对随意的讨论能否帮助研究人员及早发现论文中的错误,或者会导致对潜在重要成果的过早否定?这样一个评论系统又该如何与已经存在数十年、尽管有瑕疵但仍在发挥作用的同行评审机制共存?
目前,有一些部分解决方案出现。像 Pre-Review、Plaudit 以及 PubPeer 等专门平台在学术交流,尤其在学术诚信方面起到了重要作用,但大多数学术讨论仍然习惯性地转移到 Twitter 等传统社交媒体上,往往淹没在各种庞杂的社交信息之中。学术界确实有呼声,希望能出现一个既独立于社交媒体,又与正式同行评审渠道区分开的研究讨论空间。
arXiv 评论应该介于社交媒体与正式同行评审之间的哪个位置?怎样的评论才真正对研究社区有价值?alphaXiv 起初正是想通过实验来思考并探索这些问题。
alphaXiv 最初是斯坦福大学 Web Programming Fundamentals 课程的期末项目,后来在校园里的一些课程和实验室内被当作内部评论工具进行试用。到 2023 年 12 月,我们决定面向公众开放。虽然时间还短,但在这篇文章中,我们希望回顾网站公开运营一年以来的情况,重点比较大家对 alphaXiv 的实际使用情况与我们最初对于这类学术评论平台能带来怎样影响的预测和假设。
alphaXiv 上的评论概况
在具体分析评论数据之前,我想先谈谈我们在设计网站时基于初始假设所做的一些决定。我们回顾了当下已有的学术评论平台,如 PubPeer、OpenReview、ResearchHub 等,发现它们大多缺少一个关键功能:能够“直接在论文的具体位置”留下评论。在我们个人阅读数十页论文的过程中,经常发现问题往往只与某一特定段落或章节相关。我们认为,如果评论能与论文中相应的部分直接关联,讨论就更能聚焦于论文本身的细节,而不是像社交媒体上的一些讨论那样以博眼球的宽泛言论为主 [2]。
那么,这种想法在 alphaXiv 上的实际运行效果究竟如何?alphaXiv 公开放出以来,累计已有超过 5000 条评论,主要集中在计算机科学和物理学领域。
![各学科类别评论分布](/uploads/2025-02-07-category-distribution.png)
为了更好地了解这些评论的内容,我们使用了 Claude-3.5-Sonnet 对评论进行分类,归纳成以下几类:
technical-clarification:寻求理解论文中具体技术细节或流程的提问。
conceptual-discussion:围绕论文的理论背景、潜在影响或者抽象概念展开的探讨。
error-report:指出论文中存在的错误、排版问题或不一致之处。
research-extension:对未来研究方向或扩展思路的建议或询问。
methodology-question:针对研究中某些方法或设计选择提出的问题。
literature-connection:将该论文与已有研究联系起来,或者推荐相关文献。
praise:对论文亮点或贡献的肯定性评价。
substantive-critique:基于证据、针对论文方法、结果或结论的深入质疑。
academic-dispute:涉及学术归属、优先权或学术诚信等方面的争议。
![评论类型分布](/uploads/2025-02-07-comment-type.png)
从图中可以看出,“technical-clarification” 和 “research-extension” 两大类加起来就占了评论总数的一半以上。
![“technical-clarification”示例](/uploads/2025-02-07-technical-clarification.png)
“technical-clarification”类型评论互动示例
其他常见分类如 “conceptual-discussion” 以及 “methodology-question” 也表明相当多的评论属于“构建理解”(sensemaking)的范畴。所谓 sensemaking,指人们尝试将新信息与已有知识体系相互联系,通过提问、举例和思考各种影响来建构对信息的完整认识 [3]。此类评论一般篇幅不长,语气也相对平和。我们对评论做了情感/主观程度(从 1 到 5)的分析,结果也支持这一点。
![评论情感/主观程度分析](/uploads/2025-02-07-sentiment-analysis.png)
虽然 “sensemaking” 似乎是一个比较宽泛的概念,但它并未包括学术纠纷、对论文的称赞,或对论文进行深入评价等类型——这些都在我们的分析中出现得相对较少。评论普遍较为客观,可能与 alphaXiv 并不支持匿名机制有关。和 PubPeer 等平台相比,alphaXiv 上虽然也会有人提出批评意见,但相对并不那么激烈。PubPeer 当初的主要定位是揭露学术不端,因此匿名在该平台非常重要——在 PubPeer 上,超过 85.6% 的评论是匿名的,评论者显然担心自己会被报复。需要强调的是,alphaXiv 上评论的“客观”特征并没有绝对的好坏之分。像 PubPeer 这样鼓励强烈批评或质疑的氛围,也为学术质检做出了巨大贡献。但客观事实是,alphaXiv 反而形成了一片相对安静且高效的评论空间,这些内容通常在其他平台并不常见。
![情感评分为 1(左)和 5(右)的对话示例](/uploads/2025-02-07-low-emotion.png)
![同上](/uploads/2025-02-07-high-emotion.png)
左图是情感评分为 1 的对话示例,右图是情感评分为 5 的示例
另一个值得注意的现象是:针对初学者层面的提问非常少。这背后的原因有两个:第一,由于没有匿名选项,初学研究者可能并不希望公开留下自己“菜鸟”时的问题;第二,随着大模型等工具的普及,很多初级问题可以通过它们快速得到解答。
如果我们允许匿名发言,可能会鼓励更多初学者问题出现,但同时也会带来新的管理难题。就目前而言,要求用户对自己发表的评论公开负责,可以让社区的整体调性更容易维持。我们在后文讨论“审核机制”时会更深入地阐述这一点。
那么,用户究竟为什么会在这样一个公开的场合发表评论呢?根据我们在事后对评论者的一些调研,最常见的动机是“希望把自己的观点公开记录下来”,即把 alphaXiv 当作某种“公共记账本”。很多情况下,用户也可以直接私信论文作者,但他们还是倾向于把问题或想法公开,以便其他读者也能受益。
alphaXiv 是同行评审吗?
alphaXiv 刚推出时,物理学和生物学领域的许多用户都热切希望它能成为对抗传统期刊审稿流程(包括掠夺性审稿)的某种解决方案。确实,alphaXiv 上有过一些类似“正式评审”的评论。有些作者在收到详尽的意见后会更新论文,纳入新反馈。比较典型的例子有 “The Unbearable Slowness of Being” 和 “Generalizable, Fast, and Accurate DeepQSPR with fastprop”。
“The Unbearable Slowness of Being” 是加州理工学院(CalTech)的 Jieyu Zhang 和 Markus Meister 的一篇神经生物学预印本。Jieyu 在 arXiv 上发布论文后,鼓励同行在 alphaXiv 上给出反馈,并表示这是一次透明化评审的尝试。结果,这篇论文收到了相当多的深入评论,形式上非常接近传统审稿,有的评论链甚至回合多达十几条。
另一个例子是 MIT 博士生 Jackson Burns 的 FastProp(cheminformatics 领域)。和 Jieyu 类似,他在论文发布后就积极邀请大家在 alphaXiv 页面留言,最初有评论对论文的一些基础要点提出了质疑,比如测试数据集的质量和统计方法是否合理。作者随后更新了论文的第二版来回应这些质疑,接着又有新的评论,再次对论文细节提出了挑战,作者又进行了一次更新。
从 alphaXiv 的角度来看,这些带有“同行评审”特征的案例并不如一般的“探索理解”型评论那样普遍,但它确实预示着一种新的论文形态:论文不再是被期刊要么接收、要么拒绝的静态产物,而更像是一个可以根据社区反馈动态进化的“活文档”。
![在 alphaXiv 上进行多次修订的示例(FastProp)](/uploads/2025-02-07-fastprop.png)
“评审”在 alphaXiv 上的权力关系也与传统期刊有显著差异。在传统的同行评审中,作者需要说服审稿人给出“通过”的评价;而在 alphaXiv 这种“无强制”环境下,作者和评论者的对话更多的是平等且坦率的,甚至可能出现较为激烈的观点碰撞:alphaxiv.org/abs/2411.14425v1。
![一条“既紧张又尊重”的批评示例](/uploads/2025-02-07-respectful-critique.png)
那么 alphaXiv 是不是一个用来取代同行评审的工具?就目前来看,还远不够。虽然有 FastProp 这样的案例,但想要“替代同行评审”还需要回答许多问题。例如,现在 alphaXiv 的评论并不是双盲(甚至连单盲都算不上)。即使能够在流程层面做一些调整,想打造一个能替代传统同行评审的体系,所需的投入也远大于只做一个面向“探索理解”型评论的论坛。
审核机制
对于一个像 alphaXiv 这样专注学术的评论平台来说,“审核”可以说是把双刃剑。正如 arXiv 科学总监 Steinn Sigurdsson 所言,alphaXiv 最糟糕的失败方式可能是“灾难式成功”——即平台声名鹊起,但因评论质量参差不齐而需要极高的人力来审核,大量无意义讨论也会淹没真正有价值的学术交流。这方面的担忧并非 alphaXiv 独有:PubPeer 的创始人 Brandon Stell、Richard Smith 和 George Smith,甚至在平台运营的最初三年都保持匿名,就怕在审核上出现失控局面带来的麻烦 [4]。
基于此,我们最初尝试过只允许拥有验证过的高校邮箱或电话号码的用户发表评论,但很快发现这会把大量潜在的有价值评论也挡在门外。
最终,我们定下了一个折衷方案:任何人都可以注册账号并发表评论,但也可以选择公开关联自己的机构或学术身份(如 ORCID)。截至目前,我们拥有约 12,000 个注册账号,在这些账号中,有的绑定了 Google Scholar,有的绑定了 ORCID,有的使用高校邮箱认证,分布如下图所示。
![用户验证方式分布](/uploads/2025-02-07-user-breakdown.png)
很明显,如果我们只限制有学术背景(如高校/研究所)的用户才能发言,就会大幅削减潜在的参与者数量。这里也顺带提一下,既然有 12,000 个账号而只有 5,000 条评论,那么其他用户都在干什么?不少人将 alphaXiv 当作“arXiv 论文的 Goodreads”,用于论文推荐和发现。但这篇文章重点是评论功能,就暂不展开了。
在用户注册环节进行的身份审核只是“风控”的第一步,而真正的评论审核是另一个层面。最基础的是,我们用常规的大模型过滤垃圾或辱骂性内容,让这类评论无法发布。除此之外,我们采用了社区自我管理的模式:用户可以对评论进行投票,如果遇到更加严重的情况,可以“举报”到管理员这里。
在过去的一年里,5000 条评论中只有 22 条收到了负分投票,我们仅仅删除了 11 条评论,而大模型自动屏蔽了 40 条。从这些数据看来,评论中出现的极端行为其实非常少。原因大概有两个:一是用户必须实名或至少以某种公开身份发言;二是平台上的主流氛围本身就偏向理性客观。
而对于删帖的决定,我们也有一个简单的底线——“用户需发表内容充实、并对他人保持基本尊重”。有争议的是情绪激烈的学术争端。在这种情况下,由于留言者愿意实名,我们的干预策略一般相对宽松:在 Reddit 的做法启发下,如果评论被其他用户总计投票低于 -3,就会被折叠隐藏,但依然可以选择点开查看。
以一家中国核聚变企业 ENN 的案例为例。该公司首席科学家在 alphaXiv 上发布了关于核聚变路线图的论文,引发了中国等地等离子体物理研究者的批评和争议。alphaXiv 并不会主动评判谁是谁非,只要评论不过分人身攻击或失礼,就允许争议内容存在。什么算“明显不尊重”?随着用户数增长到 10 万甚至更多,这个定义必须更加精细化。但就目前的规模而言,我们还是能清晰地分辨哪些评论超出了合理范围。
![一则非常激烈但仍在可接受范围内的讨论示例](/uploads/2025-02-07-enn-paper.png)
病毒式传播
alphaXiv 的另一个显著特点是其在不同学术社区中的“病毒式”传播,有时好事也伴随着误解。虽然已经有人尝试过类似的学术评论功能,但 “可以直接在论文内容上评论” 这一点似乎格外引人注目。过去一年间,alphaXiv 在不同学科圈子里都引发了一定讨论,让人有趣的是,不同的学术背景对它有着迥异的理解方式。
这种差异在传播途径上就能看出:在物理学界,Andrew Akbashev 曾在 LinkedIn 上转发 alphaXiv,称它是“终于有了!公开的学术同行评审平台!”
![物理学界社交平台上的传播](/uploads/2025-02-07-physics-reception.png)
而在计算机科学圈,推特上匿名账号 “Hamptonism” 则把它称作“研究版的 X”,虽然这种说法并不是我们官方希望的定位。
![计算机圈对 alphaXiv 的传播](/uploads/2025-02-07-cs-reception.png)
同一个平台被形容为“同行评审平台”或“学术版 X”,可谓南辕北辙。这也导致了一些社交媒体上的误解,让“真正的”学术群体对 alphaXiv 产生了各种不同看法。比如在 r/ML(Reddit)上,很多人对 alphaXiv 能补充或改进学术交流表示好奇和支持;而在 r/math 社区,最常见的担忧则是它会变成“充满恶意信息的地方”。
![数学圈对 alphaXiv 的质疑](/uploads/2025-02-07-math-reception.png)
整体而言,alphaXiv 得到的关注度远远超出了我们最初的预期。也许这里存在一个悖论:我们在社交媒体上走红,正是因为有大量学术群体目前仍然聚集在一些“快节奏、注重流量”的平台上。然而,这些平台往往并不适合展开真正严肃的学术讨论。
![我们希望避免的“炒作式”评论](/uploads/2025-02-07-quantum-hype-comments.png)
上图所示的是我们在 alphaXiv 上努力避免出现的“过度炒作”评论
尽管通过社交媒体的热度,我们确实吸引了数千名学者来到 alphaXiv,但对我们而言,更重要的是这些来到平台的讨论依旧保持了高水准。
接下来的方向
回顾这一年来的公开运营,alphaXiv 在学术评论领域确实找到了自己独特的定位。它并没有取代传统同行评审机制——当然这也不是我们最初的目标。但它提供了一个介于正式评审与社交媒体之间的“结构化学术讨论空间”,让人看到了一种不一样的可能性。
从平台的实际数据来看,那些主导性的“探索理解”型评论证明了这种“专注于论文本身”模式的需求。我们也看到像 FastProp 和 “The Unbearable Slowness of Being” 这样鲜活的案例,展现了 alphaXiv 如何通过公开透明的社区反馈,让论文得以迭代更新。
展望未来,我们认为 alphaXiv 需要从一个“通用学术讨论”平台进一步发展,深入理解并满足不同研究社群的专门需求。对于量子计算研究者来说,他们希望能快速找到最新量子算法的讨论;对于等离子体物理学者而言,他们希望追踪关于新聚变结果的辩论。建立这些更垂直、更有针对性的“学术子社区”,让研究者在更细分的领域进行讨论,是我们下一阶段的重要目标。
参考文献
[1] https://info.arxiv.org/about/reports/2016_UserSurveyReport.pdf
[2] https://x.com/kevxalchemy/status/1866486491335270589
[3] https://boxsand.physics.oregonstate.edu/sensemaking
[4] https://www.nature.com/articles/nature.2015.18261
在此也特别感谢 Jay Patel 对本文的思路构建与修改提出了非常有价值的建议!