如何更好地公开质疑AI论文?
时间:2023-11-16 00:36:01 | 来源:网站运营
时间:2023-11-16 00:36:01 来源:网站运营
如何更好地公开质疑AI论文?:我个人非常欣赏并支持 @信息门下跑狗 和其专栏 AI 论文在线质疑 的建立和传播。尤其现在 CV,ML 会议文章和参会人数在指数级增长的情况下,有这样的类似的平台可以讨论文章,纠错和质疑,这对社区和研究者本身都有很大的帮助。
我这里提出自己的一些拙见,希望对于这个社区正规化,标准化起到一定的帮助。
一。什么文章可以被质疑
在些许个月前,专栏有讨论过一篇 arxiv 文章对于实验上的错误,我觉得这是并不合适的。对于质疑文章的条件,我建议必须要求是已录取的会议或者杂志文章。这样的条件与大部分顶会对于 arxiv 文章的看法也是一致的,通常大家认为 arxiv 文章并未通过同行评审,所以在投稿的时候无需引用,或者比较他们的实验结果。如果有任何 reviewer 硬要求作者去比较,则作者可以直接引用会议里对 arxiv 文章的建议作为反驳。而同样的,我认为论文在线质疑也应该针对已录取文章,来帮助社区挖掘已经被同行评审通过,但被忽略的错误文章和作弊文章。
二。什么情况下可以发表公开质疑
无论文章结果多么荒谬或者文章中的错误多么明显,质疑者本身应该先私下里先联系作者提出自己的质疑,并等待作者的回复。如果问题较为严重,可以同时 cc 多个文章作者,特别是通讯作者即学术导师,来强调问题的严重性。如果最后发现是作者自己疏忽,主动认错或者撤稿,则无需再发表在公共质疑平台,如果最后作者无视,或者故意忽视任何对于其质疑文章的讨论,则可认为需要在在公共平台里质疑来引起其他研究者的注意来避免踩坑。
三。文章错误和作弊标准
AI 作为一门实验科学,无法精准复现是非常常见和普遍的。我简单的把文章错误归类为以下三类,方便参考一篇文章错误的严重度。在此之前,我想说明且强调无论文章结果多么离谱或者错误多么明显,最好质疑者以
无罪推断作为核心,即认为被质疑文章的作者本身不是主观造假。由于任何负面的消息,尤其是学术作弊对于一个科研工作者来说是绝对致命的,所以质疑者本身一定一定要小心谨慎。
- 极其严重:极其严重的学术错误通常是有绝对实锤的主观造假。在 AI 领域比较常见主观造假是:实验结果是 p 图,恶意编造虚拟数据,恶意拟合收敛或者损失函数曲线,等非常明显的主观造假。对于这种类型文章,只有撤稿一个选项可以参考。有极其严重学术错误的文章通常相当罕见。
- 严重:严重的学术错误包含实验设计(通常代码层面上)的错误,公式推倒错误。这些错误即使严重但可能包含大量非主观的因素。尤其是 AI 新手在跑实验可能出现的几个问题:在测试数据集上训练并进行梯度更新,训练与测试数据集的比例错误,训练数据集 pre-processing 的显著不同等。还有一个方向可能出现于文章里的公式推导错误,比如数学公式,收敛性,优化问题推导的数学错误。对于这些严重错误的文章,通常实验结果则完全不可比较。如果错误比较致命,则作者需要主动撤稿。如果错误不是很致命,作者最好重新跑实验在公开平台上发表更新结果。
- 普通:普通的学术错误包含不公平的实验比较,错误的因果结论,或者特定代码框架下的 feature。比较常见的是,cherry pick 好看的图片,magic number 漫天飞,grid search random seed 等。这样的学术错误在 AI 方向里相当常见,可能至少占有总文章量的四分之一。对于这些文章,虽然可能对研究社区还是会有一定的帮助,但是同时对于其他小实验室里的同行来说非常不公平,尤其在刷 benchmark 上。这样错误的因果结论也会带偏对一些领域的理解:比如明明 trick A 提升的结果最后归咎于是 idea B 的功劳。
四。如何正确的质疑论文
在 section 2 里,我们已经强调了先联系作者绝对是第一选择的重要性。如果最后无法避免的进入公开质疑论文的情况,希望质疑者能尽可能的做到以下几个条件。
1. 态度客观,语气平缓,不要使用讽刺,刻薄的言语来把质疑作者踩在脚下。
2. 所有质疑针对且仅针对实验的第一负责人即作者本身,跟通讯作者,二作等等无关。
3. 质疑问题讨论文章和实验本身,不要牵扯到无关的同学,同作者之前发表的文章,实验室风气,导师人品,学校等其他背景。
4. 最后再次提醒,质疑任何严重或者极其严重的问题前请确保自己有绝对的实锤。且一定以无罪推定作为核心目标。
希望 AI 在线质疑的目标是有效的提供一个文章讨论的环境,鼓励扶持新手,修正学术错误,而不是把一个作者推入深渊和网暴。
五。如果做更有重复性的科研
自我硕士开始认真研究 AI 以来,我就坚定了任何以自己为第一作者出手的文章都尽可能具备可重复性。这里我简单得从我自己的角度,讨论一下什么是优秀的可重复性科研。
- 如果条件允许的情况下,我建议大家在 Appendix 里加入一个称之为 Negative results 的 section。在我看到 BigGAN 的 Appendix H 后,我在后续发表的文章里都加入这个 section 来帮助其他同行或者对文章感兴趣的读者避免踩坑。一个详尽的 negative results 可以有效且显著帮助很多人省下大量的调参实验。类似的文章比如 YoLoV3 也提供了大量的调参经验。
- Everything should be made as simple as possible, but no simpler. 对于自己在着手研究的 idea,尽可能采用与之前文章一致的通用参数。比如 classification task 通常采用 0.1 learning rate 0.9 momentum 的 SGD optimiser。而实验本身也尽可能搭建在大家最常用的网络上,比如 VGG-16, ResNet-50 等任何研究者都有一些经验的网络。如果结果是 cherry-picked,则在文章里写明。如果结果需要需要一些 tricks,也请在文章里提及。在文章实验的表述里尽可能保持客观和真实,而不要刻意隐瞒一些隐藏技巧。
- Log everything。为了避免最后开源的整理后的代码和文章里的提供的结果对不上 [我之前也犯过类似的问题],尽可能记录所有实验代码和参数。在条件允许的情况下,开启任何一个新项目的代码就以高可读性,可公开的前提来改进。好的代码习惯可以显著减少不必要的重复实验,也方便其他合作者或者之后的 follow-up 来提供更有效的帮助。
以上。