苹果维修点

您现在的位置是:首页 > 技术前瞻 > 人工智能

人工智能

AI 竞赛没有意义,模型实际不可用,冠军全凭运气?

AI
2019-09-24 15:18:22 人工智能
  近日,一个大型的新的 CT 脑数据集被发布,其目的是训练模型来检测颅内出血。由此,Luke Oakden-Rayner 写了一篇名为《AI competitions don’t produce useful models》

  近日,一个大型的新的 CT 脑数据集被发布,其目的是训练模型来检测颅内出血。由此,Luke Oakden-Rayner 写了一篇名为《AI competitions don’t produce useful models》的博文,这篇文章在社交媒体上引发了激烈讨论。

  到目前为止,这个比赛的数据集看起来还不错,尽管我还没有详细研究(魔鬼经常出现在细节中)。

  该数据集是为一场竞赛而发布的,和往常一样,它在 Twitter 上掀起了一股友好的竞争风气:

  当然,这也引起了很多人的质疑。有人认为,比赛就像掷硬币,全看运气。只要有些人的模型和其他人相比更符合数据集,就可以获得高分。

AI 竞赛没有意义,模型实际不可用,冠军全凭运气?

  有人认为「既然有一个不变的测试集,你怎么能过度适合?」,也有人认为「所提出的解决方案决并不打算直接应用」。

  随着讨论的进行,我意识到,虽然我们「都知道」竞争结果在临床意义上有点可疑,但我从来没有真正看到一个令人信服的解释——为什么会这样。

  我希望通过这篇文章告诉你,为什么比赛并不能构建真正意义上有用的人工智能系统。

  让我给你介绍一下 Epidemiology 101,他声称自己有一枚神奇的硬币。

  Epi101 告诉你掷硬币 10 次。如果你得到 8 个或更多的人头,这就证实了硬币是魔法(虽然这个断言显然是胡说八道,但你还会跟着玩,因为你知道 8/10 人头等于一个公平硬币的 p 值<0.05,所以它一定是合法的)。

  在你不知道的情况下,Epi101 对另外 99 个人做了同样的事情,所有人都认为他们是唯一一个测试硬币的人。你认为接下来会发生什么?

AI 竞赛没有意义,模型实际不可用,冠军全凭运气?

  如果硬币是完全正常的,而不是魔法,大约 5 个人会发现硬币是特别的。这看起来似乎很明显,但要从个人的角度来考虑——这 5 个人都只做了一次测试。根据他们的说法,他们有统计上显著的证据表明他们持有一枚「魔法」硬币。

  现在想象一下你不是在掷硬币。假设你们都在一个竞赛测试集中运行一个模型。与其怀疑你的硬币是不是魔法,你反而希望你的模型是最好的,因为这将为你赢得 25000 美元。

  当然,你只能提交一个模型。如果多余一个,那就是作弊。其中一个模型可以表现得很好,这相当于掷一个公平的硬币得到 8 个人头,只是一个偶然事件。

赐研手机维修网】文章内容来源:https://vip-chn.com/jishu/ai/1757.html