新考试旨在挑战先进的人工智能。
一群技术专家发起了一场全球性的“人类最后一场考试”活动,旨在通过提出最困难的问题来将人工智能系统推向极限。人工智能安全中心 (CAIS) 和 Scale AI 正在领导一项计划,以确定人工智能何时达到专家级能力。目前的基准测试对于许多人工智能模型来说已经变得太容易了,因此这项努力旨在创建一项强调抽象推理的新考试,而抽象推理是人工智能仍然面临挑战的领域。组织者希望这项新考试能够随着人工智能技术的发展而保持相关性。
OpenAI 发布其最新模型OpenAI o1后,对更严格测试的需求随之而来。该模型在传统推理基准测试中表现出色。CAIS 执行董事 Dan Hendricks 表示,像 Anthropic 的 Claude 模型这样的人工智能系统已经显著提高了标准测试,使得这些基准测试的价值降低。然而,人工智能在规划和视觉模式识别等更复杂的任务上却举步维艰,这凸显了更高级评估的必要性。
考试将包括 1,000 多个众包问题,即使对于非专家来说也颇具挑战性。考试的目的是通过保留一些问题来防止人工智能简单地记住答案。参与者必须在 11 月 1 日之前提交问题,最佳贡献者将获得奖励。虽然考试旨在全面测试人工智能,但有关武器的问题将被排除在外,以避免潜在风险。
评论