🚀OpenAI ...

🚀OpenAI o1全面碾压：数学、编程、科学全方位超越，AI时代的巅峰来临！🔥

这三张图表展示了不同模型在各个领域的表现，分别是数学竞赛（AIME 2024）、编程竞赛（CodeForces）和博士级别的科学问题（GPQA Diamond）。我们来看一下这些模型的表现差距，用小学生、大学生、博士生和教授来做个形象对比。

数学竞赛 (AIME 2024)

- gpt4o：准确率 13.4%
- 像个小学生，刚开始接触数学竞赛，能答对一些基础题目。
- o1 preview：准确率 56.7%
- 像个大学生，有一定的数学基础，能答对很多题目，但还有提升空间。
- o1：准确率 83.3%
- 像个博士生，数学功底扎实，能轻松应对大多数竞赛题目。

编程竞赛 (CodeForces)

- gpt4o：排名第11百分位
- 像个小学生，对编程还很陌生，只能写出简单代码。
- o1 preview：排名第62百分位
- 像个大学生，有一定编程经验，能解决很多实际问题。
- o1：排名第89百分位
- 像个博士生或教授，不仅能解决复杂问题，还能优化代码。

博士级别科学问题 (GPQA Diamond)

- gpt4o：准确率 56.1%
- 像个小学生，对科学知识了解有限，只能回答一些简单问题。
- o1 preview：准确率 78.3%
- 像个大学生，有较强的科学知识储备，能回答大部分问题。
- o1：准确率 78.0%
- 和大学生相似，但表现更稳定。
- expert human（人类专家）：准确率 69.7%
- 像个教授，对科学知识非常熟悉，但偶尔会有疏漏。

场景举例

假设你有一个复杂的数学难题：

- 用 gpt4o（小学生）来解答，它可能只能告诉你最基础的概念或步骤，无法提供完整解答。
- 用 o1 preview（大学生）来解答，它能够帮你解决大部分步骤，但可能在某些细节上需要再查阅资料。
- 用 o1（博士生）来解答，它能够完整、准确地给出解答，并且解释清楚每一步。

再比如你需要编写一个复杂的程序：

- 用 gpt4o（小学生），它只能写出最基本的代码片段。
- 用 o1 preview（大学生），它可以写出功能完善的代码，但可能需要优化和调试。
- 用 o1（博士生或教授），它不仅写出功能完善的代码，还会考虑到性能优化和扩展性。

总结

通过这些图表，我们可以清楚地看到，不同模型在各领域的表现差距。OpenAI 的最新模型 o1 在多个专业领域都展现出了极高的能力，大幅领先于之前版本和人类专家，为我们展示了 AI 技术的新高度。

GPTDAOCN-e/acc on Nostr: 🚀OpenAI ...