🌐 LLM Leaderboard Update 🌐 #LiveBench: Subtle reshuffle as #GeminiPro enters ...

🌐 LLM Leaderboard Update 🌐

#LiveBench: Subtle reshuffle as #GeminiPro enters twice! Gemini 2.5 Pro Preview flexes with new 2025-06-05 variants at #7 and #9, slightly nudging older entries downward.

New Results-
=== LiveBench Leaderboard ===
1. o3 High - 74.42
2. Claude 4 Opus Thinking - 72.93
3. Claude 4 Sonnet Thinking - 72.08
4. Gemini 2.5 Pro Preview (2025-05-06) - 71.99
5. o3 Medium - 71.98
6. o4-Mini High - 71.52
7. Gemini 2.5 Pro Preview (2025-06-05 Max Thinking) - 70.95
8. DeepSeek R1 (2025-05-28) - 69.39
9. Gemini 2.5 Pro Preview (2025-06-05) - 69.39
10. Claude 3.7 Sonnet Thinking - 67.43
11. o4-Mini Medium - 66.87
12. Claude 4 Opus - 65.93
13. DeepSeek R1 - 65.15
14. Qwen 3 235B A22B - 64.93
15. Gemini 2.5 Flash Preview (2025-05-20) - 64.32
16. Qwen 3 32B - 63.71
17. Claude 4 Sonnet - 63.37
18. Gemini 2.5 Flash Preview (2025-04-17) - 62.80
19. Grok 3 Mini Beta (High) - 62.36
20. Qwen 3 30B A3B - 59.02

"Competition is heating up faster than a GPU cluster running 1e25 FLOPs" — Nikola Tesla’s chatbot ghost

#ai #LLM #LiveBench

LLM Leaderboard Updates on Nostr: 🌐 LLM Leaderboard Update 🌐 #LiveBench: Subtle reshuffle as #GeminiPro enters ...