🌐 LLM Leaderboard Update 🌐 #LiveBench: Top models take a collective nosedive - ...

Why Nostr? What is Njump?

LLM Leaderboard Updates

npub10w…d76ll

2025-05-31 14:03:13

🌐 LLM Leaderboard Update 🌐

#LiveBench: Top models take a collective nosedive - #o3_High (-6.29), #Claude4_Opus_Thinking (-6.6), and #Gemini2.5_Pro_Preview (-7) all slip dramatically. #GPT4.5_Preview enters at 19th!

New Results-
=== LiveBench Leaderboard ===
1. o3 High - 74.42
2. Claude 4 Opus Thinking - 72.93
3. Claude 4 Sonnet Thinking - 72.08
4. Gemini 2.5 Pro Preview - 71.99
5. o3 Medium - 71.98
6. o4-Mini High - 71.52
7. DeepSeek R1 (2025-05-28) - 69.39
8. Claude 3.7 Sonnet Thinking - 67.43
9. o4-Mini Medium - 66.87
10. Claude 4 Opus - 65.93
11. DeepSeek R1 - 65.15
12. Qwen 3 235B A22B - 64.93
13. Gemini 2.5 Flash Preview (2025-05-20) - 64.32
14. Qwen 3 32B - 63.71
15. Claude 4 Sonnet - 63.37
16. Gemini 2.5 Flash Preview (2025-04-17) - 62.80
17. Grok 3 Mini Beta (High) - 62.36
18. Qwen 3 30B A3B - 59.02
19. GPT-4.5 Preview - 58.65
20. Claude 3.7 Sonnet - 58.48

#SimpleBench: #Claude4_Opus storms in with 58.8% to claim the throne! #DeepSeek_R1_0528 debuts at 9th.

New Results-
=== SimpleBench Leaderboard ===
1. Claude 4 Opus (thinking) - 58.8%
2. o3 (high) - 53.1%
3. Gemini 2.5 Pro - 51.6%
4. Claude 3.7 Sonnet (thinking) - 46.4%
5. Claude 4 Sonnet (thinking) - 45.5%
6. Claude 3.7 Sonnet - 44.9%
7. o1-preview - 41.7%
8. Claude 3.5 Sonnet 10-22 - 41.4%
9. DeepSeek R1 05/28 - 40.8%
10. o1-2024-12-17 (high) - 40.1%
11. o4-mini (high) - 38.7%
12. o1-2024-12-17 (med) - 36.7%
13. Grok 3 - 36.1%
14. GPT-4.5 - 34.5%
15. Gemini-exp-1206 - 31.1%
16. Qwen3 235B-A22B - 31.0%
17. DeepSeek R1 - 30.9%
18. Gemini 2.0 Flash Thinking - 30.7%
19. Llama 4 Maverick - 27.7%
20. Claude 3.5 Sonnet 06-20 - 27.5%

"Benchmark volatility: because even AIs need humbling arcs." – GPT-4.5’s therapist

#ai #LLM #LiveBench #SimpleBench

Author Public Key

npub10wdup4lyptue5jllj05gsutecggmgyv8674v7kk774ha597qf8dqrd76ll

Show more details

Published at

2025-05-31 14:03:13

Kind type

1 Short Text Note

Event JSON

{ "id": "1108627956e97be53f6f82c7c25254191b2bdea82abbcda48b8e2c2b147228fa", "pubkey": "7b9bc0d7e40af99a4bff93e8887179c211b41187d7aacf5adef56fda17c049da", "created_at": 1748700193, "kind": 1, "tags": [ [ "t", "llm" ], [ "t", "ai" ], [ "t", "livebench" ], [ "t", "o3_high" ], [ "t", "claude4_opus_thinking" ], [ "t", "gemini2" ], [ "t", "gpt4" ], [ "t", "simplebench" ], [ "t", "claude4_opus" ], [ "t", "deepseek_r1_0528" ] ], "content": "🌐 LLM Leaderboard Update 🌐 \n\n#LiveBench: Top models take a collective nosedive - #o3_High (-6.29), #Claude4_Opus_Thinking (-6.6), and #Gemini2.5_Pro_Preview (-7) all slip dramatically. #GPT4.5_Preview enters at 19th! \n\nNew Results- \n=== LiveBench Leaderboard === \n1. o3 High - 74.42 \n2. Claude 4 Opus Thinking - 72.93 \n3. Claude 4 Sonnet Thinking - 72.08 \n4. Gemini 2.5 Pro Preview - 71.99 \n5. o3 Medium - 71.98 \n6. o4-Mini High - 71.52 \n7. DeepSeek R1 (2025-05-28) - 69.39 \n8. Claude 3.7 Sonnet Thinking - 67.43 \n9. o4-Mini Medium - 66.87 \n10. Claude 4 Opus - 65.93 \n11. DeepSeek R1 - 65.15 \n12. Qwen 3 235B A22B - 64.93 \n13. Gemini 2.5 Flash Preview (2025-05-20) - 64.32 \n14. Qwen 3 32B - 63.71 \n15. Claude 4 Sonnet - 63.37 \n16. Gemini 2.5 Flash Preview (2025-04-17) - 62.80 \n17. Grok 3 Mini Beta (High) - 62.36 \n18. Qwen 3 30B A3B - 59.02 \n19. GPT-4.5 Preview - 58.65 \n20. Claude 3.7 Sonnet - 58.48 \n\n#SimpleBench: #Claude4_Opus storms in with 58.8% to claim the throne! #DeepSeek_R1_0528 debuts at 9th. \n\nNew Results- \n=== SimpleBench Leaderboard === \n1. Claude 4 Opus (thinking) - 58.8% \n2. o3 (high) - 53.1% \n3. Gemini 2.5 Pro - 51.6% \n4. Claude 3.7 Sonnet (thinking) - 46.4% \n5. Claude 4 Sonnet (thinking) - 45.5% \n6. Claude 3.7 Sonnet - 44.9% \n7. o1-preview - 41.7% \n8. Claude 3.5 Sonnet 10-22 - 41.4% \n9. DeepSeek R1 05/28 - 40.8% \n10. o1-2024-12-17 (high) - 40.1% \n11. o4-mini (high) - 38.7% \n12. o1-2024-12-17 (med) - 36.7% \n13. Grok 3 - 36.1% \n14. GPT-4.5 - 34.5% \n15. Gemini-exp-1206 - 31.1% \n16. Qwen3 235B-A22B - 31.0% \n17. DeepSeek R1 - 30.9% \n18. Gemini 2.0 Flash Thinking - 30.7% \n19. Llama 4 Maverick - 27.7% \n20. Claude 3.5 Sonnet 06-20 - 27.5% \n\n\"Benchmark volatility: because even AIs need humbling arcs.\" – GPT-4.5’s therapist \n\n#ai #LLM #LiveBench #SimpleBench", "sig": "75da479e2b79998cc668c0239e1b9d206c2514ee8b7ac734fb83128e63842f08307a6e1ce43fc93f0052e15d09f94b84b50e046c7d0c2271fdfdf0811a29d0b8" }