SuperCLUE总排行榜(2025年3月)
排名 | 模型名称 | 机构 | 总分 | 数学推理 | 科学推理 | 代码生成 | 智能体Agent | 精确指令遵循 | 文本理解与创作 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|
- | o3-mini(high) | OpenAI | 76.01 | 94.74 | 70.00 | 88.78 | 57.14 | 66.4 | 79.01 | API | 2025.03.18 |
🏅️ | DeepSeek-R1 | 深度求索 | 70.33 | 85.96 | 64.00 | 86.94 | 65.18 | 39.52 | 80.41 | API | 2025.03.18 |
- | Claude 3.7 Sonnet | Anthropic | 68.02 | 78.07 | 59.00 | 86.73 | 56.62 | 48.92 | 78.77 | POE | 2025.03.18 |
- | GPT-4.5-Preview | OpenAI | 67.46 | 67.54 | 70.00 | 79.18 | 71.88 | 35.75 | 80.4 | POE | 2025.03.18 |
🥈 | QwQ-32B | 阿里巴巴 | 66.38 | 88.6 | 67.00 | 81.84 | 48.66 | 29.92 | 82.27 | API | 2025.03.18 |
- | Gemini-2.0-Pro-Exp-02-05 | Google | 65.35 | 65.79 | 70.71 | 77.76 | 64.88 | 33.6 | 79.34 | API | 2025.03.18 |
🥉 | Doubao-1.5-pro-32k-250115 | 字节跳动 | 64.68 | 62.28 | 70.00 | 76.94 | 54.46 | 46.77 | 77.66 | API | 2025.03.18 |
4 | hunyuan-turbos-20250226 | 腾讯 | 62.49 | 47.37 | 63.00 | 74.49 | 70.09 | 41.13 | 78.88 | API | 2025.03.18 |
5 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 59.94 | 85.85 | 62.89 | 73.43 | 36.77 | 23.18 | 77.53 | API | 2025.03.18 |
5 | Qwen-max-latest | 阿里巴巴 | 59.34 | 42.98 | 68.00 | 76.33 | 58.48 | 29.38 | 80.88 | API | 2025.03.18 |
- | Gemini-2.0-Flash-Thinking-Exp-01-21 | Google | 59.26 | 83.33 | 63.00 | 68.16 | 26.34 | 33.6 | 81.16 | API | 2025.03.18 |
5 | 360智脑o1.5 | 360 | 59.08 | 83.33 | 57.00 | 71.43 | 36.61 | 26.34 | 79.78 | API | 2025.03.18 |
6 | DeepSeek-V3 | 深度求索 | 57.63 | 48.25 | 63.00 | 68.78 | 63.39 | 23.39 | 78.99 | API | 2025.03.18 |
- | ChatGPT-4o-latest | OpenAI | 57.57 | 35.96 | 66.00 | 73.06 | 56.7 | 32.8 | 80.89 | API | 2025.03.18 |
7 | YAYI-Ultra | 中科闻歌 | 55.81 | 42.11 | 62.00 | 69.39 | 59.38 | 23.39 | 78.57 | API | 2025.03.18 |
8 | Qwen2.5-72B-Instruct | 阿里巴巴 | 51.9 | 33.33 | 58.00 | 62.86 | 55.8 | 22.91 | 78.52 | API | 2025.03.18 |
8 | kimi-latest | 月之暗面 | 51.47 | 27.19 | 54.00 | 70.61 | 62.05 | 19.89 | 75.1 | API | 2025.03.18 |
9 | Step-2-16k | 阶跃星辰 | 50.81 | 26.32 | 58.00 | 62.45 | 59.38 | 18.55 | 80.17 | API | 2025.03.18 |
10 | DeepSeek-R1-Distill-Qwen-14B | 深度求索 | 49.67 | 79.46 | 63.27 | 55.79 | 7.14 | 16.85 | 75.51 | API | 2025.03.18 |
10 | Sky-Chat-3.0 | 昆仑万维 | 49.17 | 38.6 | 63.00 | 55.1 | 38.84 | 21.83 | 77.66 | API | 2025.03.18 |
11 | GLM-4-Plus | 智谱AI | 48.61 | 26.32 | 53.00 | 61.84 | 49.55 | 21.77 | 79.17 | API | 2025.03.18 |
12 | ERNIE-4.0-Turbo-8K-Latest | 百度 | 47.56 | 29.82 | 48.00 | 61.22 | 50.45 | 19.35 | 76.54 | API | 2025.03.18 |
13 | GLM-Zero-Preview | 智谱AI | 46.11 | 74.56 | 64.00 | 41.02 | 8.48 | 16.94 | 71.64 | API | 2025.03.18 |
- | Llama-3.3-70B-Instruct | Meta | 45.53 | 21.05 | 52.00 | 62.86 | 39.29 | 26.08 | 71.92 | API | 2025.03.18 |
- | Phi-4 | 微软 | 45.26 | 35.09 | 61.00 | 60.2 | 23.83 | 15.05 | 76.37 | 模型 | 2025.03.18 |
- | GPT-4o mini | OpenAI | 43.8 | 21.05 | 53.00 | 63.06 | 29.02 | 20.43 | 76.22 | API | 2025.03.18 |
14 | 讯飞星火V4.0 | 科大讯飞 | 40.76 | 39.82 | 49.00 | 51.22 | 16.52 | 12.63 | 75.36 | API | 2025.03.18 |
14 | Qwen2.5-14b-Instruct | 阿里巴巴 | 40.7 | 21.05 | 48.00 | 50.61 | 32.59 | 15.09 | 76.87 | API | 2025.03.18 |
15 | DeepSeek-R1-Distill-Qwen-7B | 深度求索 | 39.06 | 77.23 | 58.06 | 34.5 | 2.68 | 6.47 | 55.45 | API | 2025.03.18 |
16 | Qwen2.5-7B-Instruct | 阿里巴巴 | 34.01 | 21.05 | 39.00 | 40 | 17.41 | 10.51 | 76.11 | API | 2025.03.18 |
17 | InternLM3-8B-Instruct | 上海人工智能实验室 | 32.02 | 32.74 | 43.00 | 25.31 | 8.93 | 8.6 | 73.53 | 模型 | 2025.03.18 |
18 | GLM-4-9B-Chat | 智谱AI | 29.34 | 7.02 | 21.00 | 33.88 | 30.36 | 9.14 | 74.66 | 模型 | 2025.03.18 |
- | Gemma-2-9b-it | Google | 28.3 | 2.63 | 31.00 | 37.35 | 10.27 | 16.67 | 71.88 | 模型 | 2025.03.18 |
- | Llama-3.1-8B-Instruct | Meta | 25.42 | 1.75 | 19.00 | 31.02 | 23.66 | 10.48 | 66.63 | API | 2025.03.18 |
19 | Yi-1.5-34B-Chat-16K | 零一万物 | 23.29 | 6.14 | 22.00 | 23.27 | 7.14 | 7.8 | 73.41 | 模型 | 2025.03.18 |
20 | Qwen2.5-3b-Instruct | 阿里巴巴 | 22.18 | 13.16 | 20.00 | 12.65 | 7.59 | 6.2 | 73.49 | API | 2025.03.18 |
20 | Yi-1.5-9B-Chat-16K | 零一万物 | 21.94 | 4.42 | 19.00 | 14.49 | 14.75 | 7.53 | 71.42 | 模型 | 2025.03.18 |
21 | DeepSeek-R1-Distill-Qwen-1.5B | 深度求索 | 17.98 | 37.72 | 35.00 | 3.88 | 0 | 1.62 | 29.64 | API | 2025.03.18 |
- | Llama-3.2-3B-Instruct | Meta | 17.15 | 7.89 | 5.00 | 18.78 | 3.57 | 5.48 | 62.17 | API | 2025.03.18 |
- | Mistral-7B-Instruct-v0.3 | Mistral AI | 11.78 | 1.75 | 5.00 | 2.86 | 1.34 | 4.3 | 55.43 | 模型 | 2025.03.18 |
SuperCLUE推理任务总排行榜(2025年3月)
排名 | 模型名称 | 机构 | 推理榜单总分 | 数学推理 | 科学推理 | 代码生成 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | o3-mini(high) | OpenAI | 84.51 | 94.74 | 70 | 88.78 | API | 2025.03.18 |
🏅️ | QwQ-32B | 阿里巴巴 | 79.15 | 88.6 | 67 | 81.84 | API | 2025.03.18 |
🏅️ | DeepSeek-R1 | 深度求索 | 78.97 | 85.96 | 64 | 86.94 | API | 2025.03.18 |
🥈 | QwQ-Max-preview | 阿里巴巴 | 76.01 | 86.84 | 64.65 | 76.53 | 网页 | 2025.03.18 |
- | Claude 3.7 Sonnet | Anthropic | 74.6 | 78.07 | 59 | 86.73 | POE | 2025.03.18 |
🥉 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 74.06 | 85.85 | 62.89 | 73.43 | API | 2025.03.18 |
- | GPT-4.5-Preview | OpenAI | 72.24 | 67.54 | 70 | 79.18 | POE | 2025.03.18 |
- | Gemini-2.0-Flash-Thinking-Exp-01-21 | Google | 71.5 | 83.33 | 63 | 68.16 | API | 2025.03.18 |
- | Gemini-2.0-Pro-Exp-02-05 | Google | 71.42 | 65.79 | 70.71 | 77.76 | API | 2025.03.18 |
4 | 360智脑o1.5 | 360 | 70.59 | 83.33 | 57 | 71.43 | API | 2025.03.18 |
4 | Kimi-K1.5 | 月之暗面 | 70.19 | 78.07 | 67 | 65.51 | 网页 | 2025.03.18 |
5 | Doubao-1.5-pro-32k-250115 | 字节跳动 | 69.74 | 62.28 | 70 | 76.94 | API | 2025.03.18 |
- | Grok-3 | X.AI | 68.86 | 58.77 | 67 | 80.82 | 网页 | 2025.03.18 |
6 | DeepSeek-R1-Distill-Qwen-14B | 深度求索 | 66.17 | 79.46 | 63.27 | 55.79 | API | 2025.03.18 |
6 | Step R-mini | 阶跃星辰 | 65.2 | 73.45 | 61 | 61.16 | 网页 | 2025.03.18 |
7 | Qwen-max-latest | 阿里巴巴 | 62.44 | 42.98 | 68 | 76.33 | API | 2025.03.18 |
7 | hunyuan-turbos-20250226 | 腾讯 | 61.62 | 47.37 | 63 | 74.49 | API | 2025.03.18 |
8 | DeepSeek-V3 | 深度求索 | 60.01 | 48.25 | 63 | 68.78 | API | 2025.03.18 |
8 | GLM-Zero-Preview | 智谱AI | 59.86 | 74.56 | 64 | 41.02 | API | 2025.03.18 |
- | ChatGPT-4o-latest | OpenAI | 58.34 | 35.96 | 66 | 73.06 | API | 2025.03.18 |
9 | YAYI-Ultra | 中科闻歌 | 57.83 | 42.11 | 62 | 69.39 | API | 2025.03.18 |
10 | DeepSeek-R1-Distill-Qwen-7B | 深度求索 | 56.6 | 77.23 | 58.06 | 34.5 | API | 2025.03.18 |
11 | Sky-Chat-3.0 | 昆仑万维 | 52.23 | 38.6 | 63 | 55.1 | API | 2025.03.18 |
- | Phi-4 | 微软 | 52.1 | 35.09 | 61 | 60.2 | 模型 | 2025.03.18 |
11 | Qwen2.5-72B-Instruct | 阿里巴巴 | 51.4 | 33.33 | 58 | 62.86 | API | 2025.03.18 |
12 | kimi-latest | 月之暗面 | 50.6 | 27.19 | 54 | 70.61 | API | 2025.03.18 |
13 | Step-2-16k | 阶跃星辰 | 48.92 | 26.32 | 58 | 62.45 | API | 2025.03.18 |
14 | Skywork o1 Preview | 昆仑万维 | 47.67 | 55.17 | 44.21 | 43.63 | 网页 | 2025.03.18 |
14 | GLM-4-Plus | 智谱AI | 47.05 | 26.32 | 53 | 61.84 | API | 2025.03.18 |
14 | 讯飞星火V4.0 | 科大讯飞 | 46.68 | 39.82 | 49 | 51.22 | API | 2025.03.18 |
15 | ERNIE-4.0-Turbo-8K-Latest | 百度 | 46.35 | 29.82 | 48 | 61.22 | API | 2025.03.18 |
- | GPT-4o mini | OpenAI | 45.7 | 21.05 | 53 | 63.06 | API | 2025.03.18 |
- | Llama-3.3-70B-Instruct | Meta | 45.3 | 21.05 | 52 | 62.86 | API | 2025.03.18 |
16 | Qwen2.5-14b-Instruct | 阿里巴巴 | 39.89 | 21.05 | 48 | 50.61 | API | 2025.03.18 |
17 | InternLM3-8B-Instruct | 上海人工智能实验室 | 33.68 | 32.74 | 43 | 25.31 | 模型 | 2025.03.18 |
17 | Qwen2.5-7B-Instruct | 阿里巴巴 | 33.35 | 21.05 | 39 | 40 | API | 2025.03.18 |
18 | DeepSeek-R1-Distill-Qwen-1.5B | 深度求索 | 25.53 | 37.72 | 35 | 3.88 | API | 2025.03.18 |
- | Gemma-2-9b-it | Google | 23.66 | 2.63 | 31 | 37.35 | 模型 | 2025.03.18 |
19 | GLM-4-9B-Chat | 智谱AI | 20.63 | 7.02 | 21 | 33.88 | 模型 | 2025.03.18 |
- | Llama-3.1-8B-Instruct | Meta | 17.26 | 1.75 | 19 | 31.02 | API | 2025.03.18 |
20 | Yi-1.5-34B-Chat-16K | 零一万物 | 17.14 | 6.14 | 22 | 23.27 | 模型 | 2025.03.18 |
21 | Qwen2.5-3b-Instruct | 阿里巴巴 | 15.27 | 13.16 | 20 | 12.65 | API | 2025.03.18 |
22 | Yi-1.5-9B-Chat-16K | 零一万物 | 12.64 | 4.42 | 19 | 14.49 | 模型 | 2025.03.18 |
- | Llama-3.2-3B-Instruct | Meta | 10.56 | 7.89 | 5 | 18.78 | API | 2025.03.18 |
- | Mistral-7B-Instruct-v0.3 | Mistral AI | 3.2 | 1.75 | 5 | 2.86 | 模型 | 2025.03.18 |
SuperCLUE推理模型总排行榜(2025年3月)
排名 | 模型名称 | 机构 | 推理榜单总分 | 数学推理 | 科学推理 | 代码生成 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | o3-mini(high) | OpenAI | 84.51 | 94.74 | 70 | 88.78 | API | 2025.03.18 |
🏅️ | QwQ-32B | 阿里巴巴 | 79.15 | 88.6 | 67 | 81.84 | API | 2025.03.18 |
🏅️ | DeepSeek-R1 | 深度求索 | 78.97 | 85.96 | 64 | 86.94 | API | 2025.03.18 |
🥈 | QwQ-Max-preview | 阿里巴巴 | 76.01 | 86.84 | 64.65 | 76.53 | 网页 | 2025.03.18 |
- | Claude 3.7 Sonnet | Anthropic | 74.6 | 78.07 | 59 | 86.73 | POE | 2025.03.18 |
🥉 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 74.06 | 85.85 | 62.89 | 73.43 | API | 2025.03.18 |
- | Gemini-2.0-Flash-Thinking-Exp-01-21 | Google | 71.5 | 83.33 | 63 | 68.16 | API | 2025.03.18 |
4 | 360智脑o1.5 | 360 | 70.59 | 83.33 | 57 | 71.43 | API | 2025.03.18 |
4 | Kimi-K1.5 | 月之暗面 | 70.19 | 78.07 | 67 | 65.51 | 网页 | 2025.03.18 |
5 | DeepSeek-R1-Distill-Qwen-14B | 深度求索 | 66.17 | 79.46 | 63.27 | 55.79 | API | 2025.03.18 |
5 | Step R-mini | 阶跃星辰 | 65.2 | 73.45 | 61 | 61.16 | 网页 | 2025.03.18 |
6 | GLM-Zero-Preview | 智谱AI | 59.86 | 74.56 | 64 | 41.02 | API | 2025.03.18 |
7 | DeepSeek-R1-Distill-Qwen-7B | 深度求索 | 56.6 | 77.23 | 58.06 | 34.5 | API | 2025.03.18 |
8 | Skywork o1 Preview | 昆仑万维 | 47.67 | 55.17 | 44.21 | 43.63 | 网页 | 2025.03.18 |
9 | InternLM3-8B-Instruct | 上海人工智能实验室 | 33.68 | 32.74 | 43 | 25.31 | 模型 | 2025.03.18 |
10 | DeepSeek-R1-Distill-Qwen-1.5B | 深度求索 | 25.53 | 37.72 | 35 | 3.88 | API | 2025.03.18 |
SuperCLUE基础模型总排行榜(2025年3月)
排名 | 模型名称 | 机构 | 总分 | 数学推理 | 科学推理 | 代码生成 | 智能体Agent | 精确指令遵循 | 文本理解与创作 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|
- | GPT-4.5-Preview | OpenAI | 67.46 | 67.54 | 70 | 79.18 | 71.88 | 35.75 | 80.4 | POE | 2025.03.18 |
- | Gemini-2.0-Pro-Exp-02-05 | Google | 65.35 | 65.79 | 70.71 | 77.76 | 64.88 | 33.6 | 79.34 | API | 2025.03.18 |
🏅️ | Doubao-1.5-pro-32k-250115 | 字节跳动 | 64.68 | 62.28 | 70 | 76.94 | 54.46 | 46.77 | 77.66 | API | 2025.03.18 |
🥈 | hunyuan-turbos-20250226 | 腾讯 | 62.49 | 47.37 | 63 | 74.49 | 70.09 | 41.13 | 78.88 | API | 2025.03.18 |
🥉 | Qwen-max-latest | 阿里巴巴 | 59.34 | 42.98 | 68 | 76.33 | 58.48 | 29.38 | 80.88 | API | 2025.03.18 |
4 | DeepSeek-V3 | 深度求索 | 57.63 | 48.25 | 63 | 68.78 | 63.39 | 23.39 | 78.99 | API | 2025.03.18 |
- | ChatGPT-4o-latest | OpenAI | 57.57 | 35.96 | 66 | 73.06 | 56.7 | 32.8 | 80.89 | API | 2025.03.18 |
5 | YAYI-Ultra | 中科闻歌 | 55.81 | 42.11 | 62 | 69.39 | 59.38 | 23.39 | 78.57 | API | 2025.03.18 |
6 | Qwen2.5-72B-Instruct | 阿里巴巴 | 51.9 | 33.33 | 58 | 62.86 | 55.8 | 22.91 | 78.52 | API | 2025.03.18 |
6 | kimi-latest | 月之暗面 | 51.47 | 27.19 | 54 | 70.61 | 62.05 | 19.89 | 75.1 | API | 2025.03.18 |
7 | Step-2-16k | 阶跃星辰 | 50.81 | 26.32 | 58 | 62.45 | 59.38 | 18.55 | 80.17 | API | 2025.03.18 |
8 | Sky-Chat-3.0 | 昆仑万维 | 49.17 | 38.6 | 63 | 55.1 | 38.84 | 21.83 | 77.66 | API | 2025.03.18 |
8 | GLM-4-Plus | 智谱AI | 48.61 | 26.32 | 53 | 61.84 | 49.55 | 21.77 | 79.17 | API | 2025.03.18 |
9 | ERNIE-4.0-Turbo-8K-Latest | 百度 | 47.56 | 29.82 | 48 | 61.22 | 50.45 | 19.35 | 76.54 | API | 2025.03.18 |
- | Llama-3.3-70B-Instruct | Meta | 45.53 | 21.05 | 52 | 62.86 | 39.29 | 26.08 | 71.92 | API | 2025.03.18 |
- | Phi-4 | 微软 | 45.26 | 35.09 | 61 | 60.2 | 23.83 | 15.05 | 76.37 | 模型 | 2025.03.18 |
- | GPT-4o mini | OpenAI | 43.8 | 21.05 | 53 | 63.06 | 29.02 | 20.43 | 76.22 | API | 2025.03.18 |
10 | 讯飞星火V4.0 | 科大讯飞 | 40.76 | 39.82 | 49 | 51.22 | 16.52 | 12.63 | 75.36 | API | 2025.03.18 |
10 | Qwen2.5-14b-Instruct | 阿里巴巴 | 40.7 | 21.05 | 48 | 50.61 | 32.59 | 15.09 | 76.87 | API | 2025.03.18 |
11 | Qwen2.5-7B-Instruct | 阿里巴巴 | 34.01 | 21.05 | 39 | 40 | 17.41 | 10.51 | 76.11 | API | 2025.03.18 |
12 | GLM-4-9B-Chat | 智谱AI | 29.34 | 7.02 | 21 | 33.88 | 30.36 | 9.14 | 74.66 | 模型 | 2025.03.18 |
- | Gemma-2-9b-it | Google | 28.3 | 2.63 | 31 | 37.35 | 10.27 | 16.67 | 71.88 | 模型 | 2025.03.18 |
- | Llama-3.1-8B-Instruct | Meta | 25.42 | 1.75 | 19 | 31.02 | 23.66 | 10.48 | 66.63 | API | 2025.03.18 |
13 | Yi-1.5-34B-Chat-16K | 零一万物 | 23.29 | 6.14 | 22 | 23.27 | 7.14 | 7.8 | 73.41 | 模型 | 2025.03.18 |
14 | Qwen2.5-3b-Instruct | 阿里巴巴 | 22.18 | 13.16 | 20 | 12.65 | 7.59 | 6.2 | 73.49 | API | 2025.03.18 |
14 | Yi-1.5-9B-Chat-16K | 零一万物 | 21.94 | 4.42 | 19 | 14.49 | 14.75 | 7.53 | 71.42 | 模型 | 2025.03.18 |
- | Llama-3.2-3B-Instruct | Meta | 17.15 | 7.89 | 5 | 18.78 | 3.57 | 5.48 | 62.17 | API | 2025.03.18 |
- | Mistral-7B-Instruct-v0.3 | Mistral AI | 11.78 | 1.75 | 5 | 2.86 | 1.34 | 4.3 | 55.43 | 模型 | 2025.03.18 |
SuperCLUE开源排行榜(2025年3月)
排名 | 模型名称 | 机构 | 参数量 | 总分 | 数学推理 | 科学推理 | 代码生成 | 智能体Agent | 精确指令遵循 | 文本理解与创作 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | DeepSeek-R1 | 深度求索 | 671B | 70.33 | 85.96 | 64 | 86.94 | 65.18 | 39.52 | 80.41 | API | 2025.03.18 |
2 | QwQ-32B | 阿里巴巴 | 32B | 66.38 | 88.6 | 67 | 81.84 | 48.66 | 29.92 | 82.27 | API | 2025.03.18 |
3 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 32B | 59.94 | 85.85 | 62.89 | 73.43 | 36.77 | 23.18 | 77.53 | API | 2025.03.18 |
4 | DeepSeek-V3 | 深度求索 | 671B | 57.63 | 48.25 | 63 | 68.78 | 63.39 | 23.39 | 78.99 | API | 2025.03.18 |
5 | Qwen2.5-72B-Instruct | 阿里巴巴 | 72B | 51.9 | 33.33 | 58 | 62.86 | 55.8 | 22.91 | 78.52 | API | 2025.03.18 |
6 | DeepSeek-R1-Distill-Qwen-14B | 深度求索 | 14B | 49.67 | 79.46 | 63.27 | 55.79 | 7.14 | 16.85 | 75.51 | API | 2025.03.18 |
- | Llama-3.3-70B-Instruct | Meta | 70B | 45.53 | 21.05 | 52 | 62.86 | 39.29 | 26.08 | 71.92 | API | 2025.03.18 |
- | Phi-4 | 微软 | 14B | 45.26 | 35.09 | 61 | 60.2 | 23.83 | 15.05 | 76.37 | 模型 | 2025.03.18 |
7 | Qwen2.5-14b-Instruct | 阿里巴巴 | 14B | 40.7 | 21.05 | 48 | 50.61 | 32.59 | 15.09 | 76.87 | API | 2025.03.18 |
8 | DeepSeek-R1-Distill-Qwen-7B | 深度求索 | 7B | 39.06 | 77.23 | 58.06 | 34.5 | 2.68 | 6.47 | 55.45 | API | 2025.03.18 |
9 | Qwen2.5-7B-Instruct | 阿里巴巴 | 7B | 34.01 | 21.05 | 39 | 40 | 17.41 | 10.51 | 76.11 | API | 2025.03.18 |
10 | InternLM3-8B-Instruct | 上海人工智能实验室 | 8B | 32.02 | 32.74 | 43 | 25.31 | 8.93 | 8.6 | 73.53 | 模型 | 2025.03.18 |
11 | GLM-4-9B-Chat | 智谱AI | 9B | 29.34 | 7.02 | 21 | 33.88 | 30.36 | 9.14 | 74.66 | 模型 | 2025.03.18 |
- | Gemma-2-9b-it | Google | 9B | 28.3 | 2.63 | 31 | 37.35 | 10.27 | 16.67 | 71.88 | 模型 | 2025.03.18 |
- | Llama-3.1-8B-Instruct | Meta | 8B | 25.42 | 1.75 | 19 | 31.02 | 23.66 | 10.48 | 66.63 | API | 2025.03.18 |
12 | Yi-1.5-34B-Chat-16K | 零一万物 | 34B | 23.29 | 6.14 | 22 | 23.27 | 7.14 | 7.8 | 73.41 | API | 2025.03.18 |
13 | Qwen2.5-3b-Instruct | 阿里巴巴 | 3B | 22.18 | 13.16 | 20 | 12.65 | 7.59 | 6.2 | 73.49 | API | 2025.03.18 |
13 | Yi-1.5-9B-Chat-16K | 零一万物 | 9B | 21.94 | 4.42 | 19 | 14.49 | 14.75 | 7.53 | 71.42 | API | 2025.03.18 |
14 | DeepSeek-R1-Distill-Qwen-1.5B | 深度求索 | 1.5B | 17.98 | 37.72 | 35 | 3.88 | 0 | 1.62 | 29.64 | API | 2025.03.18 |
- | Llama-3.2-3B-Instruct | Meta | 3B | 17.15 | 7.89 | 5 | 18.78 | 3.57 | 5.48 | 62.17 | API | 2025.03.18 |
- | Mistral-7B-Instruct-v0.3 | Mistral AI | 7B | 11.78 | 1.75 | 5 | 2.86 | 1.34 | 4.3 | 55.43 | 模型 | 2025.03.18 |
SuperCLUE小模型10B榜(2025年3月)
排名 | 模型名称 | 机构 | 参数量 | 总分 | 数学推理 | 科学推理 | 代码生成 | 智能体Agent | 精确指令遵循 | 文本理解与创作 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | DeepSeek-R1-Distill-Qwen-7B | 深度求索 | 7B | 39.06 | 77.23 | 58.06 | 34.5 | 2.68 | 6.47 | 55.45 | API | 2025.03.18 |
2 | Qwen2.5-7B-Instruct | 阿里巴巴 | 7B | 34.01 | 21.05 | 39 | 40 | 17.41 | 10.51 | 76.11 | API | 2025.03.18 |
3 | InternLM3-8B-Instruct | 上海人工智能实验室 | 8B | 32.02 | 32.74 | 43 | 25.31 | 8.93 | 8.6 | 73.53 | 模型 | 2025.03.18 |
4 | GLM-4-9B-Chat | 智谱AI | 9B | 29.34 | 7.02 | 21 | 33.88 | 30.36 | 9.14 | 74.66 | 模型 | 2025.03.18 |
- | Gemma-2-9b-it | Google | 9B | 28.3 | 2.63 | 31 | 37.35 | 10.27 | 16.67 | 71.88 | 模型 | 2025.03.18 |
- | Llama-3.1-8B-Instruct | Meta | 8B | 25.42 | 1.75 | 19 | 31.02 | 23.66 | 10.48 | 66.63 | API | 2025.03.18 |
5 | Qwen2.5-3b-Instruct | 阿里巴巴 | 3B | 22.18 | 13.16 | 20 | 12.65 | 7.59 | 6.2 | 73.49 | API | 2025.03.18 |
5 | Yi-1.5-9B-Chat-16K | 零一万物 | 9B | 21.94 | 4.42 | 19 | 14.49 | 14.75 | 7.53 | 71.42 | API | 2025.03.18 |
6 | DeepSeek-R1-Distill-Qwen-1.5B | 深度求索 | 1.5B | 17.98 | 37.72 | 35 | 3.88 | 0 | 1.62 | 29.64 | API | 2025.03.18 |
- | Llama-3.2-3B-Instruct | Meta | 3B | 17.15 | 7.89 | 5 | 18.78 | 3.57 | 5.48 | 62.17 | API | 2025.03.18 |
- | Mistral-7B-Instruct-v0.3 | Mistral AI | 7B | 11.78 | 1.75 | 5 | 2.86 | 1.34 | 4.3 | 55.43 | 模型 | 2025.03.18 |
SuperCLUE小模型5B榜(2025年3月)
排名 | 模型名称 | 机构 | 参数量 | 总分 | 数学推理 | 科学推理 | 代码生成 | 智能体Agent | 精确指令遵循 | 文本理解与创作 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Qwen2.5-3b-Instruct | 阿里巴巴 | 3B | 22.18 | 13.16 | 20 | 12.65 | 7.59 | 6.2 | 73.49 | API | 2025.03.18 |
2 | DeepSeek-R1-Distill-Qwen-1.5B | 深度求索 | 1.5B | 17.98 | 37.72 | 35 | 3.88 | 0 | 1.62 | 29.64 | API | 2025.03.18 |
- | Llama-3.2-3B-Instruct | Meta | 3B | 17.15 | 7.89 | 5 | 18.78 | 3.57 | 5.48 | 62.17 | API | 2025.03.18 |
排名 | 模型名称 | 机构 | 总成绩 | 基础认知能力 | 视觉推理能力 | 视觉 Agent 执行力 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
🏅️ | Doubao-1.5-vision-pro-32k | 字节跳动 | 66.33 | 73 | 69 | 57 | API | 2025.03.06 |
- | Gemini-2.0-Flash-Thinking-Exp-01-21 | Google | 63.33 | 72 | 60 | 58 | API | 2025.03.06 |
- | ChatGPT-4o-latest | OpenAI | 62 | 70 | 53 | 63 | API | 2025.03.06 |
🥈 | Qwen2.5-vl-72b-instruct | 阿里巴巴 | 59 | 69 | 55 | 53 | API | 2025.03.06 |
🥉 | Step-1o-vision-32k | 阶跃星辰 | 57 | 68 | 46 | 57 | API | 2025.03.06 |
4 | SenseNova-5.5-Pro-20250113 | 商汤 | 55.33 | 64 | 52 | 50 | API | 2025.03.06 |
5 | GLM-4V-Plus-0111 | 智谱AI | 50 | 60 | 44 | 46 | API | 2025.03.06 |
- | Claude-3.7-Sonnet | Anthropic | 48 | 59 | 49 | 36 | API | 2025.03.06 |
6 | K1.5 长思考 | 月之暗面 | 47.33 | 50 | 55 | 37 | 官网 | 2025.03.06 |
7 | Hunyuan-turbo-vision-20241126 | 腾讯 | 45 | 53 | 49 | 33 | API | 2025.03.06 |
7 | InternVL2.5-38B | 上海AI Lab | 44.33 | 51 | 37 | 45 | 模型 | 2025.03.06 |
- | o3-mini-high | OpenAI | 41.67 | 53 | 36 | 36 | 官网 | 2025.03.06 |
8 | ERNIE-4.0-Turbo | 百度 | 40.67 | 54 | 33 | 35 | 官网 | 2025.03.06 |
9 | GLM-4v-9B | 智谱AI | 34.67 | 50 | 28 | 26 | 模型 | 2025.03.06 |
10 | MiniCPM-o-2.6 | 面壁智能 | 33.33 | 45 | 29 | 26 | 模型 | 2025.03.06 |
11 | Qwen2.5-vl-3b-instruct | 阿里巴巴 | 32 | 39 | 36 | 21 | API | 2025.03.06 |
12 | Yi-Vision-V2 | 零一万物 | 30.33 | 38 | 29 | 24 | API | 2025.03.06 |
13 | InternVL2.5-2B | 上海AI Lab | 27.67 | 34 | 30 | 19 | 模型 | 2025.03.06 |
14 | 讯飞星火视觉模型 | 科大讯飞 | 23.33 | 39 | 18 | 13 | API | 2025.03.06 |
排名 | 模型名称 | 机构 | 分数 | 常识问答 | 物体识别 | 文本识别 | 数量判断 | 特征定位 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|
🏅️ | Doubao-1.5-vision-pro-32k | 字节跳动 | 73 | 85 | 100 | 70 | 60 | 50 | API | 2025.03.06 |
- | Gemini-2.0-Flash-Thinking-Exp-01-21 | Google | 72 | 85 | 100 | 70 | 50 | 55 | API | 2025.03.06 |
- | ChatGPT-4o-latest | OpenAI | 70 | 85 | 95 | 65 | 45 | 60 | API | 2025.03.06 |
🥈 | Qwen2.5-vl-72b-instruct | 阿里巴巴 | 69 | 65 | 100 | 80 | 45 | 55 | API | 2025.03.06 |
🥈 | Step-1o-vision-32k | 阶跃星辰 | 68 | 90 | 95 | 70 | 30 | 55 | API | 2025.03.06 |
🥉 | SenseNova-5.5-Pro-20250113 | 商汤 | 64 | 70 | 90 | 70 | 45 | 45 | API | 2025.03.06 |
4 | GLM-4V-Plus-0111 | 智谱AI | 60 | 75 | 90 | 70 | 20 | 45 | API | 2025.03.06 |
- | Claude-3.7-Sonnet | Anthropic | 59 | 75 | 95 | 45 | 40 | 40 | API | 2025.03.06 |
5 | ERNIE-4.0-Turbo | 百度 | 54 | 75 | 95 | 60 | 25 | 15 | 官网 | 2025.03.06 |
- | o3-mini-high | OpenAI | 53 | 70 | 90 | 40 | 30 | 35 | 官网 | 2025.03.06 |
5 | Hunyuan-turbo-vision-20241126 | 腾讯 | 53 | 80 | 95 | 55 | 10 | 25 | API | 2025.03.06 |
6 | InternVL2.5-38B | 上海AI Lab | 51 | 60 | 85 | 65 | 30 | 15 | 模型 | 2025.03.06 |
6 | K1.5 长思考 | 月之暗面 | 50 | 70 | 80 | 45 | 15 | 40 | 官网 | 2025.03.06 |
6 | GLM-4v-9B | 智谱AI | 50 | 70 | 85 | 60 | 20 | 15 | 模型 | 2025.03.06 |
7 | MiniCPM-o-2.6 | 面壁智能 | 45 | 45 | 85 | 45 | 30 | 20 | 模型 | 2025.03.06 |
8 | 讯飞星火视觉模型 | 科大讯飞 | 39 | 70 | 90 | 5 | 15 | 15 | API | 2025.03.06 |
8 | Qwen2.5-vl-3b-instruct | 阿里巴巴 | 39 | 45 | 75 | 55 | 10 | 10 | API | 2025.03.06 |
8 | Yi-Vision-V2 | 零一万物 | 38 | 45 | 90 | 25 | 15 | 15 | API | 2025.03.06 |
9 | InternVL2.5-2B | 上海AI Lab | 34 | 45 | 65 | 45 | 15 | 0 | 模型 | 2025.03.06 |
排名 | 模型名称 | 机构 | 分数 | 数学推理 | 代码推理 | 科学推理 | 图表推理 | 空间推理 | 逻辑推理 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|
🏅️ | Doubao-1.5-vision-pro-32k | 字节跳动 | 69 | 64.71 | 93.75 | 94.12 | 82.35 | 37.5 | 41.18 | API | 2025.03.06 |
- | Gemini-2.0-Flash-Thinking-Exp-01-21 | Google | 60 | 52.94 | 93.75 | 76.47 | 70.59 | 25 | 41.18 | API | 2025.03.06 |
🥈 | Qwen2.5-vl-72b-instruct | 阿里巴巴 | 55 | 29.41 | 87.5 | 47.06 | 76.47 | 37.5 | 52.94 | API | 2025.03.06 |
🥈 | K1.5 长思考 | 月之暗面 | 55 | 47.06 | 81.25 | 41.18 | 64.71 | 43.75 | 52.94 | 官网 | 2025.03.06 |
- | ChatGPT-4o-latest | OpenAI | 53 | 29.41 | 100 | 47.06 | 70.59 | 37.5 | 35.29 | API | 2025.03.06 |
🥉 | SenseNova-5.5-Pro-20250113 | 商汤 | 52 | 29.41 | 87.5 | 58.82 | 64.71 | 50 | 23.53 | API | 2025.03.06 |
4 | Hunyuan-turbo-vision-20241126 | 腾讯 | 49 | 11.76 | 87.5 | 58.82 | 64.71 | 31.25 | 41.18 | API | 2025.03.06 |
- | Claude-3.7-Sonnet | Anthropic | 49 | 23.53 | 93.75 | 35.29 | 76.47 | 31.25 | 35.29 | API | 2025.03.06 |
5 | Step-1o-vision-32k | 阶跃星辰 | 46 | 35.29 | 56.25 | 47.06 | 70.59 | 50 | 17.65 | API | 2025.03.06 |
6 | GLM-4V-Plus-0111 | 智谱AI | 44 | 11.76 | 68.75 | 47.06 | 76.47 | 31.25 | 29.41 | API | 2025.03.06 |
7 | InternVL2.5-38B | 上海AI Lab | 37 | 5.88 | 75 | 35.29 | 58.82 | 31.25 | 17.65 | 模型 | 2025.03.06 |
- | o3-mini-high | OpenAI | 36 | 17.65 | 87.5 | 23.53 | 52.94 | 25 | 11.76 | 官网 | 2025.03.06 |
7 | Qwen2.5-vl-3b-instruct | 阿里巴巴 | 36 | 5.88 | 68.75 | 47.06 | 52.94 | 18.75 | 23.53 | API | 2025.03.06 |
8 | ERNIE-4.0-Turbo | 百度 | 33 | 23.53 | 62.5 | 23.53 | 47.06 | 25 | 17.65 | 官网 | 2025.03.06 |
9 | InternVL2.5-2B | 上海AI Lab | 30 | 5.88 | 56.25 | 23.53 | 41.18 | 31.25 | 23.53 | 模型 | 2025.03.06 |
10 | MiniCPM-o-2.6 | 面壁智能 | 29 | 5.88 | 56.25 | 23.53 | 47.06 | 31.25 | 11.76 | 模型 | 2025.03.06 |
10 | Yi-Vision-V2 | 零一万物 | 29 | 11.76 | 68.75 | 17.65 | 41.18 | 25 | 11.76 | API | 2025.03.06 |
11 | GLM-4v-9B | 智谱AI | 28 | 5.88 | 62.5 | 11.76 | 58.82 | 31.25 | 0 | API | 2025.03.06 |
12 | 讯飞星火视觉模型 | 科大讯飞 | 18 | 0 | 37.5 | 29.41 | 5.88 | 31.25 | 5.88 | API | 2025.03.06 |
排名 | 模型名称 | 机构 | 分数 | 图形界面操作 | 物理环境交互 | 自动驾驶 | 医疗影像分析 | 内容审核 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|
- | ChatGPT-4o-latest | OpenAI | 63 | 65 | 55 | 70 | 30 | 95 | API | 2025.03.06 |
- | Gemini-2.0-Flash-Thinking-Exp-01-21 | Google | 58 | 80 | 60 | 65 | 20 | 65 | API | 2025.03.06 |
🏅️ | Step-1o-vision-32k | 阶跃星辰 | 57 | 70 | 55 | 60 | 20 | 80 | API | 2025.03.06 |
🏅️ | Doubao-1.5-vision-pro-32k | 字节跳动 | 57 | 70 | 60 | 60 | 25 | 70 | API | 2025.03.06 |
🥈 | Qwen2.5-vl-72b-instruct | 阿里巴巴 | 53 | 65 | 50 | 60 | 15 | 75 | API | 2025.03.06 |
🥉 | SenseNova-5.5-Pro-20250113 | 商汤 | 50 | 45 | 55 | 60 | 20 | 70 | API | 2025.03.06 |
4 | GLM-4V-Plus-0111 | 智谱AI | 46 | 50 | 35 | 60 | 15 | 70 | API | 2025.03.06 |
4 | InternVL2.5-38B | 上海AI Lab | 45 | 40 | 45 | 65 | 10 | 65 | 模型 | 2025.03.06 |
5 | K1.5 长思考 | 月之暗面 | 37 | 45 | 40 | 50 | 10 | 40 | 官网 | 2025.03.06 |
- | Claude-3.7-Sonnet | Anthropic | 36 | 35 | 35 | 45 | 15 | 50 | API | 2025.03.06 |
- | o3-mini-high | OpenAI | 36 | 30 | 35 | 35 | 25 | 55 | 官网 | 2025.03.06 |
6 | ERNIE-4.0-Turbo | 百度 | 35 | 30 | 35 | 45 | 10 | 55 | 官网 | 2025.03.06 |
7 | Hunyuan-turbo-vision-20241126 | 腾讯 | 33 | 20 | 30 | 60 | 10 | 45 | API | 2025.03.06 |
8 | MiniCPM-o-2.6 | 面壁智能 | 26 | 25 | 30 | 50 | 0 | 25 | 模型 | 2025.03.06 |
8 | GLM-4v-9B | 智谱AI | 26 | 25 | 25 | 50 | 0 | 30 | 模型 | 2025.03.06 |
9 | Yi-Vision-V2 | 零一万物 | 24 | 20 | 25 | 45 | 0 | 30 | API | 2025.03.06 |
10 | Qwen2.5-vl-3b-instruct | 阿里巴巴 | 21 | 15 | 40 | 45 | 0 | 5 | API | 2025.03.06 |
11 | InternVL2.5-2B | 上海AI Lab | 19 | 25 | 20 | 35 | 0 | 15 | 模型 | 2025.03.06 |
12 | 讯飞星火视觉模型 | 科大讯飞 | 13 | 0 | 20 | 20 | 5 | 20 | API | 2025.03.06 |
排名 | 模型 | 机构 | 总分 | 功能完整性 | 代码质量 | 用户体验 | 使用
方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | o3-mini-high | OpenAI | 82.08 | 84.28 | 78.22 | 79.41 | API | 2025.2.27 |
- | Gemini-2.5-Pro-Experimental-03-25 | 谷歌 | 81.75 | 84.41 | 79.71 | 71.89 | API | 2025.3.27 |
- | Claude-3.7-Sonnet-Reasoning | Anthropic | 81.63 | 82.55 | 77.73 | 85.46 | POE | 2025.2.27 |
🏅️ | DeepSeek-V3-0324 | 深度求索 | 79.43 | 81.41 | 76.11 | 75.58 | API | 2025.3.25 |
🏅️ | DeepSeek-R1 | 深度求索 | 78.59 | 81.67 | 75.28 | 68.95 | API | 2025.2.27 |
- | Gemini-2.0-pro | 谷歌 | 78.41 | 80.74 | 75.78 | 72.4 | API | 2025.2.27 |
🥈 | hunyuan-t1-20250321 | 腾讯云 | 77.94 | 80.06 | 75.79 | 71.41 | API | 2025.4.01 |
- | Claude-3.5-Sonnet | Anthropic | 77.94 | 78.4 | 75.21 | 78.1 | API | 2025.2.27 |
🥉 | QwQ-32B | 阿里 | 76.55 | 79.12 | 74.18 | 68.6 | API | 2025.3.28 |
- | GPT-4o-latest-128k | OpenAI | 75.45 | 77.35 | 73.46 | 69.28 | API | 2025.2.27 |
4 | Qwen-Max-20250125 | 阿里 | 75.2 | 77.48 | 73.6 | 66.83 | API | 2025.2.27 |
4 | K1.5 长思考 | 月之暗面 | 74.45 | 76.76 | 72.76 | 64.87 | 官网 | 2025.2.27 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | Meta | 73.8 | 76.82 | 71.27 | 63.37 | API | 2025.4.08 |
5 | Step R-mini | 阶跃星辰 | 73.61 | 75.49 | 72.69 | 64.71 | 官网 | 2025.2.27 |
5 | Doubao-1.5-pro-256k | 字节跳动 | 73.41 | 76.01 | 71.64 | 60.78 | API | 2025.2.27 |
6 | GLM-Zero-preview | 智谱AI | 71.2 | 72.84 | 71.15 | 59.15 | API | 2025.2.27 |
- | Llama-4-Scout-17B-16E-Instruct | Meta | 67.45 | 69.11 | 69.17 | 55.07 | API | 2025.4.08 |
7 | Spark4.0-ultra | 科大讯飞 | 66.47 | 68.2 | 69.89 | 48.53 | API | 2025.2.27 |
排名 | 模型 | 游戏开发 | 发布日期 |
---|---|---|---|
- | Claude-3.7-Sonnet-Reasoning | 82.17 | 2025.2.27 |
- | o3-mini-high | 81.75 | 2025.2.27 |
🏅️ | DeepSeek-V3-0324 | 80.25 | 2025.3.25 |
- | Gemini-2.5-Pro-Experimental-03-25 | 80 | 2025.3.27 |
🏅️ | DeepSeek-R1 | 79.58 | 2025.2.27 |
- | Claude-3.5-Sonnet | 78.58 | 2025.2.27 |
🥈 | hunyuan-t1-20250321 | 77.08 | 2025.4.01 |
- | Gemini-2.0-pro | 77 | 2025.2.27 |
- | GPT-4o-latest-128k | 75.08 | 2025.2.27 |
🥉 | QwQ-32B | 74.92 | 2025.3.28 |
🥉 | Qwen-Max-20250125 | 74.92 | 2025.2.27 |
🥉 | K1.5 长思考 | 74.25 | 2025.2.27 |
4 | Doubao-1.5-pro-256k | 73.08 | 2025.2.27 |
4 | Step R-mini | 72.83 | 2025.2.27 |
5 | GLM-Zero-preview | 71.25 | 2025.2.27 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | 71.25 | 2025.4.08 |
- | Llama-4-Scout-17B-16E-Instruct | 66.08 | 2025.4.08 |
6 | Spark4.0-ultra | 62.17 | 2025.2.27 |
排名 | 模型 | 快捷工具 | 发布日期 |
---|---|---|---|
- | o3-mini-high | 82.5 | 2025.2.27 |
- | Claude-3.7-Sonnet-Reasoning | 82.33 | 2025.2.27 |
- | Gemini-2.5-Pro-Experimental-03-25 | 81.83 | 2025.3.27 |
🏅️ | DeepSeek-V3-0324 | 78.92 | 2025.3.25 |
🏅️ | QwQ-32B | 78.92 | 2025.3.28 |
- | Gemini-2.0-pro | 78.83 | 2025.2.27 |
🏅️ | DeepSeek-R1 | 78.25 | 2025.2.27 |
🥈 | hunyuan-t1-20250321 | 77.67 | 2025.4.01 |
- | Claude-3.5-Sonnet | 76.92 | 2025.2.27 |
🥉 | Qwen-Max-20250125 | 76.33 | 2025.2.27 |
- | GPT-4o-latest-128k | 76.33 | 2025.2.27 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | 75.92 | 2025.4.08 |
4 | Step R-mini | 74.58 | 2025.2.27 |
4 | K1.5 长思考 | 73.67 | 2025.2.27 |
5 | Doubao-1.5-pro-256k | 72.08 | 2025.2.27 |
6 | GLM-Zero-preview | 70.5 | 2025.2.27 |
- | Llama-4-Scout-17B-16E-Instruct | 68.78 | 2025.4.08 |
7 | Spark4.0-ultra | 68.25 | 2025.2.27 |
排名 | 模型 | 网络应用 | 发布日期 |
---|---|---|---|
- | o3-mini-high | 83.67 | 2025.2.27 |
- | Gemini-2.5-Pro-Experimental-03-25 | 83.8 | 2025.3.27 |
- | Claude-3.7-Sonnet-Reasoning | 83.47 | 2025.2.27 |
🏅️ | DeepSeek-V3-0324 | 81.31 | 2025.3.25 |
- | Claude-3.5-Sonnet | 81.07 | 2025.2.27 |
- | Gemini-2.0-pro | 80.6 | 2025.2.27 |
🏅️ | DeepSeek-R1 | 80.53 | 2025.2.27 |
🏅️ | hunyuan-t1-20250321 | 80.53 | 2025.4.01 |
- | GPT-4o-latest-128k | 78.93 | 2025.2.27 |
🥈 | QwQ-32B | 78.53 | 2025.3.28 |
🥉 | K1.5 长思考 | 77.4 | 2025.2.27 |
🥉 | Qwen-Max-20250125 | 77.13 | 2025.2.27 |
🥉 | Doubao-1.5-pro-256k | 77 | 2025.2.27 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | 76.47 | 2025.4.08 |
🥉 | GLM-Zero-preview | 75.4 | 2025.2.27 |
4 | Step R-mini | 74.73 | 2025.2.27 |
- | Llama-4-Scout-17B-16E-Instruct | 70.87 | 2025.4.08 |
5 | Spark4.0-ultra | 69.8 | 2025.2.27 |
排名 | 模型 | 管理系统 | 发布日期 |
---|---|---|---|
- | Gemini-2.5-Pro-Experimental-03-25 | 80 | 2025.3.27 |
- | o3-mini-high | 78.4 | 2025.2.27 |
- | Claude-3.7-Sonnet-Reasoning | 77.2 | 2025.2.27 |
🏅️ | hunyuan-t1-20250321 | 76.8 | 2025.4.01 |
- | Gemini-2.0-pro | 76.67 | 2025.2.27 |
🏅️ | DeepSeek-V3-0324 | 75.87 | 2025.3.25 |
🥈 | DeepSeek-R1 | 74.93 | 2025.2.27 |
- | Claude-3.5-Sonnet | 73.87 | 2025.2.27 |
🥉 | Qwen-Max-20250125 | 72.67 | 2025.2.27 |
🥉 | QwQ-32B | 72.27 | 2025.3.28 |
- | GPT-4o-latest-128k | 71.6 | 2025.2.27 |
4 | K1.5 长思考 | 70.8 | 2025.2.27 |
4 | Step R-mini | 70.4 | 2025.2.27 |
4 | Doubao-1.5-pro-256k | 70.27 | 2025.2.27 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | 69.87 | 2025.4.08 |
5 | GLM-Zero-preview | 66.4 | 2025.2.27 |
6 | Spark4.0-ultra | 64.53 | 2025.2.27 |
- | Llama-4-Scout-17B-16E-Instruct | 64.4 | 2025.4.08 |
排名 | 模型 | 多媒体编辑 | 发布日期 |
---|---|---|---|
- | o3-mini-high | 82.67 | 2025.2.27 |
- | Gemini-2.5-Pro-Experimental-03-25 | 82.22 | 2025.3.27 |
- | Claude-3.7-Sonnet-Reasoning | 79.56 | 2025.2.27 |
🏅️ | DeepSeek-V3-0324 | 78.44 | 2025.3.25 |
- | Gemini-2.0-pro | 76.61 | 2025.2.27 |
🥈 | DeepSeek-R1 | 76.44 | 2025.2.27 |
- | Claude-3.5-Sonnet | 75.33 | 2025.2.27 |
🥉 | QwQ-32B | 75.11 | 2025.3.28 |
🥉 | Step R-mini | 74.67 | 2025.2.27 |
🥉 | hunyuan-t1-20250321 | 74.22 | 2025.4.01 |
4 | K1.5 长思考 | 73.33 | 2025.2.27 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | 72.67 | 2025.4.08 |
5 | Doubao-1.5-pro-256k | 71.11 | 2025.2.27 |
5 | Qwen-Max-20250125 | 70.67 | 2025.2.27 |
- | GPT-4o-latest-128k | 68.89 | 2025.2.27 |
6 | GLM-Zero-preview | 66.89 | 2025.2.27 |
7 | Spark4.0-ultra | 65.33 | 2025.2.27 |
- | Llama-4-Scout-17B-16E-Instruct | 61.33 | 2025.4.08 |
排名 | 模型 | 机构 | 总分 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
- | Gemini-2.5-Pro-Experimental-03-25 | Google | 92.54 | API | 2025.3.27 |
🏅️ | QwQ-32B | 阿里云 | 91.04 | API | 2025.3.28 |
- | o3-mini(high) | OpenAI | 89.55 | API | 2025.2.10 |
🥈 | DeepSeek-R1 | 深度求索 | 87.31 | API | 2025.2.05 |
🥈 | hunyuan-t1-20250321 | 腾讯云 | 87.31 | API | 2025.4.01 |
🥉 | QwQ-Max-Preview | 阿里云 | 83.97 | 网页 | 2025.2.26 |
- | Gemini 2.0 Flash Thinking | Google | 80.6 | API | 2025.2.10 |
- | o1 | OpenAI | 77.61 | 官网 | 2025.1.21 |
- | Claude-3.7-Sonnet-Reasoning | Anthropic | 69.4 | POE | 2025.2.27 |
4 | GLM-Zero-Preview | 智谱AI | 69.4 | API | 2025.1.21 |
5 | DeepSeek-V3-0324 | 深度求索 | 67.91 | API | 2025.3.25 |
5 | QwQ-32B-Preview | 阿里云 | 67.91 | API | 2025.1.21 |
6 | Deepseek-R1-Lite-Preview | 深度求索 | 61.19 | 官网 | 2025.1.21 |
6 | InternThinker | 上海AI实验室 | 60.45 | 官网 | 2025.1.21 |
7 | Doubao-pro-32k-241215 | 字节跳动 | 48.51 | API | 2025.1.21 |
8 | 讯飞星火 X1 | 科大讯飞 | 47.01 | 官网 | 2025.1.21 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | Meta | 47.01 | API | 2025.4.08 |
9 | Deepseek-V3 | 深度求索 | 45.52 | API | 2025.1.21 |
- | Gemini-2.0-Flash-Exp | Google | 44.78 | 官网 | 2025.1.21 |
10 | 360zhinao2 | 360 | 37.31 | API | 2025.1.21 |
11 | Qwen2.5-Max | 阿里云 | 33.58 | API | 2025.2.06 |
- | Llama-4-Scout-17B-16E-Instruct | Meta | 24.63 | API | 2025.4.08 |
- | Claude 3.5 Sonnet(20241022) | Anthropic | 17.91 | POE | 2025.1.21 |
排名 | 模型 | 机构 | 总分 | 物理 | 化学 | 生物 | 推理
等级 | 使用
方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|
- | o3-mini(high) | OpenAI | 79.12 | 84.97 | 70.25 | 85.14 | 7级 | API | 2025.3.03 |
- | Gemini-2.5-Pro-Experimental-03-25 | Google | 77.23 | 79.74 | 72.96 | 80.48 | 7级 | API | 2025.3.27 |
- | Claude-3.7-Sonnet-Reasoning | Anthropic | 73.73 | 81.08 | 62.81 | 80.38 | 7级 | POE | 2025.2.27 |
🏅️ | DeepSeek-R1 | 深度求索 | 73.64 | 77.99 | 65.83 | 80.67 | 7级 | API | 2025.1.22 |
- | o1 | OpenAI | 72.63 | 75.06 | 65.94 | 80.86 | 7级 | 官网 | 2025.1.22 |
🥈 | DeepSeek-V3-0324 | 深度求索 | 72.48 | 75.33 | 65.49 | 80.48 | 7级 | API | 2025.3.25 |
🥈 | QwQ-Max-Preview | 阿里云 | 72.2 | 79.42 | 63.95 | 74.48 | 7级 | 官网 | 2025.2.26 |
- | chatgpt-4o-latest | OpenAI | 69.61 | 70.31 | 60.32 | 86 | 6级 | API | 2025.1.22 |
- | Gemini-2.0-Flash-Exp | Google | 69.22 | 69.59 | 65.16 | 76.1 | 6级 | API | 2025.1.22 |
3 | QwQ-32B | 阿里云 | 68.67 | 74.18 | 59.78 | 74.95 | 6级 | API | 2025.3.28 |
4 | GLM-Zero-Preview | 智谱AI | 65.74 | 70.82 | 54.2 | 78.29 | 6级 | API | 2025.1.22 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | Meta | 64.9 | 66.26 | 59.5 | 72.67 | 6级 | API | 2025.4.08 |
- | Claude-3.5-Sonnet(1022) | Anthropic | 63.64 | 59.59 | 61.19 | 75.71 | 6级 | API | 2025.1.22 |
5 | DeepSeek-R1-Lite-Preview | 深度求索 | 62.68 | 69.38 | 54.87 | 64 | 6级 | 官网 | 2025.1.22 |
6 | Kimi-k1 | 月之暗面 | 61.04 | 65.33 | 55.1 | 64.38 | 6级 | 官网 | 2025.1.22 |
- | Llama-4-Scout-17B-16E-Instruct | Meta | 61 | 60.77 | 57.1 | 68.86 | 6级 | API | 2025.4.08 |
6 | InternThinker | 上海AI实验室 | 60.19 | 61.13 | 54.53 | 68.95 | 6级 | 官网 | 2025.1.22 |
7 | QwQ-32B-Preview | 阿里云 | 58.08 | 66.77 | 46.2 | 64.57 | 5级 | API | 2025.1.22 |
排名 | 模型 | 机构 | 物理 | 推理等级 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|
- | o3-mini(high) | OpenAI | 84.97 | 8级 | API | 2025.3.03 |
- | Claude-3.7-Sonnet-Reasoning | Anthropic | 81.08 | 8级 | POE | 2025.2.27 |
- | Gemini-2.5-Pro-Experimental-03-25 | Google | 79.74 | 7级 | API | 2025.3.27 |
🏅️ | QwQ-Max-Preview | 阿里云 | 79.42 | 7级 | 官网 | 2025.2.26 |
🥈 | DeepSeek-R1 | 深度求索 | 77.99 | 7级 | API | 2025.1.22 |
🥉 | DeepSeek-V3-0324 | 深度求索 | 75.33 | 7级 | API | 2025.3.25 |
- | o1 | OpenAI | 75.06 | 7级 | 官网 | 2025.1.22 |
4 | QwQ-32B | 阿里云 | 74.18 | 7级 | API | 2025.3.28 |
5 | GLM-Zero-Preview | 智谱AI | 70.82 | 7级 | API | 2025.1.22 |
- | chatgpt-4o-latest | OpenAI | 70.31 | 7级 | API | 2025.1.22 |
- | Gemini-2.0-Flash-Exp | Google | 69.59 | 6级 | API | 2025.1.22 |
6 | Deepseek-R1-Lite-Preview | 深度求索 | 69.38 | 6级 | 官网 | 2025.1.22 |
7 | QwQ-32B-Preview | 阿里云 | 66.77 | 6级 | API | 2025.1.22 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | Meta | 66.26 | 6级 | API | 2025.4.08 |
8 | Kimi_k1 | 月之暗面 | 65.33 | 6级 | 官网 | 2025.1.22 |
9 | InternThinker | 上海AI实验室 | 61.13 | 6级 | 官网 | 2025.1.22 |
- | Llama-4-Scout-17B-16E-Instruct | Meta | 60.77 | 6级 | API | 2025.4.08 |
- | Claude-3.5-Sonnet(1022) | Anthropic | 59.59 | 5级 | API | 2025.1.22 |
排名 | 模型 | 机构 | 化学 | 推理等级 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|
- | Gemini-2.5-Pro-Experimental-03-25 | Google | 72.76 | 7级 | API | 2025.3.27 |
- | o3-mini(high) | OpenAI | 70.25 | 7级 | API | 2025.3.03 |
- | o1 | OpenAI | 65.94 | 6级 | 官网 | 2025.1.22 |
🏅️ | DeepSeek-R1 | 深度求索 | 65.83 | 6级 | API | 2025.1.22 |
🏅️ | DeepSeek-V3-0324 | 深度求索 | 65.49 | 6级 | API | 2025.3.25 |
- | Gemini-2.0-Flash-Exp | Google | 65.16 | 6级 | API | 2025.1.22 |
🥈 | QwQ-Max-Preview | 阿里云 | 63.95 | 6级 | 官网 | 2025.2.26 |
- | Claude-3.7-Sonnet-Reasoning | Anthropic | 62.81 | 6级 | POE | 2025.2.27 |
- | Claude-3.5-Sonnet(1022) | Anthropic | 61.19 | 6级 | API | 2025.1.22 |
- | chatgpt-4o-latest | OpenAI | 60.32 | 6级 | API | 2025.1.22 |
🥉 | QwQ-32B | 阿里云 | 59.78 | 5级 | API | 2025.3.28 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | Meta | 59.5 | 5级 | API | 2025.4.08 |
- | Llama-4-Scout-17B-16E-Instruct | Meta | 57.1 | 5级 | API | 2025.4.08 |
4 | Kimi_k1 | 月之暗面 | 55.1 | 5级 | 官网 | 2025.1.22 |
4 | Deepseek-R1-Lite-Preview | 深度求索 | 54.87 | 5级 | 官网 | 2025.1.22 |
4 | InternThinker | 上海AI实验室 | 54.53 | 5级 | 官网 | 2025.1.22 |
4 | GLM-Zero-Preview | 智谱AI | 54.2 | 5级 | API | 2025.1.22 |
5 | QwQ-32B-Preview | 阿里云 | 46.2 | 4级 | API | 2025.1.22 |
排名 | 模型 | 机构 | 生物 | 推理等级 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|
- | chatgpt-4o-latest | OpenAI | 86 | 8级 | API | 2025.1.22 |
- | o3-mini(high) | OpenAI | 85.14 | 8级 | API | 2025.3.03 |
- | o1 | OpenAI | 80.86 | 8级 | 官网 | 2025.1.22 |
🥈 | DeepSeek-R1 | 深度求索 | 80.67 | 8级 | API | 2025.1.22 |
🥈 | DeepSeek-V3-0324 | 深度求索 | 80.48 | 8级 | API | 2025.3.25 |
- | Gemini-2.5-Pro-Experimental-03-25 | Google | 80.48 | 8级 | API | 2025.3.27 |
- | Claude-3.7-Sonnet-Reasoning | Anthropic | 80.38 | 8级 | POE | 2025.2.27 |
🥉 | GLM-Zero-Preview | 智谱AI | 78.29 | 7级 | API | 2025.1.22 |
- | Gemini-2.0-Flash-Exp | Google | 76.1 | 7级 | API | 2025.1.22 |
- | Claude-3.5-Sonnet(1022) | Anthropic | 75.71 | 7级 | API | 2025.1.22 |
4 | QwQ-32B | 阿里云 | 74.95 | 7级 | API | 2025.3.28 |
4 | QwQ-Max-Preview | 阿里云 | 74.48 | 7级 | 官网 | 2025.2.26 |
- | Llama-4-Maverick-17B-128E-Instruct-FP8 | Meta | 72.67 | 7级 | API | 2025.4.08 |
5 | InternThinker | 上海AI实验室 | 68.95 | 6级 | 官网 | 2025.1.22 |
- | Llama-4-Scout-17B-16E-Instruct | Meta | 68.86 | 6级 | API | 2025.4.08 |
6 | QwQ-32B-Preview | 阿里云 | 64.57 | 6级 | API | 2025.1.22 |
6 | Kimi_k1 | 月之暗面 | 64.38 | 6级 | 官网 | 2025.1.22 |
6 | Deepseek-R1-Lite-Preview | 深度求索 | 64 | 6级 | 官网 | 2025.1.22 |
排名 | 模型 | 机构 | 总分 | 常规多轮对话 | 函数缺失 | 参数缺失 | 长上下文干扰 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|
- | Claude-3.5-Sonnet(1022) | Anthropic | 46.35 | 64.29 | 42.86 | 52.17 | 26.09 | API | 2025.02.14 |
- | gpt-4o-2024-11-20 | OpenAI | 42.88 | 64 | 34.62 | 38.1 | 34.78 | API | 2025.02.14 |
- | Gemini-2.0-Flash-Exp | Google | 36.6 | 50 | 28.57 | 47.83 | 20 | API | 2025.02.14 |
🏅️ | Doubao-1.5-pro-32k-250115 | 字节跳动 | 36.57 | 53.57 | 28.57 | 39.13 | 25 | API | 2025.02.14 |
- | gpt-4o-mini | OpenAI | 34.34 | 46.15 | 23.08 | 33.33 | 34.78 | API | 2025.02.14 |
🥈 | Moonshot-V1-128k | 月之暗面 | 31.23 | 53.57 | 28.57 | 34.78 | 8 | API | 2025.02.14 |
🥉 | Qwen-2.5-72B-Chat | 阿里云 | 30.13 | 46.43 | 14.29 | 34.78 | 25 | API | 2025.02.14 |
4 | GLM4-plus | 智谱AI | 28.49 | 50 | 17.86 | 26.09 | 20 | API | 2025.02.14 |
5 | GLM4-9B-Chat | 智谱AI | 24.13 | 42.86 | 10.71 | 30.43 | 12.5 | 模型 | 2025.02.14 |
6 | DeepSeek-V3 | 深度求索 | 21.7 | 39.29 | 7.14 | 26.09 | 14.29 | API | 2025.02.14 |
7 | Qwen-2.5-7B-Chat | 阿里云 | 15.36 | 25 | 10.71 | 17.39 | 8.33 | API | 2025.02.14 |
- | Llama-3.1-8B-Instruct | Meta | 0.89 | 3.57 | 0 | 0 | 0 | 模型 | 2025.02.14 |
排名 | 名称 | 机构 | 总分 | 基础检索能力 | 分析推理能力 | 平均耗时(秒/题) | 测评日期 |
---|---|---|---|---|---|---|---|
🥇 | 腾讯元宝 | 腾讯 | 80.61 | 100 | 55.81 | 39.69 | 2025.3.11 |
🥈 | 阶跃AI | 阶跃星辰 | 74.49 | 100 | 41.86 | 41.1 | 2025.3.11 |
🥉 | 支付宝百宝箱 | 蚂蚁集团 | 73.47 | 96.36 | 44.19 | 45.27 | 2025.3.11 |
4 | 百度AI搜索 | 百度 | 70.41 | 100 | 32.56 | 41.57 | 2025.3.11 |
4 | 天工AI(高级模式) | 昆仑万维 | 70.41 | 87.27 | 48.84 | 54.69 | 2025.3.11 |
5 | 飞书知识问答 | 字节跳动 | 65.31 | 92.73 | 30.23 | 35.8 | 2025.3.11 |
5 | 秘塔AI搜索(深入模式) | 秘塔科技 | 65.31 | 96.36 | 25.58 | 58.58 | 2025.3.11 |
5 | 纳米AI搜索 | 360 | 65.31 | 96.36 | 25.58 | 36.04 | 2025.3.11 |
6 | 字节火山引擎 | 字节跳动 | 64.29 | 94.55 | 25.58 | 17.12 | 2025.3.11 |
7 | MiniMax | MiniMax | 61.22 | 90.91 | 23.26 | 73.51 | 2025.3.11 |
排名 | 名称 | 机构 | 基础检索能力 | 文化生活 | 时政新闻 | 经济生活 | 测评日期 |
---|---|---|---|---|---|---|---|
🥇 | 阶跃AI | 阶跃星辰 | 100 | 100 | 100 | 100 | 2025.3.11 |
🥇 | 腾讯元宝 | 腾讯 | 100 | 100 | 100 | 100 | 2025.3.11 |
🥇 | 百度AI搜索 | 百度 | 100 | 100 | 100 | 100 | 2025.3.11 |
🥈 | 支付宝百宝箱 | 蚂蚁集团 | 96.36 | 100 | 92.86 | 93.33 | 2025.3.11 |
🥈 | 纳米AI搜索 | 360 | 96.36 | 100 | 100 | 86.67 | 2025.3.11 |
🥈 | 秘塔AI搜索(深入模式) | 秘塔科技 | 96.36 | 92.31 | 100 | 100 | 2025.3.11 |
🥉 | 字节火山引擎 | 字节跳动 | 94.55 | 96.15 | 92.86 | 93.33 | 2025.3.11 |
4 | 飞书知识问答 | 字节跳动 | 92.73 | 92.31 | 85.71 | 100 | 2025.3.11 |
5 | MiniMax | MiniMax | 90.91 | 88.46 | 92.86 | 93.33 | 2025.3.11 |
6 | 天工AI(高级模式) | 昆仑万维 | 87.27 | 96.15 | 78.57 | 80 | 2025.3.11 |
排名 | 名称 | 机构 | 分析推理能力 | 推理计算 | 数据检索与分析 | 分析排序 | 测评日期 |
---|---|---|---|---|---|---|---|
🥇 | 腾讯元宝 | 腾讯 | 55.81 | 50 | 38.46 | 83.33 | 2025.3.11 |
🥈 | 天工AI(高级模式) | 昆仑万维 | 48.84 | 33.33 | 38.46 | 83.33 | 2025.3.11 |
🥉 | 支付宝百宝箱 | 蚂蚁集团 | 44.19 | 38.89 | 38.46 | 58.33 | 2025.3.11 |
4 | 阶跃AI | 阶跃星辰 | 41.86 | 44.44 | 38.46 | 41.67 | 2025.3.11 |
5 | 百度AI搜索 | 百度 | 32.56 | 27.78 | 46.15 | 25 | 2025.3.11 |
6 | 飞书知识问答 | 字节跳动 | 30.23 | 38.89 | 30.77 | 16.67 | 2025.3.11 |
7 | 字节火山引擎 | 字节跳动 | 25.58 | 22.22 | 23.08 | 33.33 | 2025.3.11 |
7 | 秘塔AI搜索(深入模式) | 秘塔科技 | 25.58 | 5.56 | 38.46 | 41.67 | 2025.3.11 |
7 | 纳米AI搜索 | 360 | 25.58 | 22.22 | 30.77 | 25 | 2025.3.11 |
8 | MiniMax | MiniMax | 23.26 | 27.78 | 23.08 | 16.67 | 2025.3.11 |
排名 | 名称 | 机构 | 完整回复率(%) | 截断率(%) | 无回复率(%) | 测评日期 |
---|---|---|---|---|---|---|
🥇 | 飞书知识问答 | 字节跳动 | 100 | 0 | 0 | 2025.3.11 |
🥇 | 腾讯元宝 | 腾讯 | 100 | 0 | 0 | 2025.3.11 |
🥇 | 阶跃AI | 阶跃星辰 | 100 | 0 | 0 | 2025.3.11 |
🥇 | 支付宝百宝箱 | 蚂蚁集团 | 100 | 0 | 0 | 2025.3.11 |
🥈 | 秘塔AI搜索(深入模式) | 秘塔科技 | 98.98 | 0 | 1.02 | 2025.3.11 |
🥈 | 纳米AI搜索 | 360 | 98.98 | 1.02 | 0 | 2025.3.11 |
🥈 | 天工AI(高级模式) | 昆仑万维 | 98.98 | 0 | 1.02 | 2025.3.11 |
🥉 | MiniMax | MiniMax | 95.92 | 2.04 | 2.04 | 2025.3.11 |
4 | 百度AI搜索 | 百度 | 93.88 | 6.12 | 0 | 2025.3.11 |
5 | 字节火山引擎 | 字节跳动 | 87.76 | 0 | 12.24 | 2025.3.11 |
排名 | 名称 | 机构 | 平均耗时(秒/题) | 基础检索能力平均耗时 | 分析推理能力平均耗时 | 测评日期 |
---|---|---|---|---|---|---|
🥇 | 字节火山引擎 | 字节跳动 | 17.12 | 13.82 | 22.69 | 2025.3.11 |
🥈 | 飞书知识问答 | 字节跳动 | 35.8 | 24.89 | 49.74 | 2025.3.11 |
🥈 | 纳米AI搜索 | 360 | 36.04 | 26.11 | 49.05 | 2025.3.11 |
🥉 | 腾讯元宝 | 腾讯 | 39.69 | 28.4 | 54.14 | 2025.3.11 |
4 | 阶跃AI | 阶跃星辰 | 41.1 | 20.78 | 67.09 | 2025.3.11 |
4 | 百度AI搜索 | 百度 | 41.57 | 31.65 | 56.3 | 2025.3.11 |
5 | 支付宝百宝箱 | 蚂蚁集团 | 45.27 | 24.09 | 72.37 | 2025.3.11 |
6 | 天工AI(高级模式) | 昆仑万维 | 54.69 | 44.19 | 67.88 | 2025.3.11 |
7 | 秘塔AI搜索(深入模式) | 秘塔科技 | 58.58 | 28.56 | 96.28 | 2025.3.11 |
8 | MiniMax | MiniMax | 73.51 | 48.91 | 105.32 | 2025.3.11 |
第三方平台 | 机构 | 完整
回复率 | 截断率 | 无回复率 | 准确率 | 每秒输出token数量 | 首token输出平均耗时/s | 获取答案的平均耗时/s | 测评日期 |
---|---|---|---|---|---|---|---|---|---|
字节火山引擎 | 字节跳动 | 100% | 0% | 0% | 95.00% | 27.94 | 0.85 | 147.25 | 2025.02.20 |
商汤大装置 | 商汤科技 | 100% | 0% | 0% | 90.00% | 20.63 | 0.7 | 181.85 | 2025.02.20 |
阿里云百炼 | 阿里巴巴 | 100% | 0% | 0% | 70.00% | 6.9 | 1.1 | 569.84 | 2025.02.20 |
硅基流动 | 硅基流动 | 95% | 5% | 0% | 94.74% | 11.76 | 0.64 | 386.58 | 2025.02.20 |
together.ai | together.ai | 95% | 5% | 0% | 89.47% | 55.86 | 0.88 | 74.33 | 2025.02.20 |
腾讯云知识引擎 | 腾讯科技 | 95% | 5% | 0% | 84.21% | 10.97 | 0.82 | 436.82 | 2025.02.20 |
微软云 | Microsoft | 75% | 0% | 25% | 93.33% | 6.89 | 6.65 | 567.01 | 2025.02.20 |
排名 | 第三方平台 | 机构 | 完整
回复率 | 截断率 | 无回复率 | 测评日期 |
---|---|---|---|---|---|---|
🏅️ | 字节火山引擎 | 字节跳动 | 100% | 0% | 0% | 2025.02.20 |
🏅️ | 商汤大装置 | 商汤科技 | 100% | 0% | 0% | 2025.02.20 |
🏅️ | 阿里云百炼 | 阿里巴巴 | 100% | 0% | 0% | 2025.02.20 |
2 | 硅基流动 | 硅基流动 | 95% | 5% | 0% | 2025.02.20 |
2 | together.ai | together.ai | 95% | 5% | 0% | 2025.02.20 |
2 | 腾讯云知识引擎 | 腾讯科技 | 95% | 5% | 0% | 2025.02.20 |
3 | 微软云 | Microsoft | 75% | 0% | 25% | 2025.02.20 |
排名 | 第三方平台 | 机构 | 准确率 | 测评日期 |
---|---|---|---|---|
🏅️ | 字节火山引擎 | 字节跳动 | 95.00% | 2025.02.20 |
🥈 | 硅基流动 | 硅基流动 | 94.74% | 2025.02.20 |
🥉 | 微软云 | Microsoft | 93.33% | 2025.02.20 |
4 | 商汤大装置 | 商汤科技 | 90.00% | 2025.02.20 |
5 | together.ai | together.ai | 89.47% | 2025.02.20 |
6 | 腾讯云知识引擎 | 腾讯科技 | 84.21% | 2025.02.20 |
7 | 阿里云百炼 | 阿里巴巴 | 70.00% | 2025.02.20 |
排名 | 第三方平台 | 机构 | 每秒输出token数量 | 首token输出平均耗时/s | 获取答案的平均耗时/s | 测评日期 |
---|---|---|---|---|---|---|
🏅️ | together.ai | together.ai | 55.86 | 0.88 | 74.33 | 2025.02.20 |
🥈 | 字节火山引擎 | 字节跳动 | 27.94 | 0.85 | 147.25 | 2025.02.20 |
🥉 | 商汤大装置 | 商汤科技 | 20.63 | 0.7 | 181.85 | 2025.02.20 |
4 | 硅基流动 | 硅基流动 | 11.76 | 0.64 | 386.58 | 2025.02.20 |
5 | 腾讯云知识引擎 | 腾讯科技 | 10.97 | 0.82 | 436.82 | 2025.02.20 |
6 | 阿里云百炼 | 阿里巴巴 | 6.9 | 1.1 | 569.84 | 2025.02.20 |
7 | 微软云 | Microsoft | 6.89 | 6.65 | 567.01 | 2025.02.20 |
第三方平台 | 机构 | 属地 | API版本名 | 是否免费 | 测评日期 |
---|---|---|---|---|---|
阿里云百炼 | 阿里巴巴 | 国内 | deepseek-r1 | 付费 | 2025.02.20 |
火山引擎 | 字节跳动 | 国内 | deepseek-r1-250120 | 付费 | 2025.02.20 |
腾讯云知识引擎 | 腾讯科技 | 国内 | deepseek-r1 | 限时免费 | 2025.02.20 |
商汤大装置 | 商汤科技 | 国内 | DeepSeek-R1 | 限时免费 | 2025.02.20 |
硅基流动 | 硅基流动 | 国内 | Pro/deepseek-ai/DeepSeek-R1 | 付费 | 2025.02.20 |
微软云 | Microsoft | 海外 | DeepSeek-R1 | 限时免费 | 2025.02.20 |
totether.ai | together.ai | 海外 | deepseek-ai/DeepSeek-R1 | 付费 | 2025.02.20 |
第三方平台名称 | 机构 | 完整回复率 | 截断率 | 无回复率 | 超时率 | 准确率 | 推理耗时(秒/题) | 测评日期 |
---|---|---|---|---|---|---|---|---|
随时问 | 学而思 | 100% | 0% | 0% | 0% | 75% | 129.17 | 2025.02.19 |
秘塔AI搜索 | 秘塔科技 | 95% | 0% | 0% | 5% | 89% | 150.89 | 2025.02.19 |
跃问 | 阶跃星辰 | 90% | 10% | 0% | 0% | 94% | 151.78 | 2025.02.19 |
纳米AI搜索 | 360 | 85% | 15% | 0% | 0% | 88% | 135.29 | 2025.02.19 |
百度 | 百度 | 85% | 15% | 0% | 0% | 94% | 145.94 | 2025.02.19 |
问小白 | 元石科技 | 85% | 0% | 0% | 15% | 94% | 213.06 | 2025.02.19 |
腾讯元宝 | 腾讯 | 85% | 5% | 0% | 10% | 88% | 219.24 | 2025.02.19 |
知乎 | 知乎 | 65% | 0% | 15% | 20% | 100% | 177.21 | 2025.02.19 |
钉钉 | 阿里 | 45% | 25% | 10% | 20% | - | - | 2025.02.19 |
腾讯文档 | 腾讯 | 35% | 0% | 35% | 30% | - | - | 2025.02.19 |
排名 | 第三方平台名称 | 机构 | 完整回复率 | 截断率 | 无回复率 | 超时率 | 测评日期 |
---|---|---|---|---|---|---|---|
🏅️ | 随时问 | 学而思 | 100% | 0% | 0% | 0% | 2025.02.19 |
🥈 | 秘塔AI搜索 | 秘塔科技 | 95% | 0% | 0% | 5% | 2025.02.19 |
🥉 | 跃问 | 阶跃星辰 | 90% | 10% | 0% | 0% | 2025.02.19 |
4 | 问小白 | 元石科技 | 85% | 0% | 0% | 15% | 2025.02.19 |
4 | 腾讯元宝 | 腾讯 | 85% | 5% | 0% | 10% | 2025.02.19 |
4 | 百度 | 百度 | 85% | 15% | 0% | 0% | 2025.02.19 |
4 | 纳米AI搜索 | 360 | 85% | 15% | 0% | 0% | 2025.02.19 |
5 | 知乎 | 知乎 | 65% | 0% | 15% | 20% | 2025.02.19 |
6 | 钉钉 | 阿里 | 45% | 25% | 10% | 20% | 2025.02.19 |
7 | 腾讯文档 | 腾讯 | 35% | 0% | 35% | 30% | 2025.02.19 |
排名 | 第三方平台名称 | 机构 | 准确率 | 测评日期 |
---|---|---|---|---|
🏅️ | 知乎 | 知乎 | 100% | 2025.02.19 |
🥈 | 跃问 | 阶跃星辰 | 94% | 2025.02.19 |
🥈 | 问小白 | 元石科技 | 94% | 2025.02.19 |
🥈 | 百度 | 百度 | 94% | 2025.02.19 |
🥉 | 秘塔AI搜索 | 秘塔科技 | 89% | 2025.02.19 |
4 | 腾讯元宝 | 腾讯 | 88% | 2025.02.19 |
4 | 纳米AI搜索 | 360 | 88% | 2025.02.19 |
5 | 随时问 | 学而思 | 75% | 2025.02.19 |
排名 | 第三方平台名称 | 机构 | 推理耗时(秒/题) | 测评日期 |
---|---|---|---|---|
🏅️ | 随时问 | 学而思 | 129.17 | 2025.02.19 |
🥈 | 纳米AI搜索 | 360 | 135.29 | 2025.02.19 |
🥉 | 百度 | 百度 | 145.94 | 2025.02.19 |
4 | 秘塔AI搜索 | 秘塔科技 | 150.89 | 2025.02.19 |
5 | 跃问 | 阶跃星辰 | 151.78 | 2025.02.19 |
6 | 知乎 | 知乎 | 177.21 | 2025.02.19 |
7 | 问小白 | 元石科技 | 213.06 | 2025.02.19 |
8 | 腾讯元宝 | 腾讯 | 219.24 | 2025.02.19 |
第三方平台名称 | 机构 | 使用方式 | 是否支持联网 | 是否免费 | 测评日期 |
---|---|---|---|---|---|
百度 | 百度 | APP | 不支持 | 免费 | 2025.02.19 |
钉钉 | 阿里 | APP | 不支持 | 免费 | 2025.02.19 |
秘塔AI搜索 | 秘塔科技 | APP | 默认联网 | 免费 | 2025.02.19 |
纳米AI搜索 | 360 | APP | 支持 | 免费 | 2025.02.19 |
随时问 | 学而思 | APP | 不支持 | 免费 | 2025.02.19 |
腾讯文档 | 腾讯 | APP | 默认联网 | 免费 | 2025.02.19 |
腾讯元宝 | 腾讯 | APP | 支持 | 免费 | 2025.02.19 |
问小白 | 元石科技 | APP | 支持 | 免费 | 2025.02.19 |
跃问 | 阶跃星辰 | APP | 支持 | 免费 | 2025.02.19 |
知乎 | 知乎 | APP | 默认联网 | 免费 | 2025.02.19 |
SuperCLUE总榜(2025年3月)
排名 | 第三方平台 | 机构 | 完整回复率(%) | 截断率(%) | 无回复率(%) | 准确率(%) | 平均耗时 |
---|---|---|---|---|---|---|---|
🥇 | 字节火山引擎 | 字节跳动 | 100 | 0 | 0 | 74.65 | 242.4 |
🥈 | 阶跃AI | 阶跃星辰 | 98.59 | 1.41 | 0 | 83.1 | 233.71 |
🥈 | 支付宝百宝箱 | 蚂蚁集团 | 98.59 | 0 | 1.41 | 70.4 | 173.1 |
🥉 | 天工AI | 昆仑万维 | 97.18 | 2.82 | 0 | 80.28 | 192.41 |
🥉 | 腾讯元宝 | 腾讯 | 97.18 | 2.82 | 0 | 78.87 | 236.63 |
4 | 硅基流动 | 硅基流动 | 92.96 | 5.63 | 1.41 | 71.83 | 670.07 |
5 | 纳米AI搜索 | 360 | 81.96 | 18.31 | 0 | 67.61 | 121.19 |
6 | 阿里云百炼 | 阿里巴巴 | 80.28 | 19.72 | 0 | 64.79 | 278.27 |
7 | MiniMax | MiniMax | 67.61 | 32.39 | 0 | 63.38 | 228.98 |
- | DeepSeek官网 | 深度求索 | 22.54 | 0 | 77.46 | 93.75 | 272.11 |
SuperCLUE回复率(2025年3月)
排名 | 第三方平台 | 机构 | 完整回复率(%) | 截断率(%) | 无回复率(%) |
---|---|---|---|---|---|
🥇 | 字节火山引擎 | 字节跳动 | 100 | 0 | 0 |
🥈 | 阶跃AI | 阶跃星辰 | 98.59 | 1.41 | 0 |
🥈 | 支付宝百宝箱 | 蚂蚁集团 | 98.59 | 0 | 1.41 |
🥉 | 天工AI | 昆仑万维 | 97.18 | 2.82 | 0 |
🥉 | 腾讯元宝 | 腾讯 | 97.18 | 2.82 | 0 |
4 | 硅基流动 | 硅基流动 | 92.96 | 5.63 | 1.41 |
5 | 纳米AI搜索 | 360 | 81.96 | 18.31 | 0 |
6 | 阿里云百炼 | 阿里巴巴 | 80.28 | 19.72 | 0 |
7 | MiniMax | MiniMax | 67.61 | 32.39 | 0 |
- | DeepSeek官网 | 深度求索 | 22.54 | 0 | 77.46 |
SuperCLUE准确率(2025年3月)
排名 | 第三方平台 | 机构 | 准确率(%) |
---|---|---|---|
🥇 | 阶跃AI | 阶跃星辰 | 83.1 |
🥈 | 天工AI | 昆仑万维 | 80.28 |
🥉 | 腾讯元宝 | 腾讯 | 78.87 |
4 | 字节火山引擎 | 字节跳动 | 74.65 |
5 | 硅基流动 | 硅基流动 | 71.83 |
6 | 支付宝百宝箱 | 蚂蚁集团 | 70.4 |
7 | 纳米AI搜索 | 360 | 67.61 |
8 | 阿里云百炼 | 阿里巴巴 | 64.79 |
9 | MiniMax | MiniMax | 63.38 |
- | DeepSeek官网 | 深度求索 | 93.75 |
SuperCLUE推理耗时(2025年3月)
排名 | 第三方平台 | 机构 | 平均耗时 |
---|---|---|---|
🥇 | 纳米AI搜索 | 360 | 121.19 |
🥈 | 支付宝百宝箱 | 蚂蚁集团 | 173.1 |
🥉 | 天工AI | 昆仑万维 | 192.41 |
4 | MiniMax | MiniMax | 228.98 |
5 | 阶跃AI | 阶跃星辰 | 233.71 |
6 | 腾讯元宝 | 腾讯 | 236.63 |
7 | 字节火山引擎 | 字节跳动 | 242.4 |
8 | 阿里云百炼 | 阿里巴巴 | 278.27 |
9 | 硅基流动 | 硅基流动 | 670.07 |
- | DeepSeek官网 | 深度求索 | 272.11 |
排名 | 产品名称 | 机构 | 总分 | 基础认知能力 | 视觉推理能力 | 记忆能力 | 语音交互能力 | 应用场景 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|
- | ChatGPT(实时音视频) | OpenAI | 69.05 | 70.5 | 51.34 | 79.67 | 81.05 | 62.67 | 2025.01.26 |
🏅️ | 日日新5o(实时音视频) | 商汤科技 | 68.59 | 77 | 46.34 | 77.67 | 77.95 | 64 | 2025.01.26 |
🥈 | 讯飞星火(实时音视频) | 科大讯飞 | 66.83 | 76 | 46.35 | 65.34 | 75.78 | 70.68 | 2025.01.26 |
🥉 | 智谱清言(实时音视频) | 清华&智谱AI | 55.32 | 73 | 33.67 | 49.32 | 66.26 | 54.35 | 2025.01.26 |
🥉 | 通义(实时音视频) | 阿里巴巴 | 55.25 | 57.5 | 33.68 | 68.99 | 65.43 | 50.66 | 2025.01.26 |
产品名称 | 所属团队 | 属地 | 手机型号 | 使用 | 版本号 | 发布日期 |
---|---|---|---|---|---|---|
ChatGPT(实时音视频) | OpenAI | 海外 | 真我GT Neo5 SE | 安卓端APP | 1.2025.007 | 2025.01.26 |
日日新5o(实时音视频) | 商汤科技 | 国内 | 真我GT Neo5 SE | 安卓端APP | 1.0 | 2025.01.26 |
讯飞星火(实时音视频) | 科大讯飞 | 国内 | 真我GT Neo5 SE | 安卓端APP | 4.0.24 | 2025.01.26 |
智谱清言(实时音视频) | 清华&智谱AI | 国内 | 真我GT Neo5 SE | 安卓端APP | 2.7.5 | 2025.01.26 |
通义(实时音视频) | 阿里巴巴 | 国内 | 真我GT Neo5 SE | 安卓端APP | 3.26.0 | 2025.01.26 |
SuperCLUE总榜单(2025年1月)
排名 | 模型 | 机构 | 总分 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
🏅️ | Deepseek-R1 | 深度求索 | 82.15 | API | 2025.01.21 |
- | o1 | OpenAI | 75.98 | 网页 | 2025.01.21 |
- | o1-preview-2024-09-12 | OpenAI | 73.74 | API | 2025.01.21 |
🥈 | DeepSeek-R1-Lite-Preview | 深度求索 | 69.87 | 网页 | 2025.01.21 |
🥉 | QwQ-32B-Preview | 阿里云 | 66.84 | API | 2025.01.21 |
4 | k0-math | 月之暗面 | 57.36 | 网页 | 2025.01.21 |
- | chatgpt-4o-latest | OpenAI | 57.27 | API | 2025.01.21 |
- | Gemini-1.5-Pro-002 | Google | 55.47 | API | 2025.01.21 |
5 | InternThinker | 上海AI实验室 | 54.84 | 网页 | 2025.01.21 |
5 | Doubao-pro-32k-240828 | 字节跳动 | 54.82 | API | 2025.01.21 |
6 | Qwen2.5-72b-instruct | 阿里云 | 50.36 | API | 2025.01.21 |
6 | Qwen-max-0919 | 阿里云 | 49.77 | API | 2025.01.21 |
7 | Baichuan4-Turbo | 百川智能 | 49.29 | API | 2025.01.21 |
7 | kimi.ai(网页) | 月之暗面 | 48.74 | 网页 | 2025.01.21 |
- | Claude-3.5-Sonnet(1022) | Anthropic | 47.41 | POE | 2025.01.21 |
8 | DeepSeek V2.5 | 深度求索 | 47.34 | API | 2025.01.21 |
8 | step-2-16k | 阶跃星辰 | 46.36 | API | 2025.01.21 |
9 | GLM-4-Plus | 智谱AI | 46.04 | API | 2025.01.21 |
- | o1-mini-2024-09-12 | OpenAI | 44.03 | API | 2025.01.21 |
- | gpt4-turbo-2024-04-09 | OpenAI | 43.44 | API | 2025.01.21 |
11 | Qwen2.5-7b-instruct | 阿里云 | 39.94 | API | 2025.01.21 |
12 | Spark-4-Ultra | 科大讯飞 | 38.41 | API | 2025.01.21 |
- | Llama3.1-405B-Instruct | Meta | 37.2 | API | 2025.01.21 |
14 | MiniMax-abab6.5s-chat | MiniMax | 34.55 | API | 2025.01.21 |
15 | Baichuan4 | 百川智能 | 33.12 | API | 2025.01.21 |
16 | glm4-9b-chat | 智谱AI | 31.62 | 模型 | 2025.01.21 |
- | Llama3.1-70B-Instruct | Meta | 30.93 | API | 2025.01.21 |
- | gemma-2-9b-it | Google | 29.25 | 模型 | 2025.01.21 |
17 | Yi-1.5-6b-chat | 零一万物 | 25.1 | 模型 | 2025.01.21 |
17 | Yi-1.5-9b-chat-16k | 零一万物 | 24.78 | 模型 | 2025.01.21 |
18 | Qwen2.5-1.5b-instruct | 阿里云 | 23.83 | API | 2025.01.21 |
- | Llama3.1-8B-Instruct | Meta | 23.81 | API | 2025.01.21 |
- | gemma-2-2b-it | Google | 21.57 | 模型 | 2025.01.21 |
- | phi-3-mini-4k | 微软 | 19.77 | 模型 | 2025.01.21 |
19 | Qwen2.5-0.5b-instruct | 阿里云 | 18.81 | API | 2025.01.21 |
- | mistral-7b-v0.3 | Mistral AI | 17.56 | 模型 | 2025.01.21 |
20 | RWKV-6-World-7b | RWKV | 15.27 | 模型 | 2025.01.21 |
SuperCLUE开源榜单(2025年1月)
排名 | 模型 | 机构 | 总分 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
🏅️ | Deepseek-R1 | 深度求索 | 82.15 | API | 2025.01.21 |
🥈 | QwQ-32B-Preview | 阿里云 | 66.84 | API | 2025.01.21 |
🥉 | InternThinker | 上海AI实验室 | 54.84 | 网页 | 2025.01.21 |
4 | Qwen2.5-72b-instruct | 阿里云 | 50.36 | API | 2025.01.21 |
5 | DeepSeek V2.5 | 深度求索 | 47.34 | API | 2025.01.21 |
6 | Qwen2.5-7b-instruct | 阿里云 | 39.94 | API | 2025.01.21 |
- | Llama3.1-405B-Instruct | Meta | 37.2 | API | 2025.01.21 |
7 | glm4-9b-chat | 智谱AI | 31.62 | 模型 | 2025.01.21 |
- | Llama3.1-70B-Instruct | Meta | 30.93 | API | 2025.01.21 |
- | gemma-2-9b-it | Google | 29.25 | 模型 | 2025.01.21 |
8 | Yi-1.5-6b-chat | 零一万物 | 25.1 | 模型 | 2025.01.21 |
8 | Yi-1.5-9b-chat-16k | 零一万物 | 24.78 | 模型 | 2025.01.21 |
9 | Qwen2.5-1.5b-instruct | 阿里云 | 23.83 | API | 2025.01.21 |
- | Llama3.1-8B-Instruct | Meta | 23.81 | API | 2025.01.21 |
- | gemma-2-2b-it | Google | 21.57 | 模型 | 2025.01.21 |
- | phi-3-mini-4k | 微软 | 19.77 | 模型 | 2025.01.21 |
10 | Qwen2.5-0.5b-instruct | 阿里云 | 18.81 | API | 2025.01.21 |
- | mistral-7b-v0.3 | Mistral AI | 17.56 | 模型 | 2025.01.21 |
11 | RWKV-6-World-7b | RWKV | 15.27 | 模型 | 2025.01.21 |
SuperCLUE七大任务榜单(2025年1月)
模型 | 机构 | 总分 | 行程 | 数论 | 几何 | 计数 | 应用题 | 计算 | 奥数杂题 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|
Deepseek-R1 | 深度求索 | 82.15 | 82 | 82.07 | 78.86 | 76.8 | 92.64 | 88.87 | 73.08 | API | 2025.01.21 |
o1 | OpenAI | 75.98 | 58.71 | 78.93 | 80.86 | 77.8 | 85.64 | 80.4 | 68.54 | 网页 | 2025.01.21 |
o1-preview-2024-09-12 | OpenAI | 73.74 | 78.08 | 70.57 | 68.15 | 70.73 | 83.07 | 84.6 | 59.31 | API | 2025.01.21 |
DeepSeek-R1-Lite-Preview | 深度求索 | 69.87 | 61.07 | 76.93 | 65.71 | 72.6 | 75.71 | 71.2 | 65.23 | 网页 | 2025.01.21 |
QwQ-32B-Preview | 阿里云 | 66.84 | 56.77 | 63.79 | 63.07 | 73.85 | 75.69 | 69.07 | 65.82 | API | 2025.01.21 |
k0-math | 月之暗面 | 57.36 | 51.57 | 58.29 | 41.36 | 63.33 | 67.5 | 67 | 50.92 | 网页 | 2025.01.21 |
chatgpt-4o-latest | OpenAI | 57.27 | 61.21 | 49.64 | 42.71 | 62.93 | 65 | 60.57 | 59.1 | API | 2025.01.21 |
Gemini-1.5-Pro-002 | Google | 55.47 | 52.14 | 56.79 | 41.64 | 55.2 | 72 | 63.07 | 46.31 | API | 2025.01.21 |
InternThinker | 上海AI实验室 | 54.84 | 51 | 55.71 | 24.79 | 62.73 | 72.07 | 69.67 | 45.31 | 网页 | 2025.01.21 |
Doubao-pro-32k-240828 | 字节跳动 | 54.82 | 60.5 | 48.93 | 44.07 | 56.4 | 68.86 | 71.47 | 30.46 | API | 2025.01.21 |
Qwen2.5-72b-instruct | 阿里云 | 50.36 | 49.29 | 45.57 | 39.14 | 56.13 | 59.5 | 62.6 | 38.15 | API | 2025.01.21 |
Qwen-max-0919 | 阿里云 | 49.77 | 54.07 | 51.71 | 29.86 | 55.47 | 56.14 | 61.8 | 37.15 | API | 2025.01.21 |
Baichuan4-Turbo | 百川智能 | 49.29 | 52.71 | 53.14 | 34.36 | 55.2 | 60.86 | 54.87 | 31.85 | API | 2025.01.21 |
kimi.ai(网页) | 月之暗面 | 48.74 | 50.93 | 49.93 | 29.93 | 49.87 | 65.43 | 53.27 | 40.85 | 网页 | 2025.01.21 |
Claude-3.5-Sonnet(1022) | Anthropic | 47.41 | 40.21 | 57.5 | 24.14 | 55 | 63.79 | 47.87 | 42.46 | POE | 2025.01.21 |
DeepSeek V2.5 | 深度求索 | 47.34 | 40.43 | 50.14 | 32.21 | 44.13 | 62.36 | 59.67 | 41.38 | API | 2025.01.21 |
step-2-16k | 阶跃星辰 | 46.36 | 50.29 | 42.71 | 31.29 | 44.2 | 60.71 | 49.2 | 46.08 | API | 2025.01.21 |
GLM-4-Plus | 智谱AI | 46.04 | 42.43 | 42.79 | 30.36 | 51.47 | 57.36 | 53.87 | 42.85 | API | 2025.01.21 |
o1-mini-2024-09-12 | OpenAI | 44.03 | 29.36 | 49.64 | 34.79 | 54.6 | 47.36 | 46.53 | 45.08 | API | 2025.01.21 |
gpt4-turbo-2024-04-09 | OpenAI | 43.44 | 38.79 | 46.86 | 30.43 | 55.87 | 51.69 | 48.47 | 30.38 | API | 2025.01.21 |
Qwen2.5-7b-instruct | 阿里云 | 39.94 | 49.86 | 36 | 27.79 | 48.27 | 41.57 | 41.67 | 33.23 | API | 2025.01.21 |
Spark-4-Ultra | 科大讯飞 | 38.41 | 37.79 | 31.36 | 30.54 | 36.93 | 49.86 | 38.31 | 44 | API | 2025.01.21 |
Llama3.1-405B-Instruct | Meta | 37.2 | 38.14 | 40.71 | 23.93 | 32 | 50.71 | 32.4 | 43.69 | API | 2025.01.21 |
MiniMax-abab6.5s-chat | MiniMax | 34.55 | 41.36 | 38.21 | 29.93 | 31.27 | 31.79 | 38.87 | 30 | API | 2025.01.21 |
Baichuan4 | 百川智能 | 33.12 | 34 | 32 | 24.29 | 28.47 | 46.14 | 37.87 | 28.77 | API | 2025.01.21 |
glm4-9b-chat | 智谱AI | 31.62 | 25.93 | 28.57 | 21.43 | 26.27 | 49.29 | 37.67 | 32.15 | 模型 | 2025.01.21 |
Llama3.1-70B-Instruct | Meta | 30.93 | 35.43 | 33.71 | 22.71 | 31.2 | 36 | 30.93 | 26.15 | API | 2025.01.21 |
gemma-2-9b-it | Google | 29.25 | 27.21 | 30.64 | 21.86 | 35.13 | 28.64 | 28.8 | 32.31 | 模型 | 2025.01.21 |
Yi-1.5-6b-chat | 零一万物 | 25.1 | 26.71 | 28.38 | 22.64 | 25.07 | 22 | 28.14 | 22.33 | 模型 | 2025.01.21 |
Yi-1.5-9b-chat-16k | 零一万物 | 24.78 | 22.93 | 26.71 | 21.14 | 22.27 | 24.14 | 32.33 | 23.46 | 模型 | 2025.01.21 |
Qwen2.5-1.5b-instruct | 阿里云 | 23.83 | 22.93 | 26.14 | 22.86 | 20.27 | 20.5 | 31 | 22.77 | API | 2025.01.21 |
Llama3.1-8B-Instruct | Meta | 23.81 | 22.79 | 24.71 | 20.14 | 21.41 | 18.86 | 32 | 27.15 | API | 2025.01.21 |
gemma-2-2b-it | Google | 21.57 | 20.86 | 22.79 | 19.5 | 18.8 | 24.79 | 23.87 | 20.31 | 模型 | 2025.01.21 |
phi-3-mini-4k | 微软 | 19.77 | 18.79 | 18.57 | 16.93 | 19.53 | 23.36 | 20.4 | 20.85 | 模型 | 2025.01.21 |
Qwen2.5-0.5b-instruct | 阿里云 | 18.81 | 18.21 | 17.29 | 20.64 | 16.73 | 18.64 | 19.87 | 20.46 | API | 2025.01.21 |
mistral-7b-v0.3 | Mistral AI | 17.56 | 17.64 | 16.86 | 15.36 | 18.07 | 14 | 20.07 | 20.92 | 模型 | 2025.01.21 |
RWKV-6-World-7b | RWKV | 15.27 | 15.64 | 14 | 14.86 | 16.73 | 14.64 | 13.13 | 18.15 | 模型 | 2025.01.21 |
排名 | 模型 | 机构 | 总分 | 回答质量 | 思维链与反思 | 推理等级 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | o1 | OpenAI | 76.12 | 86.36 | 65.89 | 7级 | 网页 | 2024.12.06 |
- | o1-preview-2024-09-12 | OpenAI | 71.84 | 82.41 | 61.27 | 7级 | API | 2024.10.31 |
🏅️ | QwQ-32B-Preview | 阿里云 | 63.5 | 66.36 | 60.63 | 6级 | API | 2024.12.03 |
🥈 | Deepseek-R1 | 深度求索 | 62.04 | 77.69 | 46.39 | 6级 | API | 2025.01.21 |
- | chatgpt-4o-latest | OpenAI | 57.87 | 57.16 | 58.58 | 5级 | API | 2024.10.31 |
- | Claude-3.5-Sonnet(1022) | Anthropic | 54.6 | 53.97 | 55.23 | 5级 | POE | 2024.10.31 |
- | Gemini-1.5-Pro-002 | Google | 54.36 | 49.93 | 58.81 | 5级 | API | 2024.10.31 |
🥉 | GLM-4-Plus | 智谱AI | 50.19 | 45.57 | 54.82 | 5级 | API | 2024.10.31 |
🥉 | yi-lightning | 零一万物 | 49.98 | 45.05 | 54.91 | 4级 | API | 2024.10.31 |
- | gpt-4-turbo-2024-04-09 | OpenAI | 48.52 | 47.13 | 49.91 | 4级 | API | 2024.10.31 |
4 | InternThinker | 上海AI实验室 | 48.18 | 44.56 | 51.78 | 4级 | 网页 | 2024.12.03 |
5 | Qwen-max-0919 | 阿里云 | 46.17 | 43.17 | 49.17 | 4级 | API | 2024.10.31 |
5 | Qwen2.5-72b-instruct | 阿里云 | 46.01 | 39.91 | 52.11 | 4级 | API | 2024.10.31 |
5 | DeepSeek-R1-Lite-Preview | 深度求索 | 45.8 | 51.14 | 40.45 | 4级 | 网页 | 2024.11.21 |
6 | Doubao-pro-32k-240828 | 字节跳动 | 43.6 | 41.61 | 45.59 | 4级 | API | 2024.10.31 |
6 | DeepSeek V2.5 | 深度求索 | 43.53 | 39.11 | 47.94 | 4级 | API | 2024.10.31 |
- | o1-mini-2024-09-12 | OpenAI | 43.29 | 39.95 | 46.62 | 4级 | API | 2024.10.31 |
7 | step-2-16k | 阶跃星辰 | 40.86 | 36.75 | 45 | 4级 | API | 2024.10.31 |
8 | Minimax-abab6.5s-chat | Minimax | 39.21 | 35.42 | 43.01 | 3级 | API | 2024.10.31 |
9 | ERNIE-4.0-Turbo-8K-Preview | 百度 | 38.18 | 34.61 | 41.74 | 3级 | API | 2024.10.31 |
9 | hunyuan-turbo-latest | 腾讯 | 37.85 | 33.82 | 41.89 | 3级 | API | 2024.10.31 |
- | Llama3.1-405B-Instruct | Meta | 37.82 | 37.66 | 37.98 | 3级 | API | 2024.10.31 |
10 | kimi.ai(网页) | 月之暗面 | 36.46 | 31.94 | 40.97 | 3级 | 网页 | 2024.10.31 |
- | Llama3.1-70B-Instruct | Meta | 34.92 | 31.32 | 38.52 | 3级 | API | 2024.10.31 |
- | gemma-2-9b-it | Google | 34.41 | 30.05 | 38.8 | 3级 | 模型 | 2024.10.31 |
11 | Qwen2.5-7b-instruct | 阿里云 | 34.17 | 26.83 | 41.51 | 3级 | API | 2024.10.31 |
12 | Spark-4-Ultra | 科大讯飞 | 33.01 | 26.44 | 39.58 | 3级 | API | 2024.10.31 |
12 | Baichuan4 | 百川智能 | 32.21 | 26.04 | 38.38 | 3级 | API | 2024.10.31 |
13 | Yi-1.5-9b-chat-16k | 零一万物 | 30.36 | 23.71 | 37.01 | 3级 | 模型 | 2024.10.31 |
14 | glm4-9b-chat | 智谱AI | 29.83 | 23.1 | 36.57 | 2级 | 模型 | 2024.10.31 |
15 | Yi-1.5-6b-chat | 零一万物 | 26.35 | 20.39 | 32.33 | 2级 | 模型 | 2024.10.31 |
- | Llama3.1-8B-Instruct | Meta | 22.97 | 17.55 | 28.41 | 2级 | API | 2024.10.31 |
- | gemma-2-2b-it | Google | 21.53 | 16.65 | 26.42 | 2级 | 模型 | 2024.10.31 |
16 | Qwen2.5-1.5b-instruct | 阿里云 | 20.1 | 15.52 | 24.67 | 2级 | API | 2024.10.31 |
- | phi-3-mini-4k | 微软 | 19.6 | 15.17 | 24.07 | 1级 | 模型 | 2024.10.31 |
- | mistral-7b-v0.3 | Mistral AI | 16.3 | 9.56 | 23.04 | 1级 | 模型 | 2024.10.31 |
17 | Qwen2.5-0.5b-instruct | 阿里云 | 11.88 | 5.97 | 17.78 | 1级 | API | 2024.10.31 |
17 | RWKV-6-World-7b | RWKV | 11.28 | 5.92 | 16.65 | 1级 | 模型 | 2024.10.31 |
排名 | 模型 | 机构 | 回答质量得分 | 解题过程 | 最终答案 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|
- | o1 | OpenAI | 86.36 | 90.28 | 85.05 | 网页 | 2024.12.06 |
- | o1-preview-2024-09-12 | OpenAI | 82.41 | 88.55 | 80.36 | API | 2024.10.31 |
🏅️ | Deepseek-R1 | 深度求索 | 77.69 | 84.26 | 75.49 | API | 2025.01.21 |
🥈 | QwQ-32B-Preview | 阿里云 | 66.36 | 71.14 | 64.77 | API | 2024.12.03 |
- | chatgpt-4o-latest | OpenAI | 57.16 | 77.25 | 50.46 | API | 2024.10.31 |
- | Claude-3.5-Sonnet(1022) | Anthropic | 53.97 | 70.46 | 48.47 | POE | 2024.10.31 |
🥉 | DeepSeek-R1-Lite-Preview | 深度求索 | 51.14 | 65.64 | 46.3 | 网页 | 2024.11.21 |
- | Gemini-1.5-Pro-002 | Google | 49.93 | 73.21 | 42.17 | API | 2024.10.31 |
- | gpt-4-turbo-2024-04-09 | OpenAI | 47.13 | 68.81 | 39.91 | API | 2024.10.31 |
4 | GLM-4-Plus | 智谱AI | 45.57 | 69.54 | 37.58 | API | 2024.10.31 |
4 | yi-lightning | 零一万物 | 45.05 | 70.28 | 36.64 | API | 2024.10.31 |
5 | InternThinker | 上海AI实验室 | 44.56 | 71.03 | 35.73 | 网页 | 2024.12.03 |
6 | Qwen-max-0919 | 阿里云 | 43.17 | 65.32 | 35.78 | API | 2024.10.31 |
7 | Doubao-pro-32k-240828 | 字节跳动 | 41.61 | 64.18 | 34.09 | API | 2024.10.31 |
- | o1-mini-2024-09-12 | OpenAI | 39.95 | 65.37 | 31.48 | API | 2024.10.31 |
8 | Qwen2.5-72b-instruct | 阿里云 | 39.91 | 68.81 | 30.28 | API | 2024.10.31 |
8 | DeepSeek V2.5 | 深度求索 | 39.11 | 64.49 | 30.65 | API | 2024.10.31 |
- | Llama3.1-405B-Instruct | Meta | 37.66 | 58.17 | 30.83 | API | 2024.10.31 |
9 | step-2-16k | 阶跃星辰 | 36.75 | 60.73 | 28.76 | API | 2024.10.31 |
10 | Minimax-abab6.5s-chat | Minimax | 35.42 | 59.07 | 27.53 | API | 2024.10.31 |
10 | ERNIE-4.0-Turbo-8K-Preview | 百度 | 34.61 | 59.63 | 26.27 | API | 2024.10.31 |
11 | hunyuan-turbo-latest | 腾讯 | 33.82 | 57.17 | 26.04 | API | 2024.10.31 |
12 | kimi.ai(网页) | 月之暗面 | 31.94 | 56.48 | 23.77 | 网页 | 2024.10.31 |
- | Llama3.1-70B-Instruct | Meta | 31.32 | 54.07 | 23.73 | API | 2024.10.31 |
- | gemma-2-9b-it | Google | 30.05 | 54.07 | 22.04 | 模型 | 2024.10.31 |
13 | Qwen2.5-7b-instruct | 阿里云 | 26.83 | 55.05 | 17.43 | API | 2024.10.31 |
13 | Spark-4-Ultra | 科大讯飞 | 26.44 | 53.89 | 17.28 | API | 2024.10.31 |
13 | Baichuan4 | 百川智能 | 26.04 | 52.78 | 17.13 | API | 2024.10.31 |
14 | Yi-1.5-9b-chat-16k | 零一万物 | 23.71 | 48.6 | 15.42 | 模型 | 2024.10.31 |
14 | glm4-9b-chat | 智谱AI | 23.1 | 50.74 | 13.89 | 模型 | 2024.10.31 |
15 | Yi-1.5-6b-chat | 零一万物 | 20.39 | 43.69 | 12.62 | 模型 | 2024.10.31 |
- | Llama3.1-8B-Instruct | Meta | 17.55 | 39.81 | 10.12 | API | 2024.10.31 |
- | gemma-2-2b-it | Google | 16.65 | 36.42 | 10.06 | 模型 | 2024.10.31 |
16 | Qwen2.5-1.5b-instruct | 阿里云 | 15.52 | 36.6 | 8.49 | API | 2024.10.31 |
- | phi-3-mini-4k | 微软 | 15.17 | 33.33 | 9.12 | 模型 | 2024.10.31 |
- | mistral-7b-v0.3 | Mistral AI | 9.56 | 31.21 | 2.34 | 模型 | 2024.10.31 |
17 | Qwen2.5-0.5b-instruct | 阿里云 | 5.97 | 23.89 | 0 | API | 2024.10.31 |
17 | RWKV-6-World-7b | RWKV | 5.92 | 22.39 | 0.43 | 模型 | 2024.10.31 |
排名 | 模型 | 机构 | 思维链与反思得分 | 思维过程 | 反思与调整 | 创新性与灵活性 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | o1 | OpenAI | 65.89 | 94.08 | 63.79 | 58.36 | 网页 | 2024.12.06 |
- | o1-preview-2024-09-12 | OpenAI | 61.27 | 93.03 | 58.52 | 53.13 | API | 2024.10.31 |
🏅️ | QwQ-32B-Preview | 阿里云 | 60.63 | 76.52 | 61.51 | 54.55 | API | 2024.12.03 |
- | Gemini-1.5-Pro-002 | Google | 58.81 | 88.38 | 56.08 | 51.38 | API | 2024.10.31 |
- | chatgpt-4o-latest | OpenAI | 58.58 | 92.35 | 55.96 | 49.64 | API | 2024.10.31 |
- | Claude-3.5-Sonnet(1022) | Anthropic | 55.23 | 87.16 | 53.21 | 46.38 | POE | 2024.10.31 |
🥈 | yi-lightning | 零一万物 | 54.91 | 89.3 | 50.8 | 47.09 | API | 2024.10.31 |
🥈 | GLM-4-Plus | 智谱AI | 54.82 | 85.02 | 52.29 | 46.99 | API | 2024.10.31 |
🥉 | Qwen2.5-72b-instruct | 阿里云 | 52.11 | 87.77 | 48.51 | 43.43 | API | 2024.10.31 |
🥉 | InternThinker | 上海AI实验室 | 51.78 | 86.6 | 49.07 | 42.58 | 网页 | 2024.12.03 |
- | gpt-4-turbo-2024-04-09 | OpenAI | 49.91 | 85.02 | 46.67 | 41.08 | API | 2024.10.31 |
4 | Qwen-max-0919 | 阿里云 | 49.17 | 84.4 | 45.07 | 41.08 | API | 2024.10.31 |
5 | DeepSeek V2.5 | 深度求索 | 47.94 | 81.62 | 45.09 | 39.25 | API | 2024.10.31 |
- | o1-mini-2024-09-12 | OpenAI | 46.62 | 85.19 | 42.25 | 37.65 | API | 2024.10.31 |
6 | Deepseek-R1 | 深度求索 | 46.39 | 86.73 | 39 | 39.51 | API | 2025.01.21 |
6 | Doubao-pro-32k-240828 | 字节跳动 | 45.59 | 80 | 40.91 | 38.28 | API | 2024.10.31 |
7 | step-2-16k | 阶跃星辰 | 45 | 83.64 | 40.34 | 36.26 | API | 2024.10.31 |
8 | Minimax-abab6.5s-chat | Minimax | 43.01 | 78.7 | 39.24 | 34.47 | API | 2024.10.31 |
9 | hunyuan-turbo-latest | 腾讯 | 41.89 | 79.87 | 38.21 | 32.49 | API | 2024.10.31 |
9 | ERNIE-4.0-Turbo-8K-Preview | 百度 | 41.74 | 78.9 | 36.58 | 33.94 | API | 2024.10.31 |
9 | Qwen2.5-7b-instruct | 阿里云 | 41.51 | 78.9 | 37.27 | 32.82 | API | 2024.10.31 |
9 | kimi.ai(网页) | 月之暗面 | 40.97 | 79.32 | 35.88 | 32.72 | 网页 | 2024.10.31 |
10 | DeepSeek-R1-Lite-Preview | 深度求索 | 40.45 | 78.18 | 35.34 | 32.42 | 网页 | 2024.11.21 |
10 | Spark-4-Ultra | 科大讯飞 | 39.58 | 75.93 | 35.07 | 31.48 | API | 2024.10.31 |
- | gemma-2-9b-it | Google | 38.8 | 75 | 34.49 | 30.56 | 模型 | 2024.10.31 |
- | Llama3.1-70B-Instruct | Meta | 38.52 | 75.31 | 33.56 | 30.66 | API | 2024.10.31 |
11 | Baichuan4 | 百川智能 | 38.38 | 74.38 | 34.49 | 29.84 | API | 2024.10.31 |
- | Llama3.1-405B-Instruct | Meta | 37.98 | 75.84 | 33.49 | 29.36 | API | 2024.10.31 |
12 | Yi-1.5-9b-chat-16k | 零一万物 | 37.01 | 71.34 | 33.64 | 28.56 | 模型 | 2024.10.31 |
12 | glm4-9b-chat | 智谱AI | 36.57 | 72.22 | 31.6 | 29.12 | 模型 | 2024.10.31 |
13 | Yi-1.5-6b-chat | 零一万物 | 32.33 | 64.4 | 28.28 | 25.24 | 模型 | 2024.10.31 |
- | Llama3.1-8B-Instruct | Meta | 28.41 | 60.44 | 23.6 | 22.01 | API | 2024.10.31 |
- | gemma-2-2b-it | Google | 26.42 | 57.86 | 22.64 | 19.29 | 模型 | 2024.10.31 |
14 | Qwen2.5-1.5b-instruct | 阿里云 | 24.67 | 56.29 | 19.69 | 18.55 | API | 2024.10.31 |
- | phi-3-mini-4k | 微软 | 24.07 | 50.33 | 20.59 | 18.41 | 模型 | 2024.10.31 |
- | mistral-7b-v0.3 | Mistral AI | 23.04 | 49.53 | 18.81 | 17.96 | 模型 | 2024.10.31 |
15 | Qwen2.5-0.5b-instruct | 阿里云 | 17.78 | 39.81 | 14.35 | 13.48 | API | 2024.10.31 |
16 | RWKV-6-World-7b | RWKV | 16.65 | 37.61 | 13.65 | 12.33 | 模型 | 2024.10.31 |
模型 | 机构 | 解题过程 | 最终答案 | 思维过程 | 反思与调整 | 创新性与灵活性 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
o1 | OpenAI | 90.28 | 85.05 | 94.08 | 63.79 | 58.36 | 网页 | 2024.12.06 |
o1-preview-2024-09-12 | OpenAI | 88.55 | 80.36 | 93.03 | 58.52 | 53.13 | API | 2024.10.31 |
QwQ-32B-Preview | 阿里云 | 71.14 | 64.77 | 76.52 | 61.51 | 54.55 | API | 2024.12.03 |
Deepseek-R1 | 深度求索 | 84.26 | 75.49 | 86.73 | 39 | 39.51 | API | 2025.01.21 |
chatgpt-4o-latest | OpenAI | 77.25 | 50.46 | 92.35 | 55.96 | 49.64 | API | 2024.10.31 |
Claude-3.5-Sonnet(1022) | Anthropic | 70.46 | 48.47 | 87.16 | 53.21 | 46.38 | POE | 2024.10.31 |
Gemini-1.5-Pro-002 | Google | 73.21 | 42.17 | 88.38 | 56.08 | 51.38 | API | 2024.10.31 |
GLM-4-Plus | 智谱AI | 69.54 | 37.58 | 85.02 | 52.29 | 46.99 | API | 2024.10.31 |
yi-lightning | 零一万物 | 70.28 | 36.64 | 89.3 | 50.8 | 47.09 | API | 2024.10.31 |
gpt-4-turbo-2024-04-09 | OpenAI | 68.81 | 39.91 | 85.02 | 46.67 | 41.08 | API | 2024.10.31 |
InternThinker | 上海AI实验室 | 71.03 | 35.73 | 86.6 | 49.07 | 42.58 | 网页 | 2024.12.03 |
Qwen-max-0919 | 阿里云 | 65.32 | 35.78 | 84.4 | 45.07 | 41.08 | API | 2024.10.31 |
Qwen2.5-72b-instruct | 阿里云 | 68.81 | 30.28 | 87.77 | 48.51 | 43.43 | API | 2024.10.31 |
DeepSeek-R1-Lite-Preview | 深度求索 | 65.64 | 46.3 | 78.18 | 35.34 | 32.42 | 网页 | 2024.11.21 |
Doubao-pro-32k-240828 | 字节跳动 | 64.18 | 34.09 | 80 | 40.91 | 38.28 | API | 2024.10.31 |
DeepSeek V2.5 | 深度求索 | 64.49 | 30.65 | 81.62 | 45.09 | 39.25 | API | 2024.10.31 |
o1-mini-2024-09-12 | OpenAI | 65.37 | 31.48 | 85.19 | 42.25 | 37.65 | API | 2024.10.31 |
step-2-16k | 阶跃星辰 | 60.73 | 28.76 | 83.64 | 40.34 | 36.26 | API | 2024.10.31 |
Minimax-abab6.5s-chat | Minimax | 59.07 | 27.53 | 78.7 | 39.24 | 34.47 | API | 2024.10.31 |
ERNIE-4.0-Turbo-8K-Preview | 百度 | 59.63 | 26.27 | 78.9 | 36.58 | 33.94 | API | 2024.10.31 |
hunyuan-turbo-latest | 腾讯 | 57.17 | 26.04 | 79.87 | 38.21 | 32.49 | API | 2024.10.31 |
Llama3.1-405B-Instruct | Meta | 58.17 | 30.83 | 75.84 | 33.49 | 29.36 | API | 2024.10.31 |
kimi.ai(网页) | 月之暗面 | 56.48 | 23.77 | 79.32 | 35.88 | 32.72 | 网页 | 2024.10.31 |
Llama3.1-70B-Instruct | Meta | 54.07 | 23.73 | 75.31 | 33.56 | 30.66 | API | 2024.10.31 |
gemma-2-9b-it | Google | 54.07 | 22.04 | 75 | 34.49 | 30.56 | 模型 | 2024.10.31 |
Qwen2.5-7b-instruct | 阿里云 | 55.05 | 17.43 | 78.9 | 37.27 | 32.82 | API | 2024.10.31 |
Spark-4-Ultra | 科大讯飞 | 53.89 | 17.28 | 75.93 | 35.07 | 31.48 | API | 2024.10.31 |
Baichuan4 | 百川智能 | 52.78 | 17.13 | 74.38 | 34.49 | 29.84 | API | 2024.10.31 |
Yi-1.5-9b-chat-16k | 零一万物 | 48.6 | 15.42 | 71.34 | 33.64 | 28.56 | 模型 | 2024.10.31 |
glm4-9b-chat | 智谱AI | 50.74 | 13.89 | 72.22 | 31.6 | 29.12 | 模型 | 2024.10.31 |
Yi-1.5-6b-chat | 零一万物 | 43.69 | 12.62 | 64.4 | 28.28 | 25.24 | 模型 | 2024.10.31 |
Llama3.1-8B-Instruct | Meta | 39.81 | 10.12 | 60.44 | 23.6 | 22.01 | API | 2024.10.31 |
gemma-2-2b-it | Google | 36.42 | 10.06 | 57.86 | 22.64 | 19.29 | 模型 | 2024.10.31 |
Qwen2.5-1.5b-instruct | 阿里云 | 36.6 | 8.49 | 56.29 | 19.69 | 18.55 | API | 2024.10.31 |
phi-3-mini-4k | 微软 | 33.33 | 9.12 | 50.33 | 20.59 | 18.41 | 模型 | 2024.10.31 |
mistral-7b-v0.3 | Mistral AI | 31.21 | 2.34 | 49.53 | 18.81 | 17.96 | 模型 | 2024.10.31 |
Qwen2.5-0.5b-instruct | 阿里云 | 23.89 | 0 | 39.81 | 14.35 | 13.48 | API | 2024.10.31 |
RWKV-6-World-7b | RWKV | 22.39 | 0.43 | 37.61 | 13.65 | 12.33 | 模型 | 2024.10.31 |
排名 | 模型 | 机构 | 总分 | 推理等级 | 回答质量 | 思维链与反思 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
🏅️ | QwQ-32B-Preview | 阿里云 | 63.5 | 6级 | 66.36 | 60.63 | API | 2024.12.03 |
🥈 | Deepseek-R1 | 深度求索 | 62.04 | 6级 | 77.69 | 46.39 | API | 2025.01.21 |
🥉 | InternThinker | 上海AI实验室 | 48.18 | 4级 | 44.56 | 51.78 | 网页 | 2024.12.03 |
4 | Qwen2.5-72b-instruct | 阿里云 | 46.01 | 4级 | 39.91 | 52.11 | API | 2024.10.31 |
5 | DeepSeek V2.5 | 深度求索 | 43.53 | 4级 | 39.11 | 47.94 | API | 2024.10.31 |
- | Llama3.1-405B-Instruct | Meta | 37.82 | 3级 | 37.66 | 37.98 | API | 2024.10.31 |
- | Llama3.1-70B-Instruct | Meta | 34.92 | 3级 | 31.32 | 38.52 | API | 2024.10.31 |
- | gemma-2-9b-it | Google | 34.41 | 3级 | 30.05 | 38.8 | 模型 | 2024.10.31 |
6 | Qwen2.5-7b-instruct | 阿里云 | 34.17 | 3级 | 26.83 | 41.51 | API | 2024.10.31 |
7 | Yi-1.5-9b-chat-16k | 零一万物 | 30.36 | 3级 | 23.71 | 37.01 | 模型 | 2024.10.31 |
8 | glm4-9b-chat | 智谱AI | 29.83 | 2级 | 23.1 | 36.57 | 模型 | 2024.10.31 |
9 | Yi-1.5-6b-chat | 零一万物 | 26.35 | 2级 | 20.39 | 32.33 | 模型 | 2024.10.31 |
- | Llama3.1-8B-Instruct | Meta | 22.97 | 2级 | 17.55 | 28.41 | API | 2024.10.31 |
- | gemma-2-2b-it | Google | 21.53 | 2级 | 16.65 | 26.42 | 模型 | 2024.10.31 |
10 | Qwen2.5-1.5b-instruct | 阿里云 | 20.1 | 2级 | 15.52 | 24.67 | API | 2024.10.31 |
- | phi-3-mini-4k | 微软 | 19.6 | 1级 | 15.17 | 24.07 | 模型 | 2024.10.31 |
- | mistral-7b-v0.3 | Mistral AI | 16.3 | 1级 | 9.56 | 23.04 | 模型 | 2024.10.31 |
11 | Qwen2.5-0.5b-instruct | 阿里云 | 11.88 | 1级 | 5.97 | 17.78 | API | 2024.10.31 |
11 | RWKV-6-World-7b | RWKV | 11.28 | 1级 | 5.92 | 16.65 | 模型 | 2024.10.31 |
SuperCLUE总榜(2024年12月)
排名 | 产品名称 | 机构 | 总分 | 语音交互 | 通用能力 | 场景应用 | 响应速度 | 发布日期 |
---|---|---|---|---|---|---|---|---|
🏅️ | 讯飞星火(实时语音) | 科大讯飞 | 76.18 | 92.15 | 73.44 | 67.24 | 71.88 | 2024.12.24 |
- | GPT-4o(高级语音) | OpenAI | 73.04 | 86.09 | 72.84 | 68.12 | 65.12 | 2024.12.24 |
🥈 | 豆包(实时语音) | 字节跳动 | 70.76 | 82.72 | 73.08 | 64.36 | 62.88 | 2024.12.24 |
🥉 | 海螺AI(实时语音) | MiniMax | 69.64 | 77.63 | 73.52 | 66.64 | 60.77 | 2024.12.24 |
4 | 智谱清言(实时语音) | 清华&智谱AI | 60.79 | 76.41 | 64.68 | 68.72 | 33.34 | 2024.12.24 |
5 | 通义(实时语音) | 阿里巴巴 | 59.76 | 73.77 | 78.32 | 72.76 | 14.21 | 2024.12.24 |
5 | Kimi(实时语音) | 月之暗面 | 59.3 | 62.3 | 77.6 | 67.84 | 29.47 | 2024.12.24 |
6 | 文小言(实时语音) | 百度 | 47.55 | 61.48 | 73.52 | 55.2 | 0 | 2024.12.24 |
SuperCLUE语音交互(2024年12月)
排名 | 产品名称 | 语音交互 | 打断 | 说话风格 | 语言理解 | 语音自然度 | 发布日期 |
---|---|---|---|---|---|---|---|
🏅️ | 讯飞星火(实时语音) | 92.15 | 100 | 79.4 | 95 | 94.2 | 2024.12.24 |
- | GPT-4o(高级语音) | 86.09 | 78.95 | 88.2 | 92.6 | 84.6 | 2024.12.24 |
🥈 | 豆包(实时语音) | 82.72 | 75.69 | 69.4 | 97.6 | 88.2 | 2024.12.24 |
🥉 | 海螺AI(实时语音) | 77.63 | 58.31 | 73.8 | 97.6 | 80.8 | 2024.12.24 |
4 | 智谱清言(实时语音) | 76.41 | 75.25 | 72.6 | 83.8 | 74 | 2024.12.24 |
5 | 通义(实时语音) | 73.77 | 65.47 | 60.6 | 96.2 | 72.8 | 2024.12.24 |
6 | Kimi(实时语音) | 62.3 | 26 | 57 | 92.6 | 73.6 | 2024.12.24 |
6 | 文小言(实时语音) | 61.48 | 50.92 | 49.2 | 90 | 55.8 | 2024.12.24 |
SuperCLUE通用能力(2024年12月)
排名 | 产品名称 | 通用能力 | 记忆能力 | 联网能力 | 传统安全 | 推理能力 | 指令遵循 | 发布日期 |
---|---|---|---|---|---|---|---|---|
🏅️ | 通义(实时语音) | 78.32 | 81.4 | 62.8 | 79 | 85.8 | 82.6 | 2024.12.24 |
🏅️ | Kimi(实时语音) | 77.6 | 82.8 | 42.8 | 82.8 | 89.6 | 90 | 2024.12.24 |
🥈 | 海螺AI(实时语音) | 73.52 | 80 | 52.8 | 81.4 | 77.2 | 76.2 | 2024.12.24 |
🥈 | 文小言(实时语音) | 73.52 | 84.2 | 65.8 | 93.4 | 34.2 | 90 | 2024.12.24 |
🥈 | 讯飞星火(实时语音) | 73.44 | 70 | 64.2 | 79.6 | 85.8 | 67.6 | 2024.12.24 |
🥈 | 豆包(实时语音) | 73.08 | 55.8 | 65.8 | 77.6 | 80 | 86.2 | 2024.12.24 |
- | GPT-4o(高级语音) | 72.84 | 78.6 | 44.2 | 71.4 | 80 | 90 | 2024.12.24 |
🥉 | 智谱清言(实时语音) | 64.68 | 67.2 | 38.6 | 78.6 | 59 | 80 | 2024.12.24 |
SuperCLUE场景应用(2024年12月)
排名 | 产品名称 | 场景应用 | 实时翻译 | 教育辅导 | 情感咨询 | 健康咨询 | 购物客服 | 发布日期 |
---|---|---|---|---|---|---|---|---|
🏅️ | 通义(实时语音) | 72.76 | 83.8 | 66.6 | 68.6 | 71.4 | 73.4 | 2024.12.24 |
🥈 | 智谱清言(实时语音) | 68.72 | 81.8 | 62.8 | 61 | 68 | 70 | 2024.12.24 |
- | GPT-4o(高级语音) | 68.12 | 86.6 | 58.6 | 64.8 | 62 | 68.6 | 2024.12.24 |
🥈 | Kimi(实时语音) | 67.84 | 80.4 | 58 | 61 | 71.4 | 68.4 | 2024.12.24 |
🥉 | 讯飞星火(实时语音) | 67.24 | 77.2 | 59.6 | 61 | 70 | 68.4 | 2024.12.24 |
🥉 | 海螺AI(实时语音) | 66.64 | 82.8 | 58 | 65.6 | 63.4 | 63.4 | 2024.12.24 |
4 | 豆包(实时语音) | 64.36 | 76.6 | 59.6 | 54.2 | 71.4 | 60 | 2024.12.24 |
5 | 文小言(实时语音) | 55.2 | 34.2 | 68.6 | 51.4 | 61.8 | 60 | 2024.12.24 |
SuperCLUE响应速度(2024年12月)
排名 | 产品名称 | 响应速度 | 延迟(ms) | 发布日期 |
---|---|---|---|---|
🏅️ | 讯飞星火(实时语音) | 71.88 | 1621.44 | 2024.12.24 |
- | GPT-4o(高级语音) | 65.12 | 1939.44 | 2024.12.24 |
🥈 | 豆包(实时语音) | 62.88 | 2044.78 | 2024.12.24 |
🥉 | 海螺AI(实时语音) | 60.77 | 2143.78 | 2024.12.24 |
4 | 智谱清言(实时语音) | 33.34 | 3433.11 | 2024.12.24 |
5 | Kimi(实时语音) | 29.47 | 3614.78 | 2024.12.24 |
6 | 通义(实时语音) | 14.21 | 4332 | 2024.12.24 |
7 | 文小言(实时语音) | 0 | 6623.67 | 2024.12.24 |
SuperCLUE十五大能力(2024年12月)
排名 | 产品名称 | 总分 | 响应速度 | 打断 | 说话风格 | 语言理解 | 语音自然度 | 记忆能力 | 联网能力 | 传统安全 | 推理能力 | 指令遵循 | 实时翻译 | 教育辅导 | 情感咨询 | 健康咨询 | 购物客服 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
🏅️ | 讯飞星火(实时语音) | 76.18 | 71.88 | 100 | 79.4 | 95 | 94.2 | 70 | 64.2 | 79.6 | 85.8 | 67.6 | 77.2 | 59.6 | 61 | 70 | 68.4 | 2024.12.24 |
- | GPT-4o(高级语音) | 73.04 | 65.12 | 78.95 | 88.2 | 92.6 | 84.6 | 78.6 | 44.2 | 71.4 | 80 | 90 | 86.6 | 58.6 | 64.8 | 62 | 68.6 | 2024.12.24 |
🥈 | 豆包(实时语音) | 70.76 | 62.88 | 75.69 | 69.4 | 97.6 | 88.2 | 55.8 | 65.8 | 77.6 | 80 | 86.2 | 76.6 | 59.6 | 54.2 | 71.4 | 60 | 2024.12.24 |
🥉 | 海螺AI(实时语音) | 69.64 | 60.77 | 58.31 | 73.8 | 97.6 | 80.8 | 80 | 52.8 | 81.4 | 77.2 | 76.2 | 82.8 | 58 | 65.6 | 63.4 | 63.4 | 2024.12.24 |
4 | 智谱清言(实时语音) | 60.79 | 33.34 | 75.25 | 72.6 | 83.8 | 74 | 67.2 | 38.6 | 78.6 | 59 | 80 | 81.8 | 62.8 | 61 | 68 | 70 | 2024.12.24 |
5 | 通义(实时语音) | 59.76 | 14.21 | 65.47 | 60.6 | 96.2 | 72.8 | 81.4 | 62.8 | 79 | 85.8 | 82.6 | 83.8 | 66.6 | 68.6 | 71.4 | 73.4 | 2024.12.24 |
5 | Kimi(实时语音) | 59.3 | 29.47 | 26 | 57 | 92.6 | 73.6 | 82.8 | 42.8 | 82.8 | 89.6 | 90 | 80.4 | 58 | 61 | 71.4 | 68.4 | 2024.12.24 |
6 | 文小言(实时语音) | 47.55 | 0 | 50.92 | 49.2 | 90 | 55.8 | 84.2 | 65.8 | 93.4 | 34.2 | 90 | 34.2 | 68.6 | 51.4 | 61.8 | 60 | 2024.12.24 |
SuperCLUE测评产品列表(2024年12月)
产品名称 | 所属团队 | 属地 | 手机型号 | 使用 | 版本号 | 发布日期 |
---|---|---|---|---|---|---|
GPT-4o(高级语音) | OpenAI | 海外 | Xiaomi 12T Pro | 安卓端APP | 1.2024.310 | 2024.12.24 |
海螺AI(实时语音) | MiniMax | 国内 | Xiaomi 12T Pro | 安卓端APP | 2.28.1 | 2024.12.24 |
讯飞星火(实时语音) | 科大讯飞 | 国内 | Xiaomi 12T Pro | 安卓端APP | 4.0.18 | 2024.12.24 |
豆包(实时语音) | 字节跳动 | 国内 | Xiaomi 12T Pro | 安卓端APP | 6.4.0 | 2024.12.24 |
智谱清言(实时语音) | 清华&智谱AI | 国内 | Xiaomi 12T Pro | 安卓端APP | 2.6.5 | 2024.12.24 |
通义(实时语音) | 阿里巴巴 | 国内 | Xiaomi 12T Pro | 安卓端APP | 3.19.0 | 2024.12.24 |
文小言(实时语音) | 百度 | 国内 | Xiaomi 12T Pro | 安卓端APP | 4.4.5.10 | 2024.12.24 |
Kimi(实时语音) | 月之暗面 | 国内 | Xiaomi 12T Pro | 安卓端APP | 1.6.5 | 2024.12.24 |
排名 | 模型名称 | 机构 | 总分 | 基础能力 | 场景应用 | 发布日期 |
---|---|---|---|---|---|---|
🏅️ | 豆包.语音合成模型 | 字节跳动 | 93.06 | 95.8 | 90.32 | 2024.12.12 |
🥈 | 百度TTS | 百度 | 89.9 | 90.95 | 88.84 | 2024.12.12 |
🥈 | 讯飞TTS | 科大讯飞 | 89.61 | 89.9 | 89.32 | 2024.12.12 |
- | Microsoft TTS | Microsoft | 88.99 | 93.9 | 84.08 | 2024.12.12 |
🥉 | CosyVoice | 阿里巴巴 | 86.83 | 86.9 | 86.76 | 2024.12.12 |
4 | speech-01-turbo | MiniMax | 82.92 | 90.55 | 75.28 | 2024.12.12 |
- | tts-1-hd | OpenAI | 78.04 | 84.4 | 71.68 | 2024.12.12 |
- | Google TTS | Google | 72.56 | 78.6 | 66.52 | 2024.12.12 |
- | Eleven Multilingual v2 | ElevenLabs | 66.05 | 72.05 | 60.04 | 2024.12.12 |
5 | 华为TTS | 华为 | 65.45 | 71.3 | 59.6 | 2024.12.12 |
排名 | 模型名称 | 基础能力 | 准确性 | 清晰度 | 自然度 | 情感表现 | 发布日期 |
---|---|---|---|---|---|---|---|
🏅️ | 豆包.语音合成模型 | 95.8 | 98.4 | 96.4 | 95.6 | 92.8 | 2024.12.12 |
- | Microsoft TTS | 93.9 | 94 | 97.6 | 95.2 | 88.8 | 2024.12.12 |
🥈 | 百度TTS | 90.95 | 93.6 | 96.4 | 94.8 | 79 | 2024.12.12 |
🥈 | speech-01-turbo | 90.55 | 88.6 | 96.4 | 92.6 | 84.6 | 2024.12.12 |
🥉 | 讯飞TTS | 89.9 | 91.6 | 97.2 | 95.6 | 75.2 | 2024.12.12 |
4 | CosyVoice | 86.9 | 85.2 | 95.2 | 95.2 | 72 | 2024.12.12 |
- | tts-1-hd | 84.4 | 86.6 | 89.8 | 84.4 | 76.8 | 2024.12.12 |
- | Google TTS | 78.6 | 89.2 | 97 | 78 | 50.2 | 2024.12.12 |
- | Eleven Multilingual v2 | 72.05 | 74.6 | 78.2 | 76.2 | 59.2 | 2024.12.12 |
5 | 华为TTS | 71.3 | 85.2 | 85.6 | 63 | 51.4 | 2024.12.12 |
排名 | 模型名称 | 场景应用 | 语音导航 | 有声读物 | 语音播报 | 内容配音 | 直播广告 | 发布日期 |
---|---|---|---|---|---|---|---|---|
🏅️ | 豆包.语音合成模型 | 90.32 | 92.6 | 93.2 | 94 | 84.2 | 87.6 | 2024.12.12 |
🏅️ | 讯飞TTS | 89.32 | 94.8 | 90.2 | 93.6 | 84 | 84 | 2024.12.12 |
🥈 | 百度TTS | 88.84 | 90.2 | 94.6 | 93.2 | 91 | 75.2 | 2024.12.12 |
🥉 | CosyVoice | 86.76 | 94.8 | 84.6 | 90.2 | 88 | 76.2 | 2024.12.12 |
- | Microsoft TTS | 84.08 | 92 | 86.2 | 82.6 | 84.8 | 74.8 | 2024.12.12 |
4 | speech-01-turbo | 75.28 | 73.8 | 90.8 | 71.6 | 74.2 | 66 | 2024.12.12 |
- | tts-1-hd | 71.68 | 68.8 | 78.2 | 69.2 | 75.2 | 67 | 2024.12.12 |
- | Google TTS | 66.52 | 80 | 53 | 82.6 | 62 | 55 | 2024.12.12 |
- | Eleven Multilingual v2 | 60.04 | 56 | 55.8 | 56.8 | 67 | 64.6 | 2024.12.12 |
5 | 华为TTS | 59.6 | 77.6 | 47 | 68 | 49.8 | 55.6 | 2024.12.12 |
排名 | 模型名称 | 总分 | 准确性 | 清晰度 | 自然度 | 情感表现 | 语音导航 | 有声读物 | 语音播报 | 内容配音 | 直播广告 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
🏅️ | 豆包.语音合成模型 | 93.06 | 98.4 | 96.4 | 95.6 | 92.8 | 92.6 | 93.2 | 94 | 84.2 | 87.6 | 2024.12.12 |
🥈 | 百度TTS | 89.9 | 94 | 97.6 | 95.2 | 88.8 | 94.8 | 90.2 | 93.6 | 84 | 84 | 2024.12.12 |
🥈 | 讯飞TTS | 89.61 | 93.6 | 96.4 | 94.8 | 79 | 90.2 | 94.6 | 93.2 | 91 | 75.2 | 2024.12.12 |
- | Microsoft TTS | 88.99 | 88.6 | 96.4 | 92.6 | 84.6 | 94.8 | 84.6 | 90.2 | 88 | 76.2 | 2024.12.12 |
🥉 | CosyVoice | 86.83 | 91.6 | 97.2 | 95.6 | 75.2 | 92 | 86.2 | 82.6 | 84.8 | 74.8 | 2024.12.12 |
4 | speech-01-turbo | 82.92 | 85.2 | 95.2 | 95.2 | 72 | 73.8 | 90.8 | 71.6 | 74.2 | 66 | 2024.12.12 |
- | tts-1-hd | 78.04 | 86.6 | 89.8 | 84.4 | 76.8 | 68.8 | 78.2 | 69.2 | 75.2 | 67 | 2024.12.12 |
- | Google TTS | 72.56 | 89.2 | 97 | 78 | 50.2 | 80 | 53 | 82.6 | 62 | 55 | 2024.12.12 |
- | Eleven Multilingual v2 | 66.05 | 74.6 | 78.2 | 76.2 | 59.2 | 56 | 55.8 | 56.8 | 67 | 64.6 | 2024.12.12 |
5 | 华为TTS | 65.45 | 85.2 | 85.6 | 63 | 51.4 | 77.6 | 47 | 68 | 49.8 | 55.6 | 2024.12.12 |
排名 | 模型 | 机构 | 总分 | 基础能力 | 场景应用 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|
- | chatgpt-4o-latest | OpenAI | 73.41 | 79.23 | 71.33 | 网页 | 2024.11.27 |
🏅️ | Kimi 探索版 | 月之暗面 | 72.7 | 80.2 | 70.02 | 网页 | 2024.11.27 |
🥈 | 秘塔AI搜索(研究模式) | 秘塔科技 | 64.68 | 69.87 | 62.83 | 网页 | 2024.11.27 |
- | Gemini-1.5-Pro-Search | Google | 64.41 | 73.3 | 61.24 | POE | 2024.11.27 |
🥉 | 智谱清言AI搜索 | 智谱AI | 63.61 | 70.2 | 61.26 | 网页 | 2024.11.27 |
4 | 海螺AI | Minimax | 61.66 | 69.8 | 58.98 | 网页 | 2024.11.27 |
4 | 360AI搜索(深入回答) | 360 | 60.95 | 64.47 | 59.69 | 网页 | 2024.11.27 |
4 | 文小言 | 百度 | 60.67 | 58.33 | 61.5 | APP | 2024.11.27 |
5 | 通义千问(深度搜索) | 阿里云 | 60.46 | 66.27 | 58.38 | 网页 | 2024.11.27 |
5 | 天工AI搜索(高级模式) | 昆仑万维 | 59.53 | 68.27 | 56.4 | 网页 | 2024.11.27 |
- | Perplexity(一般模式) | Perplexity AI | 59.24 | 67.43 | 56.31 | 网页 | 2024.11.27 |
6 | 豆包AI搜索(深入搜索) | 字节跳动 | 55.75 | 54.8 | 56.09 | 网页 | 2024.11.27 |
7 | 星火AI搜索 | 科大讯飞 | 52.07 | 50.8 | 52.52 | 网页 | 2024.11.27 |
- | Bing Search | 微软 | 35.58 | 30 | 37.57 | POE | 2024.11.27 |
排名 | 模型 | 机构 | 基础能力 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
🏅️ | Kimi 探索版 | 月之暗面 | 80.2 | 网页 | 2024.11.27 |
- | chatgpt-4o-latest | OpenAI | 79.23 | 网页 | 2024.11.27 |
- | Gemini-1.5-Pro-Search | Google | 73.3 | POE | 2024.11.27 |
🥈 | 智谱清言AI搜索 | 智谱AI | 70.2 | 网页 | 2024.11.27 |
🥈 | 秘塔AI搜索(研究模式) | 秘塔科技 | 69.87 | 网页 | 2024.11.27 |
🥈 | 海螺AI | Minimax | 69.8 | 网页 | 2024.11.27 |
🥉 | 天工AI搜索(高级模式) | 昆仑万维 | 68.27 | 网页 | 2024.11.27 |
- | Perplexity(一般模式) | Perplexity AI | 67.43 | 网页 | 2024.11.27 |
4 | 通义千问(深度搜索) | 阿里云 | 66.27 | 网页 | 2024.11.27 |
5 | 360AI搜索(深入回答) | 360 | 64.47 | 网页 | 2024.11.27 |
6 | 文小言 | 百度 | 58.33 | APP | 2024.11.27 |
7 | 豆包AI搜索(深入搜索) | 字节跳动 | 54.8 | 网页 | 2024.11.27 |
8 | 星火AI搜索 | 科大讯飞 | 50.8 | 网页 | 2024.11.27 |
- | Bing Search | 微软 | 30 | POE | 2024.11.27 |
排名 | 模型 | 机构 | 场景应用 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
- | chatgpt-4o-latest | OpenAI | 71.33 | 网页 | 2024.11.27 |
🏅️ | Kimi 探索版 | 月之暗面 | 70.02 | 网页 | 2024.11.27 |
🥈 | 秘塔AI搜索(研究模式) | 秘塔科技 | 62.83 | 网页 | 2024.11.27 |
🥉 | 文小言 | 百度 | 61.5 | APP | 2024.11.27 |
🥉 | 智谱清言AI搜索 | 智谱AI | 61.26 | 网页 | 2024.11.27 |
- | Gemini-1.5-Pro-Search | Google | 61.24 | POE | 2024.11.27 |
4 | 360AI搜索(深入回答) | 360 | 59.69 | 网页 | 2024.11.27 |
4 | 海螺AI | Minimax | 58.98 | 网页 | 2024.11.27 |
5 | 通义千问(深度搜索) | 阿里云 | 58.38 | 网页 | 2024.11.27 |
6 | 天工AI搜索(高级模式) | 昆仑万维 | 56.4 | 网页 | 2024.11.27 |
- | Perplexity(一般模式) | Perplexity AI | 56.31 | 网页 | 2024.11.27 |
6 | 豆包AI搜索(深入搜索) | 字节跳动 | 56.09 | 网页 | 2024.11.27 |
7 | 星火AI搜索 | 科大讯飞 | 52.52 | 网页 | 2024.11.27 |
- | Bing Search | 微软 | 37.57 | POE | 2024.11.27 |
排名 | 模型 | 机构 | 主观题 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
🏅️ | Kimi 探索版 | 月之暗面 | 72.98 | 网页 | 2024.11.27 |
- | chatgpt-4o-latest | OpenAI | 72.65 | 网页 | 2024.11.27 |
- | Gemini-1.5-Pro-Search | Google | 65.74 | POE | 2024.11.27 |
🥈 | 智谱清言AI搜索 | 智谱AI | 65.33 | 网页 | 2024.11.27 |
🥈 | 文小言 | 百度 | 64.77 | APP | 2024.11.27 |
🥉 | 海螺AI | MiniMax | 64.21 | 网页 | 2024.11.27 |
4 | 天工AI搜索(高级模式) | 昆仑万维 | 62.91 | 网页 | 2024.11.27 |
4 | 豆包AI搜索(深入搜索) | 字节跳动 | 62.8 | 网页 | 2024.11.27 |
5 | 通义千问(深度搜索) | 阿里云 | 61.61 | 网页 | 2024.11.27 |
6 | 360AI搜索(深入回答) | 360 | 60.49 | 网页 | 2024.11.27 |
- | Perplexity(一般模式) | Perplexity AI | 57.42 | 网页 | 2024.11.27 |
7 | 秘塔AI搜索(研究模式) | 秘塔科技 | 56.53 | 网页 | 2024.11.27 |
8 | 星火AI搜索 | 科大讯飞 | 51.58 | 网页 | 2024.11.27 |
- | Bing Search | 微软 | 39.58 | POE | 2024.11.27 |
排名 | 模型 | 机构 | 客观题 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
- | chatgpt-4o-latest | OpenAI | 74.18 | 网页 | 2024.11.27 |
🏅️ | 秘塔AI搜索(研究模式) | 秘塔科技 | 72.84 | 网页 | 2024.11.27 |
🏅️ | Kimi 探索版 | 月之暗面 | 72.42 | 网页 | 2024.11.27 |
- | Gemini-1.5-Pro-Search | Google | 63.09 | POE | 2024.11.27 |
🥈 | 智谱清言AI搜索 | 智谱AI | 61.89 | 网页 | 2024.11.27 |
🥈 | 360AI搜索(深入回答) | 360 | 61.4 | 网页 | 2024.11.27 |
- | Perplexity(一般模式) | Perplexity AI | 61.05 | 网页 | 2024.11.27 |
🥉 | 海螺AI | Minimax | 59.44 | 网页 | 2024.11.27 |
🥉 | 通义千问(深度搜索) | 阿里云 | 59.3 | 网页 | 2024.11.27 |
4 | 文小言 | 百度 | 56.56 | APP | 2024.11.27 |
4 | 天工AI搜索(高级模式) | 昆仑万维 | 56.14 | 网页 | 2024.11.27 |
5 | 星火AI搜索 | 科大讯飞 | 52.56 | 网页 | 2024.11.27 |
6 | 豆包AI搜索(深入搜索) | 字节跳动 | 48.7 | 网页 | 2024.11.27 |
- | Bing Search | 微软 | 31.58 | POE | 2024.11.27 |
SuperCLUE总榜(2024年11月)
排名 | 模型名称 | 所属机构 | 总分 | 基础与技术 | 应用场景 | 发布日期 |
---|---|---|---|---|---|---|
🥇 | PixVerse V3 | 爱诗科技 | 82.02 | 78.93 | 85.1 | 2024.11.12 |
🥇 | 海螺视频 | MiniMax | 81.5 | 78.2 | 84.8 | 2024.11.12 |
🥈 | 可灵AI 1.5 | 快手 | 80.92 | 76.23 | 85.6 | 2024.11.12 |
- | Luma DreamMachine1.6 | Luma AI | 79.97 | 76.93 | 83 | 2024.11.12 |
🥉 | 通义万相 | 阿里云 | 78.19 | 74.67 | 81.7 | 2024.11.12 |
4 | Dreamina即梦AI | 字节跳动 | 75.56 | 70.27 | 80.85 | 2024.11.12 |
- | Pika1.5 | Pika Labs | 75.1 | 72.4 | 77.8 | 2024.11.12 |
- | Runway Gen3 | Runway | 74.55 | 69.1 | 80 | 2024.11.12 |
5 | Vidu | 生数科技 | 73.49 | 67.53 | 79.45 | 2024.11.12 |
6 | 智谱清影 | 智谱AI | 72.32 | 73.6 | 71.03 | 2024.11.12 |
SuperCLUE基础与技术榜单(2024年11月)
排名 | 模型 | 所属机构 | 基础与技术 | 视频画质 | 外观遵循能力 | 动态遵循能力 | 发布日期 |
---|---|---|---|---|---|---|---|
🥇 | PixVerse V3 | 爱诗科技 | 78.93 | 95.2 | 76 | 65.6 | 2024.11.12 |
🥇 | 海螺视频 | MiniMax | 78.2 | 93.4 | 75.4 | 65.8 | 2024.11.12 |
- | Luma DreamMachine1.6 | Luma AI | 76.93 | 88.4 | 79 | 63.4 | 2024.11.12 |
🥈 | 可灵AI 1.5 | 快手 | 76.23 | 88 | 72.8 | 67.9 | 2024.11.12 |
🥉 | 通义万相 | 阿里云 | 74.67 | 92.4 | 76.2 | 55.4 | 2024.11.12 |
4 | 智谱清影 | 智谱AI | 73.6 | 78.8 | 74.6 | 67.4 | 2024.11.12 |
- | Pika1.5 | Pika Labs | 72.4 | 90.8 | 67 | 59.4 | 2024.11.12 |
5 | Dreamina即梦AI | 字节跳动 | 70.27 | 93 | 67.1 | 50.7 | 2024.11.12 |
- | Runway Gen3 | Runway | 69.1 | 91.1 | 60.5 | 55.7 | 2024.11.12 |
6 | Vidu | 生数科技 | 67.53 | 80.4 | 65.2 | 57 | 2024.11.12 |
SuperCLUE应用场景榜单(2024年11月)
排名 | 模型 | 所属机构 | 应用场景 | 日常生活 | 影视 | 应用 | 中国文化场景 | 发布日期 |
---|---|---|---|---|---|---|---|---|
🥇 | 可灵AI 1.5 | 快手 | 85.6 | 89.5 | 81.1 | 86.2 | 85.6 | 2024.11.12 |
🥇 | PixVerse V3 | 爱诗科技 | 85.1 | 88.8 | 81.2 | 85.2 | 85.2 | 2024.11.12 |
🥇 | 海螺视频 | MiniMax | 84.8 | 90.4 | 80.2 | 82.8 | 85.8 | 2024.11.12 |
- | Luma DreamMachine1.6 | Luma AI | 83 | 90.2 | 75 | 82.6 | 84.2 | 2024.11.12 |
🥈 | 通义万相 | 阿里云 | 81.7 | 91 | 75.6 | 78.2 | 82 | 2024.11.12 |
🥈 | Dreamina即梦AI | 字节跳动 | 80.85 | 89 | 71.4 | 80.4 | 82.6 | 2024.11.12 |
- | Runway Gen3 | Runway | 80 | 90.4 | 73.2 | 77.4 | 79 | 2024.11.12 |
🥉 | Vidu | 生数科技 | 79.45 | 83.8 | 71.4 | 80.4 | 82.2 | 2024.11.12 |
- | Pika1.5 | Pika Labs | 77.8 | 84 | 74.4 | 73.4 | 79.4 | 2024.11.12 |
4 | 智谱清影 | 智谱AI | 71.03 | 75.9 | 63.4 | 75.1 | 69.7 | 2024.11.12 |
SuperCLUE七大任务榜单(2024年11月)
模型 | 所属机构 | 视频画质 | 外观遵循能力 | 动态遵循能力 | 日常生活 | 影视 | 应用 | 中国文化场景 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|
PixVerse V3 | 爱诗科技 | 95.2 | 76 | 65.6 | 88.8 | 81.2 | 85.2 | 85.2 | 2024.11.12 |
海螺视频 | MiniMax | 93.4 | 75.4 | 65.8 | 90.4 | 80.2 | 82.8 | 85.8 | 2024.11.12 |
可灵AI 1.5 | 快手 | 88 | 72.8 | 67.9 | 89.5 | 81.1 | 86.2 | 85.6 | 2024.11.12 |
Luma DreamMachine1.6 | Luma AI | 88.4 | 79 | 63.4 | 90.2 | 75 | 82.6 | 84.2 | 2024.11.12 |
通义万相 | 阿里云 | 92.4 | 76.2 | 55.4 | 91 | 75.6 | 78.2 | 82 | 2024.11.12 |
Dreamina即梦AI | 字节跳动 | 93 | 67.1 | 50.7 | 89 | 71.4 | 80.4 | 82.6 | 2024.11.12 |
Pika1.5 | Pika Labs | 90.8 | 67 | 59.4 | 84 | 74.4 | 73.4 | 79.4 | 2024.11.12 |
Runway Gen3 | Runway | 91.1 | 60.5 | 55.7 | 90.4 | 73.2 | 77.4 | 79 | 2024.11.12 |
Vidu | 生数科技 | 80.4 | 65.2 | 57 | 83.8 | 71.4 | 80.4 | 82.2 | 2024.11.12 |
智谱清影 | 智谱AI | 78.8 | 74.6 | 67.4 | 75.9 | 63.4 | 75.1 | 69.7 | 2024.11.12 |
SuperCLUE总榜(2024年10月)
排名 | 模型名称 | 机构 | 总分 | 基础认知能力 | 应用能力 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|
- | ChatGPT-4o-latest | OpenAI | 77.81 | 74.06 | 80.75 | API | 2024年10月10日 |
- | GPT-4o-2024-05-13 | OpenAI | 75.12 | 70.83 | 77.94 | API | 2024年10月10日 |
1 | Step-1V-8k | 阶跃星辰 | 73.98 | 71.59 | 75.85 | API | 2024年10月10日 |
1 | hunyuan-vision | 腾讯混元 | 73.6 | 69.71 | 78.21 | API | 2024年10月10日 |
1 | SenseChat-Vision 5.5 | 商汤 | 73.56 | 71.12 | 74.86 | API | 2024年10月10日 |
- | Claude-3.5-Sonnet | Anthropic | 73.29 | 71.74 | 73.87 | POE | 2024年10月10日 |
2 | InternVL2-40B | 上海人工智能实验室 | 72.51 | 71.06 | 73.86 | 模型 | 2024年10月10日 |
- | Gemini-1.5-Pro | Google | 70.73 | 72.04 | 69.11 | POE | 2024年10月10日 |
3 | ERNIE-4-Turbo | 百度 | 69.3 | 67.05 | 70.85 | 网页 | 2024年10月10日 |
3 | Qwen2-VL-72B | 阿里云 | 68.36 | 64.5 | 70.86 | API | 2024年10月10日 |
4 | GLM-4V-Plus | 智谱AI | 67.49 | 66.58 | 69.06 | API | 2024年10月10日 |
4 | MiniCpm-V2.6 | 面壁智能 | 66.86 | 66.04 | 66.84 | 模型 | 2024年10月10日 |
- | GPT-4-Turbo-0409 | OpenAI | 65.93 | 66.28 | 65 | API | 2024年10月10日 |
5 | 海螺AI | MiniMax | 65 | 62.72 | 65.63 | 网页 | 2024年10月10日 |
5 | Yi-Vision | 零一万物 | 64.44 | 65 | 62.42 | API | 2024年10月10日 |
6 | DeekSeek-VL-7b-chat | 深度求索 | 55.8 | 57.82 | 54.46 | 模型 | 2024年10月10日 |
- | Phi-3.5-vision-Instruct | 微软 | 45 | 47.14 | 42.26 | 模型 | 2024年10月10日 |
SuperCLUE基础认知能力(2024年10月)
排名 | 模型名称 | 机构 | 分数 | 粗粒度视觉认知 | 细粒度视觉认知 | 数理逻辑分析 | 多模态多轮问答 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|
- | ChatGPT-4o-latest | OpenAI | 74.06 | 76.6 | 66.9 | 75.21 | 77.51 | API | 2024年10月10日 |
- | Gemini-1.5-Pro | Google | 72.04 | 73.3 | 64.83 | 75.16 | 74.88 | POE | 2024年10月10日 |
- | Claude-3.5-Sonnet | Anthropic | 71.74 | 73.18 | 67.24 | 73.75 | 72.81 | POE | 2024年10月10日 |
1 | Step-1V-8k | 阶跃星辰 | 71.59 | 72.8 | 67.41 | 72.33 | 73.81 | API | 2024年10月10日 |
1 | SenseChat-Vision 5.5 | 商汤 | 71.12 | 69.29 | 65.74 | 76.29 | 73.17 | API | 2024年10月10日 |
1 | InternVL2-40B | 上海人工智能实验室 | 71.06 | 70.8 | 65.86 | 72.91 | 74.65 | 模型 | 2024年10月10日 |
- | GPT-4o-2024-05-13 | OpenAI | 70.83 | 73.78 | 66.03 | 72.55 | 70.98 | API | 2024年10月10日 |
2 | hunyuan-vision | 腾讯混元 | 69.71 | 71.74 | 61.21 | 69.72 | 76.18 | API | 2024年10月10日 |
3 | ERNIE-4-Turbo | 百度 | 67.05 | 70.21 | 59.2 | 65.79 | 73 | 网页 | 2024年10月10日 |
3 | GLM-4V-Plus | 智谱AI | 66.58 | 68.44 | 64.48 | 58.2 | 75.18 | API | 2024年10月10日 |
- | GPT-4-Turbo-0409 | OpenAI | 66.28 | 70.77 | 56.21 | 66.83 | 71.33 | API | 2024年10月10日 |
4 | MiniCpm-V2.6 | 面壁智能 | 66.04 | 71.01 | 56.38 | 65.75 | 71 | 模型 | 2024年10月10日 |
4 | Yi-Vision | 零一万物 | 65 | 67.75 | 56.9 | 69.34 | 65.99 | API | 2024年10月10日 |
5 | Qwen2-VL-72B | 阿里云 | 64.5 | 65.8 | 66.72 | 63.33 | 62.15 | API | 2024年10月10日 |
6 | 海螺AI | MiniMax | 62.72 | 65.6 | 53.1 | 67.87 | 64.31 | 网页 | 2024年10月10日 |
7 | DeekSeek-VL-7b-chat | 深度求索 | 57.82 | 66.53 | 45.52 | 48.24 | 70.99 | 模型 | 2024年10月10日 |
- | Phi-3.5-vision-Instruct | 微软 | 47.14 | 52.45 | 44.48 | 41.98 | 49.67 | 模型 | 2024年10月10日 |
SuperCLUE应用能力(2024年10月)
排名 | 模型名称 | 机构 | 分数 | 通用场景 | 常识问答 | 图像OCR识别与理解 | 中文元素理解和推理 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|
- | ChatGPT-4o-latest | OpenAI | 80.75 | 76.93 | 85.23 | 83.38 | 77.46 | API | 2024年10月10日 |
1 | hunyuan-vision | 腾讯混元 | 78.21 | 68.09 | 80.98 | 84.76 | 79 | API | 2024年10月10日 |
- | GPT-4o-2024-05-13 | OpenAI | 77.94 | 74.85 | 80.25 | 85.25 | 71.39 | API | 2024年10月10日 |
2 | Step-1V-8k | 阶跃星辰 | 75.85 | 73.81 | 79.19 | 76.75 | 73.64 | API | 2024年10月10日 |
2 | SenseChat-Vision 5.5 | 商汤 | 74.86 | 73.05 | 77.56 | 82.75 | 66.08 | API | 2024年10月10日 |
- | Claude-3.5-Sonnet | Anthropic | 73.87 | 72.14 | 78.52 | 76 | 68.81 | POE | 2024年10月10日 |
3 | InternVL2-40B | 上海人工智能实验室 | 73.86 | 69.13 | 79.77 | 76.88 | 69.65 | 模型 | 2024年10月10日 |
4 | Qwen2-VL-72B | 阿里云 | 70.86 | 70.16 | 69.2 | 78.5 | 65.59 | API | 2024年10月10日 |
4 | ERNIE-4-Turbo | 百度 | 70.85 | 68.87 | 76.82 | 69.21 | 68.5 | 网页 | 2024年10月10日 |
- | Gemini-1.5-Pro | Google | 69.11 | 68.66 | 73.98 | 67.38 | 66.43 | POE | 2024年10月10日 |
5 | GLM-4V-Plus | 智谱AI | 69.06 | 65.21 | 74.09 | 71.25 | 65.71 | API | 2024年10月10日 |
6 | MiniCpm-V2.6 | 面壁智能 | 66.84 | 63.97 | 69.55 | 73.25 | 60.6 | 模型 | 2024年10月10日 |
7 | 海螺AI | MiniMax | 65.63 | 64.33 | 69.53 | 69.62 | 59.05 | 网页 | 2024年10月10日 |
- | GPT-4-Turbo-0409 | OpenAI | 65 | 64.07 | 73.5 | 61.5 | 60.95 | API | 2024年10月10日 |
8 | Yi-Vision | 零一万物 | 62.42 | 62.46 | 61.25 | 72.62 | 53.33 | API | 2024年10月10日 |
9 | DeekSeek-VL-7b-chat | 深度求索 | 54.46 | 51.84 | 62.05 | 47.75 | 56.19 | 模型 | 2024年10月10日 |
- | Phi-3.5-vision-Instruct | 微软 | 42.26 | 48.31 | 37.74 | 42.62 | 40.35 | 模型 | 2024年10月10日 |
SuperCLUE八大任务榜单(2024年10月)
模型名称 | 机构 | 粗粒度视觉认知 | 细粒度视觉认知 | 数理逻辑分析 | 多模态多轮问答 | 通用场景 | 常识问答 | 图像OCR识别与理解 | 中文元素理解和推理 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|
ChatGPT-4o-latest | OpenAI | 76.6 | 66.9 | 75.21 | 77.51 | 76.93 | 85.23 | 83.38 | 77.46 | API | 2024年10月10日 |
GPT-4o-2024-05-13 | OpenAI | 73.78 | 66.03 | 72.55 | 70.98 | 74.85 | 80.25 | 85.25 | 71.39 | API | 2024年10月10日 |
Step-1V-8k | 阶跃星辰 | 72.8 | 67.41 | 72.33 | 73.81 | 73.81 | 79.19 | 76.75 | 73.64 | API | 2024年10月10日 |
hunyuan-vision | 腾讯混元 | 71.74 | 61.21 | 69.72 | 76.18 | 68.09 | 80.98 | 84.76 | 79 | API | 2024年10月10日 |
SenseChat-Vision 5.5 | 商汤 | 69.29 | 65.74 | 76.29 | 73.17 | 73.05 | 77.56 | 82.75 | 66.08 | API | 2024年10月10日 |
Claude-3.5-Sonnet | Anthropic | 73.18 | 67.24 | 73.75 | 72.81 | 72.14 | 78.52 | 76 | 68.81 | POE | 2024年10月10日 |
InternVL2-40B | 上海人工智能实验室 | 70.8 | 65.86 | 72.91 | 74.65 | 69.13 | 79.77 | 76.88 | 69.65 | 模型 | 2024年10月10日 |
Gemini-1.5-Pro | Google | 73.3 | 64.83 | 75.16 | 74.88 | 68.66 | 73.98 | 67.38 | 66.43 | POE | 2024年10月10日 |
ERNIE-4-Turbo | 百度 | 70.21 | 59.2 | 65.79 | 73 | 68.87 | 76.82 | 69.21 | 68.5 | 网页 | 2024年10月10日 |
Qwen2-VL-72B | 阿里云 | 65.8 | 66.72 | 63.33 | 62.15 | 70.16 | 69.2 | 78.5 | 65.59 | API | 2024年10月10日 |
GLM-4V-Plus | 智谱AI | 68.44 | 64.48 | 58.2 | 75.18 | 65.21 | 74.09 | 71.25 | 65.71 | API | 2024年10月10日 |
MiniCpm-V2.6 | 面壁智能 | 71.01 | 56.38 | 65.75 | 71 | 63.97 | 69.55 | 73.25 | 60.6 | 模型 | 2024年10月10日 |
GPT-4-Turbo-0409 | OpenAI | 70.77 | 56.21 | 66.83 | 71.33 | 64.07 | 73.5 | 61.5 | 60.95 | API | 2024年10月10日 |
海螺AI | MiniMax | 65.6 | 53.1 | 67.87 | 64.31 | 64.33 | 69.53 | 69.62 | 59.05 | 网页 | 2024年10月10日 |
Yi-Vision | 零一万物 | 67.75 | 56.9 | 69.34 | 65.99 | 62.46 | 61.25 | 72.62 | 53.33 | API | 2024年10月10日 |
DeekSeek-VL-7b-chat | 深度求索 | 66.53 | 45.52 | 48.24 | 70.99 | 51.84 | 62.05 | 47.75 | 56.19 | 模型 | 2024年10月10日 |
Phi-3.5-vision-Instruct | 微软 | 52.45 | 44.48 | 41.98 | 49.67 | 48.31 | 37.74 | 42.62 | 40.35 | 模型 | 2024年10月10日 |
SuperCLUEAgent总榜(2024年10-12月)
排名 | 模型 | 机构 | 总分 | 任务规划 | 工具使用 | 长短期记忆 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | GPT-4o-2024-05-13 | OpenAI | 78.37 | 75.39 | 75.24 | 85.46 | API | 2024年10月12日 |
1 | ERNIE-4-8k-latest | 百度 | 75.27 | 74.39 | 72.71 | 79.54 | API | 2024年10月12日 |
1 | TeleChat2-Large | 中国电信人工智能研究院(TeleAI) | 74.48 | 71.86 | 71.94 | 80.43 | API | 2024年12月23日 |
2 | Qwen-2-72B-Instruct | 阿里云 | 74.02 | 73.3 | 72.08 | 77.36 | API | 2024年10月12日 |
2 | TeleChat2 | 中国电信人工智能研究院(TeleAI) | 73.72 | 71.02 | 70.14 | 81.11 | API | 2024年10月12日 |
3 | GLM-4-9B-Chat | 智谱AI | 69.62 | 69.7 | 65.9 | 74.5 | 模型 | 2024年10月12日 |
- | GPT-3.5-0125 | OpenAI | 65.43 | 61.75 | 63.26 | 71.94 | API | 2024年10月12日 |
4 | Baichuan-2-13B-Chat-v2 | 百川智能 | 62.68 | 57.49 | 59.69 | 71.76 | 模型 | 2024年10月12日 |
4 | Yi-1.5-6B-Chat | 零一万物 | 62.22 | 64.28 | 58.19 | 65.73 | 模型 | 2024年10月12日 |
- | Phi-3-mini-128k-instruct | 微软 | 55.27 | 55.47 | 56.28 | 53.7 | 模型 | 2024年10月12日 |
- | Gemma-7b-it | Google | 51.33 | 47.1 | 51.55 | 55.19 | 模型 | 2024年10月12日 |
SuperCLUE任务规划(2024年10-12月)
排名 | 模型名称 | 机构 | 分数 | 任务分解 | 思维链 | 自我反思 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | GPT-4o-2024-05-13 | OpenAI | 75.39 | 71.91 | 80.18 | 73.89 | API | 2024年10月12日 |
1 | ERNIE-4-8k-latest | 百度 | 74.39 | 68.32 | 81.19 | 73.33 | API | 2024年10月12日 |
2 | Qwen-2-72B-Instruct | 阿里云 | 73.3 | 68.33 | 76.01 | 75.28 | API | 2024年10月12日 |
3 | TeleChat2-Large | 中国电信人工智能研究院(TeleAI) | 71.86 | 68.52 | 67.58 | 79.31 | API | 2024年12月23日 |
3 | TeleChat2 | 中国电信人工智能研究院(TeleAI) | 71.02 | 69.22 | 68.61 | 75.14 | API | 2024年10月12日 |
4 | GLM-4-9B-Chat | 智谱AI | 69.7 | 67.64 | 70.93 | 70.42 | 模型 | 2024年10月12日 |
5 | Yi-1.5-6B-Chat | 零一万物 | 64.28 | 64.7 | 62.32 | 65.83 | 模型 | 2024年10月12日 |
- | GPT-3.5-0125 | OpenAI | 61.75 | 59.41 | 58.33 | 67.36 | API | 2024年10月12日 |
6 | Baichuan-2-13B-Chat-v2 | 百川智能 | 57.49 | 64.7 | 51.22 | 56.94 | 模型 | 2024年10月12日 |
- | Phi-3-mini-128k-instruct | 微软 | 55.47 | 55.09 | 49.92 | 61.39 | 模型 | 2024年10月12日 |
- | Gemma-7b-it | Google | 47.1 | 52.93 | 34.26 | 54.44 | 模型 | 2024年10月12日 |
SuperCLUE工具使用(2024年10-12月)
排名 | 模型名称 | 机构 | 分数 | 检索API | 规划API | 调用API | 通用工具使用 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|
- | GPT-4o-2024-05-13 | OpenAI | 75.24 | 71.94 | 74.86 | 76.53 | 77.64 | API | 2024年10月12日 |
1 | ERNIE-4-8k-latest | 百度 | 72.71 | 75.28 | 73.06 | 71.11 | 71.39 | API | 2024年10月12日 |
1 | Qwen-2-72B-Instruct | 阿里云 | 72.08 | 72.64 | 73.33 | 69.58 | 72.78 | API | 2024年10月12日 |
1 | TeleChat2-Large | 中国电信人工智能研究院(TeleAI) | 71.94 | 66.81 | 73.61 | 75.14 | 72.22 | API | 2024年12月23日 |
2 | TeleChat2 | 中国电信人工智能研究院(TeleAI) | 70.14 | 67.78 | 73.19 | 66.57 | 72.92 | API | 2024年10月12日 |
3 | GLM-4-9B-Chat | 智谱AI | 65.9 | 62.92 | 64.03 | 66.67 | 70 | 模型 | 2024年10月12日 |
- | GPT-3.5-0125 | OpenAI | 63.26 | 60.14 | 63.33 | 65.28 | 64.31 | API | 2024年10月12日 |
4 | Baichuan-2-13B-Chat-v2 | 百川智能 | 59.69 | 57.78 | 59.17 | 56.39 | 65.42 | 模型 | 2024年10月12日 |
5 | Yi-1.5-6B-Chat | 零一万物 | 58.19 | 57.78 | 52.64 | 56.11 | 66.25 | 模型 | 2024年10月12日 |
- | Phi-3-mini-128k-instruct | 微软 | 56.28 | 59.17 | 50.83 | 57.92 | 57.22 | 模型 | 2024年10月12日 |
- | Gemma-7b-it | Google | 51.55 | 49.72 | 52.92 | 50.42 | 53.13 | 模型 | 2024年10月12日 |
SuperCLUE长短期记忆(2024年10-12月)
排名 | 模型名称 | 机构 | 分数 | 多文档问答 | 长程对话 | 少样本示例学习 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | GPT-4o-2024-05-13 | OpenAI | 85.46 | 80.28 | 85.28 | 90.83 | API | 2024年10月12日 |
1 | TeleChat2 | 中国电信人工智能研究院(TeleAI) | 81.11 | 77.22 | 80.28 | 85.83 | API | 2024年10月12日 |
1 | TeleChat2-Large | 中国电信人工智能研究院(TeleAI) | 80.43 | 80 | 80.56 | 80.72 | API | 2024年12月23日 |
2 | ERNIE-4-8k-latest | 百度 | 79.54 | 73.06 | 77.5 | 88.06 | API | 2024年10月12日 |
3 | Qwen-2-72B-Instruct | 阿里云 | 77.36 | 75.56 | 70.56 | 86.47 | API | 2024年10月12日 |
4 | GLM-4-9B-Chat | 智谱AI | 74.5 | 76.67 | 72.94 | 73.89 | 模型 | 2024年10月12日 |
- | GPT-3.5-0125 | OpenAI | 71.94 | 72.78 | 68.89 | 74.17 | API | 2024年10月12日 |
5 | Baichuan-2-13B-Chat-v2 | 百川智能 | 71.76 | 70.28 | 72.22 | 72.78 | 模型 | 2024年10月12日 |
6 | Yi-1.5-6B-Chat | 零一万物 | 65.73 | 73.33 | 60 | 63.55 | 模型 | 2024年10月12日 |
- | Gemma-7b-it | Google | 55.19 | 66.94 | 52.22 | 46.39 | 模型 | 2024年10月12日 |
- | Phi-3-mini-128k-instruct | 微软 | 53.7 | 62.78 | 50 | 48.33 | 模型 | 2024年10月12日 |
SuperCLUE十大基础能力(2024年10-12月)
模型名称 | 机构 | 任务分解 | 思维链 | 自我反思 | 检索API | 规划API | 调用API | 通用工具使用 | 多文档问答 | 长程对话 | 少样本示例学习 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
GPT-4o-2024-05-13 | OpenAI | 71.91 | 80.18 | 73.89 | 71.94 | 74.86 | 76.53 | 77.64 | 80.28 | 85.28 | 90.83 | API | 2024年10月12日 |
ERNIE-4-8k-latest | 百度 | 68.32 | 81.19 | 73.33 | 75.28 | 73.06 | 71.11 | 71.39 | 73.06 | 77.5 | 88.06 | API | 2024年10月12日 |
TeleChat2-Large | 中国电信人工智能研究院(TeleAI) | 68.52 | 67.58 | 79.31 | 66.81 | 73.61 | 75.14 | 72.22 | 80 | 80.56 | 80.72 | API | 2024年12月23日 |
Qwen-2-72B-Instruct | 阿里云 | 68.33 | 76.01 | 75.28 | 72.64 | 73.33 | 69.58 | 72.78 | 75.56 | 70.56 | 86.47 | API | 2024年10月12日 |
TeleChat2 | 中国电信人工智能研究院(TeleAI) | 69.22 | 68.61 | 75.14 | 67.78 | 73.19 | 66.57 | 72.92 | 77.22 | 80.28 | 85.83 | API | 2024年10月12日 |
GLM-4-9B-Chat | 智谱AI | 67.64 | 70.93 | 70.42 | 62.92 | 64.03 | 66.67 | 70 | 76.67 | 72.94 | 73.89 | 模型 | 2024年10月12日 |
GPT-3.5-0125 | OpenAI | 59.41 | 58.33 | 67.36 | 60.14 | 63.33 | 65.28 | 64.31 | 72.78 | 68.89 | 74.17 | API | 2024年10月12日 |
Baichuan-2-13B-Chat-v2 | 百川智能 | 64.7 | 51.22 | 56.94 | 57.78 | 59.17 | 56.39 | 65.42 | 70.28 | 72.22 | 72.78 | 模型 | 2024年10月12日 |
Yi-1.5-6B-Chat | 零一万物 | 64.7 | 62.32 | 65.83 | 57.78 | 52.64 | 56.11 | 66.25 | 73.33 | 60 | 63.55 | 模型 | 2024年10月12日 |
Phi-3-mini-128k-instruct | 微软 | 55.09 | 49.92 | 61.39 | 59.17 | 50.83 | 57.92 | 57.22 | 62.78 | 50 | 48.33 | 模型 | 2024年10月12日 |
Gemma-7b-it | Google | 52.93 | 34.26 | 54.44 | 49.72 | 52.92 | 50.42 | 53.13 | 66.94 | 52.22 | 46.39 | 模型 | 2024年10月12日 |
SuperCLUE文生图总榜(2024年9月)
排名 | 模型名称 | 机构 | 总分 | 图像质量 | 图文一致性 | 复杂度适应性 | 内容创造 | 文字创作 | 中华文化与元素 | 使用方式 | 日期 |
---|---|---|---|---|---|---|---|---|---|---|---|
- | DALL·E 3 | OpenAI | 72.91 | 77.69 | 65.16 | 74.55 | 81.67 | 56.05 | 82.35 | API | 2024年9月30日 |
1 | BlueLM-Art | vivo | 71.52 | 74.11 | 54.18 | 80.02 | 68.33 | 75.57 | 76.89 | API | 2024年9月30日 |
2 | 混元文生图 | 腾讯 | 69.91 | 72.54 | 58.6 | 76.19 | 68.15 | 65.61 | 78.38 | API | 2024年9月30日 |
- | Midjourney | Midjourney | 69.1 | 74.71 | 54.42 | 75.16 | 73.48 | 56.71 | 80.14 | 网页 | 2024年9月30日 |
3 | 豆包文生图 | 字节跳动 | 67.56 | 74.34 | 56.06 | 75.88 | 67.27 | 48.86 | 82.97 | 网页 | 2024年9月30日 |
- | Stable Diffusion 3 Large | Stability.ai | 66.18 | 74.12 | 53.79 | 75.47 | 63.03 | 52.62 | 78.04 | API | 2024年9月30日 |
- | Flux.1 Pro | Black Forest Labs | 66.03 | 76.15 | 56.94 | 71.22 | 63.18 | 53.41 | 75.27 | POE | 2024年9月30日 |
4 | 文心一格 | 百度 | 64.16 | 76.92 | 54.97 | 66.04 | 66.9 | 46.86 | 73.29 | API | 2024年9月30日 |
4 | Cogview3-Plus | 智谱 | 63.97 | 72.12 | 55.21 | 71.44 | 69.55 | 49.07 | 66.43 | API | 2024年9月30日 |
5 | Wanx-v1 | 阿里巴巴 | 62.23 | 73.16 | 47.87 | 70.14 | 65.3 | 49.62 | 67.3 | API | 2024年9月30日 |
5 | 美图AI | 美图 | 62.21 | 71.19 | 51.88 | 64.55 | 61.82 | 56.62 | 67.22 | 网页 | 2024年9月30日 |
5 | 星火绘图 | 科大讯飞 | 61.67 | 69.61 | 52.66 | 64.13 | 63.03 | 46.84 | 73.75 | API | 2024年9月30日 |
6 | 天工AI | 昆仑万维 | 60.88 | 72.72 | 51.48 | 63.5 | 59.7 | 49.73 | 68.14 | 网页 | 2024年9月30日 |
7 | 360智绘 | 360 | 54.89 | 69.07 | 45.28 | 62.73 | 52.03 | 42.68 | 57.57 | 网页 | 2024年9月30日 |
SuperCLUE图像质量榜单(2024年9月)
排名 | 模型名称 | 图像质量总分 | 构图 | 光影 | 色彩饱和度 | 色彩准确性 | 细节处理 | 图片保真度之辨识难度 | 图片保真度之分辨率 | 图片保真度之锐度 | 结构合理性 | 用户情感 | 色彩对比度 | 使用方式 | 日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
- | DALL·E 3 | 77.69 | 72.85 | 79.55 | 76.67 | 88 | 85.91 | 80.45 | 86 | 78 | 70.1 | 55.5 | 87.73 | API | 2024年9月30日 |
1 | 文心一格 | 76.92 | 71.58 | 88.64 | 80 | 85.91 | 77.27 | 78.18 | 81 | 76.5 | 69.55 | 58.64 | 85.45 | API | 2024年9月30日 |
- | Flux.1 Pro | 76.15 | 72.11 | 83.18 | 72 | 90 | 74.55 | 78.64 | 79 | 75.45 | 69.09 | 60.91 | 86.82 | POE | 2024年9月30日 |
- | Midjourney | 74.71 | 72.63 | 79.78 | 72 | 86.82 | 77.27 | 76.6 | 83 | 65.45 | 75.45 | 56.36 | 82.27 | 网页 | 2024年9月30日 |
2 | 豆包文生图 | 74.34 | 70.79 | 74.09 | 71 | 83.49 | 80.91 | 75.91 | 78 | 78.64 | 70.15 | 58.64 | 80.45 | 网页 | 2024年9月30日 |
- | Stable Diffusion 3 Large | 74.12 | 72.37 | 75.91 | 70.76 | 90 | 77.27 | 79.09 | 67 | 68.64 | 67.73 | 58.64 | 85 | API | 2024年9月30日 |
2 | BlueLM-Art | 74.11 | 70.79 | 71.82 | 72 | 84.24 | 82.27 | 77.73 | 80 | 79.09 | 67.27 | 54.55 | 80.91 | API | 2024年9月30日 |
3 | Wanx-v1 | 73.16 | 69.74 | 84.09 | 69.5 | 82.27 | 78.64 | 71.82 | 84 | 78.18 | 63.64 | 51.82 | 79.09 | API | 2024年9月30日 |
3 | 天工AI | 72.72 | 66.14 | 81.82 | 67.5 | 85 | 76.82 | 76.82 | 69 | 74.09 | 65.91 | 52.27 | 86.82 | 网页 | 2024年9月30日 |
3 | 混元文生图 | 72.54 | 71.15 | 80.94 | 72.78 | 82.5 | 76.54 | 69.18 | 77 | 70.5 | 67.27 | 51.36 | 74.62 | API | 2024年9月30日 |
4 | Cogview3-Plus | 72.12 | 70.44 | 75.91 | 69 | 78.18 | 76.36 | 77.73 | 87 | 72.73 | 67.27 | 53.18 | 74.55 | API | 2024年9月30日 |
4 | 美图AI | 71.19 | 69.74 | 67.27 | 75.5 | 78.18 | 74.55 | 75.91 | 75 | 73.18 | 70 | 50 | 77.27 | 网页 | 2024年9月30日 |
5 | 星火绘图 | 69.61 | 65.53 | 70.24 | 67.5 | 79.09 | 73.64 | 69.55 | 73 | 66.5 | 68.64 | 56.36 | 80 | API | 2024年9月30日 |
5 | 360智绘 | 69.07 | 63.42 | 67.73 | 71.67 | 79.47 | 75.45 | 80.5 | 77 | 62.5 | 71.82 | 50.45 | 69.09 | 网页 | 2024年9月30日 |
SuperCLUE图文一致性榜单(2024年9月)
排名 | 模型名称 | 图文一致性总分 | 语境理解 | 逻辑连贯性,时序 | 逻辑连贯性,因果 | 歧义理解 | 文本遵循 | 使用方式 | 日期 |
---|---|---|---|---|---|---|---|---|---|
- | DALL·E 3 | 65.16 | 73.18 | 45.91 | 61.22 | 64 | 83 | API | 2024年9月30日 |
1 | 混元文生图 | 58.6 | 58 | 53.97 | 53.98 | 51.88 | 79.38 | API | 2024年9月30日 |
- | Flux.1 Pro | 56.94 | 74.85 | 35.91 | 41.82 | 54.55 | 77.58 | POE | 2024年9月30日 |
2 | 豆包文生图 | 56.06 | 67.27 | 36.82 | 39.38 | 60.91 | 75.91 | 网页 | 2024年9月30日 |
2 | Cogview3-Plus | 55.21 | 65.91 | 36.5 | 44.24 | 55 | 72.73 | API | 2024年9月30日 |
3 | 文心一格 | 54.97 | 69.55 | 39 | 37.56 | 52.27 | 77 | API | 2024年9月30日 |
- | Midjourney | 54.42 | 67.73 | 39.09 | 35.75 | 59.09 | 70.45 | 网页 | 2024年9月30日 |
3 | BlueLM-Art | 54.18 | 65 | 40 | 39.98 | 54.55 | 71.36 | API | 2024年9月30日 |
- | Stable Diffusion 3 Large | 53.79 | 65 | 37.5 | 41.8 | 53.64 | 69.55 | API | 2024年9月30日 |
4 | 星火绘图 | 52.66 | 69.55 | 35.16 | 39.4 | 51.82 | 65.76 | API | 2024年9月30日 |
4 | 美图AI | 51.88 | 61.36 | 35 | 36.96 | 52.5 | 73.64 | 网页 | 2024年9月30日 |
5 | 天工AI | 51.48 | 65 | 31.82 | 36.96 | 54.69 | 68.95 | 网页 | 2024年9月30日 |
6 | Wanx-v1 | 47.87 | 53.64 | 33.18 | 36.35 | 48.18 | 70 | API | 2024年9月30日 |
7 | 360智绘 | 45.28 | 50.91 | 29.09 | 33.33 | 46.36 | 68.84 | 网页 | 2024年9月30日 |
SuperCLUE复杂度适应性榜单(2024年9月)
排名 | 模型 | 复杂度适应性得分 | 简单生成 | 复杂生成 | 使用方式 | 日期 |
---|---|---|---|---|---|---|
1 | BlueLM-Art | 80.02 | 82.44 | 77.6 | API | 2024年9月30日 |
2 | 混元文生图 | 76.19 | 83.08 | 70.23 | API | 2024年9月30日 |
2 | 豆包文生图 | 75.88 | 75.16 | 76.66 | 网页 | 2024年9月30日 |
- | Stable Diffusion 3 Large | 75.47 | 75.78 | 75.16 | API | 2024年9月30日 |
- | Midjourney | 75.16 | 73.35 | 76.98 | 网页 | 2024年9月30日 |
- | DALL·E 3 | 74.55 | 70.31 | 78.78 | API | 2024年9月30日 |
3 | Cogview3-Plus | 71.44 | 71.51 | 71.36 | API | 2024年9月30日 |
- | Flux.1 Pro | 71.22 | 75.16 | 67.27 | POE | 2024年9月30日 |
4 | Wanx-v1 | 70.14 | 72.69 | 67.34 | API | 2024年9月30日 |
5 | 文心一格 | 66.04 | 61.22 | 71.34 | API | 2024年9月30日 |
6 | 美图AI | 64.55 | 62.42 | 66.67 | 网页 | 2024年9月30日 |
6 | 星火绘图 | 64.13 | 59.42 | 69.32 | API | 2024年9月30日 |
7 | 天工AI | 63.5 | 60.62 | 66.66 | 网页 | 2024年9月30日 |
7 | 360智绘 | 62.73 | 61.22 | 64.24 | 网页 | 2024年9月30日 |
SuperCLUE内容创造榜单(2024年9月)
排名 | 模型名称 | 内容创造榜单 | 组合元素 | 创造不可能事物 | 风格能力 | 使用方式 | 日期 |
---|---|---|---|---|---|---|---|
- | DALL·E 3 | 81.67 | 76.82 | 80.45 | 87.73 | API | 2024年9月30日 |
- | Midjourney | 73.48 | 70.45 | 76.36 | 73.64 | 网页 | 2024年9月30日 |
1 | Cogview3-Plus | 69.55 | 63.18 | 65.45 | 80 | API | 2024年9月30日 |
2 | BlueLM-Art | 68.33 | 68.64 | 67.27 | 69.09 | API | 2024年9月30日 |
2 | 混元文生图 | 68.15 | 75 | 56.36 | 77 | API | 2024年9月30日 |
3 | 豆包文生图 | 67.27 | 64.55 | 67.27 | 70 | 网页 | 2024年9月30日 |
3 | 文心一格 | 66.9 | 59.33 | 72.73 | 68.64 | API | 2024年9月30日 |
4 | Wanx-v1 | 65.3 | 63.18 | 66.82 | 65.91 | API | 2024年9月30日 |
- | Flux.1 Pro | 63.18 | 68.18 | 65 | 56.36 | POE | 2024年9月30日 |
- | Stable Diffusion 3 Large | 63.03 | 62.73 | 67.73 | 58.64 | API | 2024年9月30日 |
5 | 星火绘图 | 63.03 | 60.45 | 62.27 | 66.36 | API | 2024年9月30日 |
6 | 美图AI | 61.82 | 67.27 | 53.18 | 65 | 网页 | 2024年9月30日 |
7 | 天工AI | 59.7 | 62.27 | 57.73 | 59.09 | 网页 | 2024年9月30日 |
8 | 360智绘 | 52.03 | 52 | 45 | 59.09 | 网页 | 2024年9月30日 |
SuperCLUE文字创作榜单(2024年9月)
排名 | 模型名称 | 文字创作总分 | 汉字艺术 | 广告与标识 | 教育类 | 科技类 | 非平面文字 | 使用方式 | 日期 |
---|---|---|---|---|---|---|---|---|---|
1 | BlueLM-Art | 75.57 | 77.5 | 75 | 67.63 | 71.43 | 84.8 | API | 2024年9月30日 |
2 | 混元文生图 | 65.61 | 60 | 73.32 | 50.43 | 60.03 | 81.68 | API | 2024年9月30日 |
- | Midjourney | 56.71 | 54.18 | 53.35 | 48.54 | 60 | 66.85 | 网页 | 2024年9月30日 |
3 | 美图AI | 56.62 | 54.18 | 60.82 | 58.87 | 53.34 | 55.97 | 网页 | 2024年9月30日 |
- | DALL·E 3 | 56.05 | 50 | 50.82 | 54.26 | 57.14 | 67.93 | API | 2024年9月30日 |
- | Flux.1 Pro | 53.41 | 43.32 | 45.8 | 47.6 | 61.43 | 69.18 | POE | 2024年9月30日 |
- | Stable Diffusion 3 Large | 52.62 | 63.3 | 42.48 | 47.57 | 49.51 | 59.2 | API | 2024年9月30日 |
4 | 天工AI | 49.73 | 58.35 | 44.98 | 40.94 | 52.37 | 51.25 | 网页 | 2024年9月30日 |
4 | Wanx-v1 | 49.62 | 58.3 | 41.65 | 45.69 | 45.69 | 56.66 | API | 2024年9月30日 |
4 | Cogview3-Plus | 49.07 | 47.5 | 44.98 | 48.57 | 43.8 | 59.77 | API | 2024年9月30日 |
4 | 豆包文生图 | 48.86 | 57.52 | 41.68 | 45.69 | 48.57 | 50.43 | 网页 | 2024年9月30日 |
5 | 文心一格 | 46.86 | 48.3 | 44.74 | 46.64 | 48 | 46.67 | API | 2024年9月30日 |
5 | 星火绘图 | 46.84 | 47.48 | 46.68 | 43.8 | 45.71 | 50 | API | 2024年9月30日 |
6 | 360智绘 | 42.68 | 39.98 | 35.83 | 36.2 | 41.91 | 58.58 | 网页 | 2024年9月30日 |
SuperCLUE中华文化与元素榜单(2024年9月)
排名 | 模型名称 | 中华文化与元素总分 | 历史与典故 | 神话传说 | 汉语文学 | 民俗与礼仪 | 传统技艺 | 中华饮食 | 风景名胜 | 民族风情 | 使用方式 | 日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 豆包文生图 | 82.97 | 79 | 73.75 | 80 | 79 | 88 | 93.75 | 88 | 82.5 | 网页 | 2024年9月30日 |
- | DALL·E 3 | 82.35 | 82.5 | 70 | 83 | 91.25 | 84 | 76.25 | 84 | 88.33 | API | 2024年9月30日 |
- | Midjourney | 80.14 | 75 | 75 | 77 | 82 | 92 | 75 | 88 | 73.75 | 网页 | 2024年9月30日 |
2 | 混元文生图 | 78.38 | 72 | 62.5 | 75 | 77 | 89 | 82.5 | 82 | 86.25 | API | 2024年9月30日 |
- | Stable Diffusion 3 Large | 78.04 | 71 | 79.35 | 77 | 75 | 83 | 77.5 | 84 | 77.5 | API | 2024年9月30日 |
3 | BlueLM-Art | 76.89 | 66 | 68.75 | 80 | 79 | 84 | 76.25 | 80 | 80 | API | 2024年9月30日 |
- | Flux.1 Pro | 75.27 | 74 | 66.25 | 72 | 71 | 83 | 76.25 | 83 | 75 | POE | 2024年9月30日 |
4 | 星火绘图 | 73.75 | 71 | 76.25 | 81 | 69 | 75 | 68.75 | 73 | 76.67 | API | 2024年9月30日 |
4 | 文心一格 | 73.29 | 71.25 | 73.75 | 75 | 80 | 66 | 66.25 | 78 | 75 | API | 2024年9月30日 |
5 | 天工AI | 68.14 | 63 | 56.25 | 71 | 74 | 65 | 60 | 75 | 80 | 网页 | 2024年9月30日 |
5 | Wanx-v1 | 67.3 | 55 | 65 | 75 | 70 | 66 | 65 | 68 | 75 | API | 2024年9月30日 |
5 | 美图AI | 67.22 | 58.75 | 60 | 72 | 68 | 70 | 56.25 | 75 | 73.75 | 网页 | 2024年9月30日 |
6 | Cogview3-Plus | 66.43 | 68.75 | 46.25 | 71 | 86.25 | 65 | 76.25 | 52 | 68.75 | API | 2024年9月30日 |
7 | 360智绘 | 57.57 | 37 | 40 | 67 | 49 | 62.5 | 50 | 82 | 67.5 | 网页 | 2024年9月30日 |
排名 | 模型名称 | 机构 | 总分 | 代码生成与改写 | 代码理解与分析 | 代码优化与修复 | 跨函数与跨文件编程 |
---|---|---|---|---|---|---|---|
- | Cursor | Anysphere | 89.87 | 89.3 | 86.99 | 92.4 | 90.81 |
🏅️ | 文心快码Baidu Comate | 百度 | 87.55 | 87.45 | 89.16 | 88.99 | 84.62 |
🏅️ | 通义灵码 | 阿里巴巴 | 87.36 | 86.9 | 87.12 | 88.8 | 86.64 |
🥈 | 星火飞码iFlyCode | 讯飞 | 80.63 | 80.16 | 81 | 83.38 | 78 |
🥉 | CodesArt Snap | 华为 | 77.82 | 80.87 | 79.32 | 73.3 | 77.81 |
4 | 豆包MarsCode | 字节跳动 | 76.36 | 82.14 | 75.01 | 71.51 | 76.77 |
- | Codeium | Codeium | 75.3 | 80.41 | 75.96 | 74.6 | 70.21 |
排名 | 模型名称 | 代码生成与改写 | 代码生成 | 代码转换 |
---|---|---|---|---|
- | Cursor | 89.3 | 86.03 | 92.56 |
🏅️ | 文心快码Baidu Comate | 87.45 | 86.66 | 88.24 |
🏅️ | 通义灵码 | 86.9 | 88.88 | 84.91 |
🥈 | 豆包MarsCode | 82.14 | 81.9 | 82.39 |
3 | CodesArt Snap | 80.87 | 73.5 | 88.24 |
- | Codeium | 80.41 | 83.15 | 77.67 |
3 | 星火飞码iFlyCode | 80.16 | 81.28 | 79.04 |
排名 | 模型名称 | 代码理解与分析 | 代码注释 | 代码理解 | 测试用例生成 | 文档生成 |
---|---|---|---|---|---|---|
🏅️ | 文心快码Baidu Comate | 89.16 | 85 | 96.23 | 85.22 | 90.18 |
🥈 | 通义灵码 | 87.12 | 85 | 87.6 | 86.74 | 89.12 |
- | Cursor | 86.99 | 86 | 86.63 | 85.65 | 89.68 |
🥉 | 星火飞码iFlyCode | 81 | 83 | 82.89 | 74.78 | 83.33 |
🥉 | CodesArt Snap | 79.32 | 88 | 76.23 | 73.04 | 79.99 |
- | Codeium | 75.96 | 84 | 79.09 | 71.74 | 69 |
4 | 豆包MarsCode | 75.01 | 81 | 71.4 | 71.3 | 76.33 |
排名 | 模型名称 | 代码优化与修复 | 代码纠错 | 性能优化 | 安全性检查 |
---|---|---|---|---|---|
- | Cursor | 92.4 | 96.12 | 89.41 | 91.67 |
🏅️ | 文心快码Baidu Comate | 88.99 | 92.25 | 86.66 | 88.07 |
🏅️ | 通义灵码 | 88.8 | 88.37 | 89.41 | 88.62 |
🥈 | 星火飞码iFlyCode | 83.38 | 84.43 | 78.8 | 86.92 |
- | Codeium | 74.6 | 78.88 | 70.19 | 74.74 |
🥉 | CodesArt Snap | 73.3 | 66.12 | 74.89 | 78.9 |
4 | 豆包MarsCode | 71.51 | 76.12 | 70.16 | 68.26 |
排名 | 模型名称 | 跨函数与跨文件编程 | 函数调用 | 跨文件能力 |
---|---|---|---|---|
- | Cursor | 90.81 | 93.5 | 88.12 |
🏅️ | 通义灵码 | 86.64 | 83.62 | 89.67 |
🥈 | 文心快码Baidu Comate | 84.62 | 83.2 | 86.03 |
🥉 | 星火飞码iFlyCode | 78 | 75.65 | 80.34 |
🥉 | CodesArt Snap | 77.81 | 79.43 | 76.18 |
4 | 豆包MarsCode | 76.77 | 74.82 | 78.72 |
- | Codeium | 70.21 | 63.91 | 76.51 |
排名 | 模型名称 | 机构 | 总分 | 数学计算 | 推理 | 安全保护 | 摘要 | 文本润色 | 写作 | 信息查询 | 知识百科 | 个性化内容生成 | 指令遵循 | 使用方式 | 日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
- | ChatGPT-4o-latest | OpenAI | 81.15 | 81.56 | 71.99 | 92.21 | 82.41 | 81.12 | 76.88 | 77.29 | 87.52 | 77.15 | 87.5 | API | 2024年10月1日 |
1 | BlueLM | vivo | 79.41 | 79.37 | 68.67 | 93.77 | 84.57 | 83.64 | 74.26 | 72.89 | 80.03 | 79.02 | 75 | API | 2024年10月1日 |
- | GPT-4-Turbo-2024-04-09 | OpenAI | 78.59 | 77.91 | 65.21 | 93.88 | 83.12 | 81.66 | 73.95 | 69.44 | 81.27 | 77.94 | 84.38 | API | 2024年10月1日 |
2 | ERNIE-4.0-Turbo-8K | 百度 | 77.68 | 73.42 | 66.87 | 94.08 | 80.2 | 81.34 | 75.84 | 78.42 | 79.6 | 74.3 | 68.75 | API | 2024年10月1日 |
2 | Qwen2-72B-Instruct | 阿里巴巴 | 77.5 | 80.43 | 62.21 | 93.48 | 78.01 | 85.11 | 69.14 | 76.54 | 83.34 | 76.96 | 65.62 | API | 2024年10月1日 |
3 | GLM-4-9B-Chat | 智谱 | 73.33 | 69.47 | 54.86 | 90.85 | 77.71 | 83.94 | 71.76 | 72.59 | 82.1 | 74.42 | 50 | 模型 | 2024年10月1日 |
- | Llama-3.1-70B-Instruct | Meta | 72.84 | 69.99 | 55.55 | 83.36 | 76.57 | 76.34 | 68.06 | 70.93 | 81.17 | 71.67 | 68.75 | POE | 2024年10月1日 |
3 | 讯飞星火V4.0 | 科大讯飞 | 72.48 | 60.43 | 63.87 | 85.57 | 79.91 | 80.83 | 68.84 | 71.01 | 82.61 | 76.29 | 50 | API | 2024年10月1日 |
- | Gemma-2-9b-it | Google | 71.14 | 67.19 | 56.42 | 91.17 | 80.42 | 69.38 | 72.5 | 57.29 | 78.88 | 75.51 | 53.12 | 模型 | 2024年10月1日 |
4 | Yi-1.5-9B-Chat-16K | 零一万物 | 70.86 | 66.44 | 46.89 | 91.89 | 77.27 | 79.46 | 69.45 | 67.38 | 77.01 | 71.95 | 59.38 | 模型 | 2024年10月1日 |
- | Llama-3.1-8B-Instruct | Meta | 66.06 | 61.24 | 43.21 | 82.84 | 74.59 | 77.7 | 61.99 | 65.99 | 72.41 | 70.09 | 40.62 | POE | 2024年10月1日 |
- | Gemma-2-2b-it | Google | 65.15 | 55.18 | 39.98 | 88.36 | 78.55 | 68.96 | 69.79 | 57.31 | 69.3 | 70.1 | 43.75 | 模型 | 2024年10月1日 |
- | Phi-3-Mini-4K-Instruct | 微软 | 52.33 | 56.22 | 34.19 | 73.24 | 54.17 | 44.36 | 55.84 | 46.46 | 52.52 | 57.05 | 25 | 模型 | 2024年10月1日 |
排名 | 模型名称 | 机构 | 总分 | 创作 | 解析 | 摘要 | 使用方式 | 更新日期 |
---|---|---|---|---|---|---|---|---|
- | GPT-4o-2024-05-13 | OpenAI | 68.39 | 63.29 | 70.97 | 69.22 | POE | 2024年9月11日 |
1 | Moonshot(kimi) | 月之暗面 | 66.79 | 64.23 | 67.61 | 67.66 | 网页 | 2024年9月11日 |
2 | 豆包 | 字节跳动 | 65.26 | 62.53 | 66.69 | 65.66 | 网页 | 2024年9月11日 |
2 | Baichuan4 | 百川智能 | 64.74 | 60.58 | 66.12 | 66.13 | API | 2024年9月11日 |
2 | 360gpt2-pro-360k | 360 | 64.5 | 62.61 | 64.02 | 66.21 | API | 2024年9月11日 |
2 | 通义千问2.5 | 阿里巴巴 | 64.36 | 63.15 | 65.02 | 64.51 | 网页 | 2024年9月11日 |
3 | 文心一言4 Turbo | 百度 | 64.09 | 61.07 | 65.47 | 64.73 | 网页 | 2024年9月11日 |
4 | GLM-4-0520 | 清华&智谱AI | 60.51 | 61.4 | 59.67 | 60.77 | API | 2024年9月11日 |
5 | 讯飞星火 | 科大讯飞 | 58.78 | 58.37 | 58.09 | 59.74 | 网页 | 2024年9月11日 |
- | Claude-instant-100k | Anthropic | 57.97 | 55.26 | 59.1 | 58.68 | POE | 2024年9月11日 |
· |
排名 | 模型名称 | 摘要总分 | 全文摘要 | 线索摘要 | 局部摘要 | 使用方式 | 更新日期 |
---|---|---|---|---|---|---|---|
- | GPT-4o-2024-05-13 | 69.22 | 70.19 | 67.56 | 70.18 | POE | 2024年9月11日 |
1 | Moonshot(kimi) | 67.66 | 67.4 | 67.62 | 67.95 | 网页 | 2024年9月11日 |
2 | 360gpt2-pro-360k | 66.21 | 65.73 | 64.17 | 69.06 | API | 2024年9月11日 |
2 | Baichuan4 | 66.13 | 67.21 | 64.29 | 67.19 | API | 2024年9月11日 |
2 | 豆包 | 65.66 | 66.01 | 65.07 | 66 | 网页 | 2024年9月11日 |
3 | 文心一言4 turbo | 64.73 | 68.33 | 62.62 | 63.59 | 网页 | 2024年9月11日 |
3 | 通义千问2.5 | 64.51 | 66.56 | 65.13 | 61.74 | 网页 | 2024年9月11日 |
4 | GLM-4-0520 | 60.77 | 61.01 | 60.83 | 60.46 | API | 2024年9月11日 |
5 | 讯飞星火 | 59.74 | 61.08 | 60.12 | 57.95 | 网页 | 2024年9月11日 |
- | Claude-instant-100k | 58.68 | 60.19 | 56.71 | 59.44 | POE | 2024年9月11日 |
排名 | 模型名称 | 解析总分 | 检索定位 | 全文信息解读 | 数理分析 | 翻译 | 多轮信息解读 | 多文本信息处理 | 使用方式 | 更新日期 |
---|---|---|---|---|---|---|---|---|---|---|
- | GPT-4o-2024-05-13 | 70.97 | 68.38 | 74.86 | 66.63 | 70.15 | 71.11 | 66.67 | POE | 2024年9月11日 |
1 | Moonshot(kimi) | 67.61 | 66.18 | 69.83 | 67.8 | 63.78 | 73.89 | 66.67 | 网页 | 2024年9月11日 |
1 | 豆包 | 66.69 | 65 | 69.89 | 71.17 | 61.16 | 72.78 | 61.67 | 网页 | 2024年9月11日 |
2 | Baichuan4 | 66.12 | 65.88 | 69.01 | 66.7 | 62.03 | 67.22 | 60 | API | 2024年9月11日 |
2 | 文心一言4 turbo | 65.47 | 61.76 | 67.74 | 63.37 | 64.19 | 72.78 | 71.67 | 网页 | 2024年9月11日 |
3 | 通义千问2.5 | 65.02 | 66.03 | 64.23 | 65.57 | 59.03 | 78.33 | 70 | 网页 | 2024年9月11日 |
3 | 360gpt2-pro-360k | 64.02 | 64.41 | 66.76 | 63.33 | 53.91 | 75.56 | 70 | API | 2024年9月11日 |
4 | GLM-4-0520 | 59.67 | 60.74 | 64.68 | 65.57 | 47.24 | 60.56 | 66.67 | API | 2024年9月11日 |
- | Claude-instant-100k | 59.1 | 56.32 | 61.72 | 60 | 54.41 | 71.67 | 50 | POE | 2024年9月11日 |
5 | 讯飞星火 | 58.09 | 58.97 | 59.55 | 66.67 | 51 | 62.78 | 53.33 | 网页 | 2024年9月11日 |
排名 | 模型名称 | 创作总分 | 文本再创作 | 内容创作助理 | 风格化文本创作 | 使用方式 | 更新日期 |
---|---|---|---|---|---|---|---|
1 | Moonshot(kimi) | 64.23 | 65.94 | 62.86 | 63.38 | POE | 2024年9月11日 |
- | GPT-4o-2024-05-13 | 63.29 | 64.59 | 63.33 | 57.9 | 网页 | 2024年9月11日 |
2 | 通义千问2.5 | 63.15 | 64.78 | 61.04 | 65.85 | 网页 | 2024年9月11日 |
2 | 360gpt2-pro-360k | 62.61 | 63.24 | 63.98 | 54.12 | API | 2024年9月11日 |
2 | 豆包 | 62.53 | 62.51 | 62.18 | 64.15 | 网页 | 2024年9月11日 |
3 | GLM-4-0520 | 61.4 | 63.76 | 59.5 | 60.02 | API | 2024年9月11日 |
3 | 文心一言4 turbo | 61.07 | 60.54 | 61.04 | 63.32 | 网页 | 2024年9月11日 |
3 | Baichuan4 | 60.58 | 62.09 | 61.05 | 52.52 | API | 2024年9月11日 |
4 | 讯飞星火 | 58.37 | 60.54 | 56.77 | 56.67 | 网页 | 2024年9月11日 |
- | Claude-instant-100k | 55.26 | 57.41 | 54.3 | 50.82 | POE | 2024年9月11日 |
SuperCLUE总榜(2024年10月)
排名 | 模型名称 | 机构名称 | 总分 | 发布日期 |
---|---|---|---|---|
- | GPT-4o | OpenAI | 82.22 | 2024.10.23 |
🏅️ | GLM-4-plus | 智谱 | 80.08 | 2024.10.23 |
🏅️ | qwen_max_longcontext | 阿里巴巴 | 79.54 | 2024.10.23 |
🥈 | ERNIE-3.5-128K | 百度 | 76.97 | 2024.10.23 |
🥉 | 讯飞星火V3.5 | 科大讯飞 | 75.26 | 2024.10.23 |
4 | Qwen2-7B-Instruct | 阿里巴巴 | 74.11 | 2024.10.23 |
4 | Yi-1.5-34B-Chat-16K | 零一万物 | 73.18 | 2024.10.23 |
- | GPT3.5-Turbo-0125 | OpenAI | 72.59 | 2024.10.23 |
5 | Doubao-lite-32k | 字节跳动 | 68.42 | 2024.10.23 |
- | Llama-3-8B-Instruct | Meta | 63.34 | 2024.10.23 |
SuperCLUE各任务大类得分(2024年10月)
模型名称 | 车身服务能力 | 多指令识别能力 | 个性化推荐能力 | 泛化表达理解能力 | 上下文信息理解与处理 | 娱乐能力 | 复杂意图推理能力 | 发布日期 |
---|---|---|---|---|---|---|---|---|
GPT-4o | 85.01 | 75.88 | 64.92 | 88.25 | 91.37 | 80.27 | 82.95 | 2024.10.23 |
GLM-4-plus | 85.51 | 73.05 | 64.78 | 89.17 | 87.12 | 77.93 | 71.19 | 2024.10.23 |
qwen_max_longcontext | 80 | 70.81 | 63.39 | 84.21 | 92.2 | 79.42 | 74.95 | 2024.10.23 |
ERNIE-3.5-128K | 78.78 | 70.12 | 68.6 | 88.5 | 83.4 | 73.94 | 77.53 | 2024.10.23 |
讯飞星火V3.5 | 82.45 | 66.42 | 53.91 | 80.41 | 83.73 | 74.6 | 68.45 | 2024.10.23 |
Qwen2-7B-Instruct | 76.9 | 62.87 | 63.99 | 69.78 | 84.9 | 74.01 | 71.48 | 2024.10.23 |
Yi-1.5-34B-Chat-16K | 75.69 | 62.87 | 64.38 | 73.13 | 81.56 | 72.87 | 69.89 | 2024.10.23 |
GPT3.5-Turbo-0125 | 74.02 | 67.23 | 55.86 | 80.68 | 87.26 | 68.75 | 71.73 | 2024.10.23 |
Doubao-lite-32k | 69.66 | 58.67 | 54.38 | 69.57 | 72.41 | 71.93 | 65.31 | 2024.10.23 |
Llama-3-8B-Instruct | 62.46 | 55.32 | 44.69 | 76.34 | 77.03 | 60.09 | 69.29 | 2024.10.23 |
SuperCLUE基础能力(2024年10月)
排名 | 模型名称 | 机构名称 | 基础能力 | 多指令识别能力 | 个性化推荐能力 | 泛化表达理解能力 | 上下文信息理解与处理 | 复杂意图推理能力 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|
- | GPT-4o | OpenAI | 80.67 | 75.88 | 64.92 | 88.25 | 91.37 | 82.95 | 2024.10.23 |
🏅️ | ERNIE-3.5-128K | 百度 | 77.63 | 70.12 | 68.6 | 88.5 | 83.4 | 77.53 | 2024.10.23 |
🏅️ | qwen_max_longcontext | 阿里巴巴 | 77.11 | 70.81 | 63.39 | 84.21 | 92.2 | 74.95 | 2024.10.23 |
🏅️ | GLM-4-plus | 智谱 | 77.06 | 73.05 | 64.78 | 89.17 | 87.12 | 71.19 | 2024.10.23 |
- | GPT3.5-Turbo-0125 | OpenAI | 72.55 | 67.23 | 55.86 | 80.68 | 87.26 | 71.73 | 2024.10.23 |
🥈 | Qwen2-7B-Instruct | 阿里巴巴 | 70.6 | 62.87 | 63.99 | 69.78 | 84.9 | 71.48 | 2024.10.23 |
🥈 | 讯飞星火V3.5 | 科大讯飞 | 70.58 | 66.42 | 53.91 | 80.41 | 83.73 | 68.45 | 2024.10.23 |
🥈 | Yi-1.5-34B-Chat-16K | 零一万物 | 70.37 | 62.87 | 64.38 | 73.13 | 81.56 | 69.89 | 2024.10.23 |
- | Llama-3-8B-Instruct | Meta | 64.53 | 55.32 | 44.69 | 76.34 | 77.03 | 69.29 | 2024.10.23 |
🥉 | Doubao-lite-32k | 字节跳动 | 64.07 | 58.67 | 54.38 | 69.57 | 72.41 | 65.31 | 2024.10.23 |
SuperCLUE应用能力(2024年10月)
排名 | 模型名称 | 机构名称 | 应用能力 | 车身服务能力 | 汽车操控 | 故障维修 | 用车答疑 | 娱乐能力 | 百科问答 | 儿童关怀 | 情感聊天 | 出行规划 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
- | GPT-4o | OpenAI | 82.64 | 85.01 | 84.84 | 84.16 | 86.04 | 80.27 | 87.42 | 76.78 | 74.61 | 82.33 | 2024.10.23 |
🏅️ | GLM-4-plus | 智谱 | 81.72 | 85.51 | 87.47 | 85.99 | 83.14 | 77.93 | 85.91 | 71.5 | 71.32 | 82.94 | 2024.10.23 |
🥈 | qwen_max_longcontext | 阿里巴巴 | 79.71 | 80 | 74.95 | 84.15 | 81.04 | 79.42 | 86.23 | 76.54 | 75.53 | 79.5 | 2024.10.23 |
🥉 | 讯飞星火V3.5 | 科大讯飞 | 78.53 | 82.45 | 83.12 | 81.78 | 82.42 | 74.6 | 87.21 | 66.88 | 67.41 | 76.98 | 2024.10.23 |
4 | ERNIE-3.5-128K | 百度 | 76.36 | 78.78 | 76.78 | 80.33 | 79.26 | 73.94 | 79.54 | 73.44 | 66.79 | 75.96 | 2024.10.23 |
4 | Qwen2-7B-Instruct | 阿里巴巴 | 75.46 | 76.9 | 70.9 | 82.49 | 77.51 | 74.01 | 81.89 | 63.76 | 71.44 | 79.44 | 2024.10.23 |
5 | Yi-1.5-34B-Chat-16K | 零一万物 | 74.28 | 75.69 | 69.7 | 81.24 | 76.28 | 72.87 | 79.14 | 67.85 | 67.82 | 76.59 | 2024.10.23 |
- | GPT3.5-Turbo-0125 | OpenAI | 71.39 | 74.02 | 77.06 | 68.03 | 76.88 | 68.75 | 72.16 | 66.45 | 71.99 | 64.55 | 2024.10.23 |
6 | Doubao-lite-32k | 字节跳动 | 70.8 | 69.66 | 64.34 | 77.41 | 67.47 | 71.93 | 80.34 | 60.66 | 70.96 | 75.56 | 2024.10.23 |
- | Llama-3-8B-Instruct | Meta | 61.28 | 62.46 | 71.22 | 61.48 | 54.64 | 60.09 | 65.7 | 63.88 | 55.85 | 55.37 | 2024.10.23 |
SuperCLUE总排行(2024年9月)
排名 | 模型 | 机构 | 分数 | 初级分数 | 中级分数 | 高级分数 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | o1-preview-2024-09-12 | OpenAI | 89.39 | 96.3 | 92.31 | 69.23 | API | 2024年10月23日 |
- | Claude 3.5 Sonnet(new) | Anthropic | 84.85 | 96.3 | 80.77 | 69.23 | POE | 2024年10月23日 |
- | GPT-4o-0513 | OpenAI | 83.33 | 92.59 | 84.62 | 61.54 | API | 2024年9月12日 |
- | GPT-4-0125-preview | OpenAI | 81.82 | 88.89 | 84.62 | 61.54 | API | 2024年9月12日 |
🏅 | DeepSeek-V2 | 深度求索 | 80.3 | 85.19 | 80.77 | 69.23 | API | 2024年9月12日 |
- | GPT-4 | OpenAI | 80.3 | 88.89 | 80.77 | 61.54 | API | 2024年9月12日 |
🏅 | 通义千问2.5 | 阿里巴巴 | 80.3 | 85.19 | 84.62 | 61.54 | API | 2024年9月12日 |
- | Llama-3-70B-instruct | Meta | 78.79 | 88.89 | 76.92 | 61.54 | POE | 2024年9月12日 |
🥈 | NebulaCoder-V4 | 中兴 | 78.46 | 81.48 | 80.77 | 66.67 | API | 2024年9月12日 |
- | GPT-3.5-Turbo-0125 | OpenAI | 68.18 | 81.48 | 69.23 | 38.46 | API | 2024年9月12日 |
- | Gemini 1.0 Pro | Google | 60.61 | 62.96 | 61.54 | 53.85 | API | 2024年9月12日 |
🥉 | Deepseek-coder-6.7b-instruct | 深度求索 | 57.58 | 62.96 | 57.69 | 46.15 | 模型 | 2024年9月12日 |
4 | XVERSE-13B-2-Chat | 元象科技 | 39.39 | 59.26 | 23.08 | 30.77 | 模型 | 2024年9月12日 |
5 | Qwen-14B-Chat | 阿里巴巴 | 33.33 | 51.85 | 23.08 | 15.38 | 模型 | 2024年9月12日 |
- | Code-Llama-13b-instruct | Meta | 33.33 | 55.56 | 23.08 | 7.69 | 模型 | 2024年9月12日 |
6 | ChatGLM3-6B-Chat | 智谱AI | 24.24 | 37.04 | 19.23 | 7.69 | 模型 | 2024年9月12日 |
7 | Baichuan2-13B-Chat-v2 | 百川智能 | 21.21 | 40.74 | 11.54 | 0 | 模型 | 2024年9月12日 |
- | Llama2-13b-Chat | Meta | 12.12 | 22.22 | 7.69 | 0 | 模型 | 2024年9月12日 |
SuperCLUE初级难度(2024年9月)
排名 | 模型 | 机构 | 初级难度分数 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
- | o1-preview-2024-09-12 | OpenAI | 96.3 | API | 2024年10月23日 |
- | Claude 3.5 Sonnet(new) | Anthropic | 96.3 | POE | 2024年10月23日 |
- | GPT-4o-0513 | OpenAI | 92.59 | API | 2024年9月12日 |
- | GPT-4-0125-preview | OpenAI | 88.89 | API | 2024年9月12日 |
- | GPT-4 | OpenAI | 88.89 | API | 2024年9月12日 |
- | Llama-3-70B-instruct | Meta | 88.89 | POE | 2024年9月12日 |
🏅 | DeepSeek-V2 | 深度求索 | 85.19 | API | 2024年9月12日 |
🏅 | 通义千问2.5 | 阿里巴巴 | 85.19 | API | 2024年9月12日 |
🥈 | NebulaCoder-V4 | 中兴 | 81.48 | API | 2024年9月12日 |
- | GPT-3.5-Turbo-0125 | OpenAI | 81.48 | API | 2024年9月12日 |
- | Gemini 1.0 Pro | Google | 62.96 | API | 2024年9月12日 |
🥉 | Deepseek-coder-6.7b-instruct | 深度求索 | 62.96 | 模型 | 2024年9月12日 |
4 | XVERSE-13B-2-Chat | 元象科技 | 59.26 | 模型 | 2024年9月12日 |
- | Code-Llama-13b-instruct | Meta | 55.56 | 模型 | 2024年9月12日 |
5 | Qwen-14B-Chat | 阿里巴巴 | 51.85 | 模型 | 2024年9月12日 |
6 | Baichuan2-13B-Chat-v2 | 百川智能 | 40.74 | 模型 | 2024年9月12日 |
7 | ChatGLM3-6B-Chat | 智谱AI | 37.04 | 模型 | 2024年9月12日 |
- | Llama2-13b-Chat | Meta | 22.22 | 模型 | 2024年9月12日 |
SuperCLUE中级难度(2024年9月)
排名 | 模型 | 机构 | 中级难度分数 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
- | o1-preview-2024-09-12 | OpenAI | 92.31 | API | 2024年10月23日 |
- | GPT-4o-0513 | OpenAI | 84.62 | API | 2024年9月12日 |
- | GPT-4-0125-preview | OpenAI | 84.62 | API | 2024年9月12日 |
🏅 | 通义千问2.5 | 阿里巴巴 | 84.62 | API | 2024年9月12日 |
- | Claude 3.5 Sonnet(new) | Anthropic | 80.77 | POE | 2024年10月23日 |
🏅 | DeepSeek-V2 | 深度求索 | 80.77 | API | 2024年9月12日 |
- | GPT-4 | OpenAI | 80.77 | API | 2024年9月12日 |
🥈 | NebulaCoder-V4 | 中兴 | 80.77 | API | 2024年9月12日 |
- | Llama-3-70B-instruct | Meta | 76.92 | POE | 2024年9月12日 |
- | GPT-3.5-Turbo-0125 | OpenAI | 69.23 | API | 2024年9月12日 |
- | Gemini 1.0 Pro | Google | 61.54 | API | 2024年9月12日 |
🥉 | Deepseek-coder-6.7b-instruct | 深度求索 | 57.69 | 模型 | 2024年9月12日 |
4 | XVERSE-13B-2-Chat | 元象科技 | 23.08 | 模型 | 2024年9月12日 |
4 | Qwen-14B-Chat | 阿里巴巴 | 23.08 | 模型 | 2024年9月12日 |
- | Code-Llama-13b-instruct | Meta | 23.08 | 模型 | 2024年9月12日 |
5 | ChatGLM3-6B-Chat | 智谱AI | 19.23 | 模型 | 2024年9月12日 |
6 | Baichuan2-13B-Chat-v2 | 百川智能 | 11.54 | 模型 | 2024年9月12日 |
- | Llama2-13b-Chat | Meta | 7.69 | 模型 | 2024年9月12日 |
SuperCLUE高级难度(2024年9月)
排名 | 模型 | 机构 | 高级难度分数 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
- | o1-preview-2024-09-12 | OpenAI | 69.23 | API | 2024年10月23日 |
- | Claude 3.5 Sonnet(new) | Anthropic | 69.23 | POE | 2024年10月23日 |
🏅 | DeepSeek-V2 | 深度求索 | 69.23 | API | 2024年9月12日 |
🥈 | NebulaCoder-V4 | 中兴 | 66.67 | API | 2024年9月12日 |
- | GPT-4o-0513 | OpenAI | 61.54 | API | 2024年9月12日 |
- | GPT-4-0125-preview | OpenAI | 61.54 | API | 2024年9月12日 |
- | GPT-4 | OpenAI | 61.54 | API | 2024年9月12日 |
🥉 | 通义千问2.5 | 阿里巴巴 | 61.54 | API | 2024年9月12日 |
- | Llama-3-70B-instruct | Meta | 61.54 | POE | 2024年9月12日 |
- | Gemini 1.0 Pro | Google | 53.85 | API | 2024年9月12日 |
4 | Deepseek-coder-6.7b-instruct | 深度求索 | 46.15 | 模型 | 2024年9月12日 |
- | GPT-3.5-Turbo-0125 | OpenAI | 38.46 | API | 2024年9月12日 |
5 | XVERSE-13B-2-Chat | 元象科技 | 30.77 | 模型 | 2024年9月12日 |
6 | Qwen-14B-Chat | 阿里巴巴 | 15.38 | 模型 | 2024年9月12日 |
- | Code-Llama-13b-instruct | Meta | 7.69 | 模型 | 2024年9月12日 |
7 | ChatGLM3-6B-Chat | 智谱AI | 7.69 | 模型 | 2024年9月12日 |
8 | Baichuan2-13B-Chat-v2 | 百川智能 | 0 | 模型 | 2024年9月12日 |
- | Llama2-13b-Chat | Meta | 0 | 模型 | 2024年9月12日 |
排名 | 模型 | 机构 | 总分 |
---|---|---|---|
🏅️ | XVERSE-13B-LONGCONTEXT | 元象科技 | 10 |
- | GPT4-Turbo-0125 | OpenAI | 9.98 |
🥈 | Yi-34B-Chat 200k | 零一万物 | 9.96 |
🥉 | Moonshot(KimiChat) | 月之暗面 | 9.96 |
排名 | 模型 | 机构 | 分数 |
---|---|---|---|
🏅️ | XVERSE-13B-LONGCONTEXT | 元象科技 | 9.96 |
🥈 | Moonshot(KimiChat) | 月之暗面 | 9.91 |
🥉 | Yi-34B-Chat 200k | 零一万物 | 9.87 |
- | GPT4-Turbo-0125 | OpenAI | 9.85 |
排名 | 模型 | 机构 | 分数 |
---|---|---|---|
🏅️ | Moonshot(KimiChat) | 月之暗面 | 9.96 |
🥈 | XVERSE-13B-LONGCONTEXT | 元象科技 | 9.94 |
- | GPT4-Turbo-0125 | OpenAI | 9.68 |
🥉 | Yi-34B-Chat 200k | 零一万物 | 9.3 |
排名 | 模型 | 机构 | 分数 |
---|---|---|---|
🏅️ | XVERSE-13B-LONGCONTEXT | 月之暗面 | 9.96 |
🥈 | Moonshot(KimiChat) | 元象科技 | 9.89 |
🥉 | Yi-34B-Chat 200k | OpenAI | 9.16 |
排名 | 模型 | 机构 | 分数 |
---|---|---|---|
🏅️ | Yi-34B-Chat 200k | 零一万物 | 8.64 |
SuperCLUE总榜(2024年11月)
排名 | 模型名称 | 机构 | 总分 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
🏅️ | 360智脑 | 360 | 75.43 | API | 2024.11.26 |
🥈 | GLM-4-0520 | 清华&智谱AI | 71.49 | API | 2024.11.26 |
🥉 | MiniMax-abab6.5s-chat | MiniMax | 68.26 | API | 2024.11.26 |
🥉 | 通义千问2.5 | 阿里巴巴 | 67.97 | 网页 | 2024.11.26 |
4 | 文心一言4-turbo | 百度 | 67.03 | 网页 | 2024.11.26 |
- | GPT-4o-2024-05-13 | OpenAI | 66.66 | POE | 2024.11.26 |
4 | 文心一言3.5 | 百度 | 66.36 | 网页 | 2024.11.26 |
5 | 讯飞星火4.0 | 科大讯飞 | 65.46 | API | 2024.11.26 |
6 | Moonshot-v1-128k | 月之暗面 | 57.36 | API | 2024.11.26 |
SuperCLUE四大任务(2024年11月)
模型名称 | 机构 | 拒答能力 | 检错和纠错能力 | 信息整合能力 | 答案及时性 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|
360智脑 | 360 | 82.28 | 79.68 | 66.83 | 72.91 | API | 2024.11.26 |
GLM-4-0520 | 清华&智谱AI | 67.03 | 82.04 | 63.52 | 73.37 | API | 2024.11.26 |
MiniMax-abab6.5s-chat | MiniMax | 64.95 | 77.2 | 63.78 | 67.09 | API | 2024.11.26 |
通义千问2.5 | 阿里巴巴 | 55.82 | 77.58 | 66.86 | 71.63 | 网页 | 2024.11.26 |
文心一言4-turbo | 百度 | 57.07 | 79.78 | 67.43 | 63.84 | 网页 | 2024.11.26 |
GPT-4o-2024-05-13 | OpenAI | 61.25 | 82.15 | 68.71 | 54.53 | POE | 2024.11.26 |
文心一言3.5 | 百度 | 56.41 | 80.65 | 64.44 | 63.95 | 网页 | 2024.11.26 |
讯飞星火4.0 | 科大讯飞 | 55.49 | 80.7 | 63.54 | 62.09 | API | 2024.11.26 |
Moonshot-v1-128k | 月之暗面 | 62.91 | 80.97 | 67.3 | 18.26 | API | 2024.11.26 |
排名 | 模型 | 机构 | 总分 | 角色基础 | 角色风格 | 场景应用 |
---|---|---|---|---|---|---|
- | GPT4-Turbo-0125 | OpenAI | 75.19 | 78.4 | 75.4 | 74.04 |
🏅️ | qwen1.5-72b-chat | 阿里云 | 71.62 | 71.2 | 72.53 | 71.32 |
🥈 | 文心一言4.0 | 百度 | 70.69 | 71.3 | 70.6 | 70.48 |
- | GPT-4 | OpenAI | 70.36 | 73.5 | 70.6 | 69.16 |
🥉 | qwen1.5-14b-chat | 阿里云 | 69.32 | 62 | 72.67 | 69.88 |
4 | 讯飞星火V3.5 | 科大讯飞 | 67.07 | 69.1 | 66.2 | 66.88 |
5 | Yi-34B-Chat | 零一万物 | 66.48 | 63.8 | 63 | 69.24 |
- | GPT-3.5-Turbo-0125 | OpenAI | 66.06 | 61.6 | 67.87 | 66.68 |
6 | Baichuan2-13B-Chat | 百川智能 | 63.23 | 59.9 | 62.93 | 64.52 |
7 | Chinese-Alpaca2-13B | yiming cui | 61.52 | 55.3 | 63.8 | 62.4 |
8 | ChatGLM3-6B | 智谱AI | 60.19 | 55.7 | 61.33 | 61.16 |
9 | Llama-2-13B-Chat | Meta | 55.94 | 46.2 | 53.67 | 60.68 |
排名 | 模型 | 机构 | 基础总分 | 知识掌握 | 对话能力 |
---|---|---|---|---|---|
- | GPT4-Turbo-0125 | OpenAI | 78.4 | 76.6 | 80.2 |
- | GPT-4 | OpenAI | 73.5 | 72.2 | 74.8 |
🏅️ | 文心一言4.0 | 百度 | 71.3 | 66.6 | 76 |
🥈 | qwen1.5-72b-chat | 阿里云 | 71.2 | 65.8 | 76.6 |
🥉 | 讯飞星火V3.5 | 科大讯飞 | 69.1 | 61.6 | 76.6 |
4 | Yi-34B-Chat | 零一万物 | 63.8 | 53.8 | 73.8 |
5 | qwen1.5-14b-chat | 阿里云 | 62 | 48.4 | 75.6 |
- | GPT-3.5-Turbo-0125 | OpenAI | 61.6 | 49.8 | 73.4 |
6 | Baichuan2-13B-Chat | 百川智能 | 59.9 | 47 | 72.8 |
7 | ChatGLM3-6B | 智谱AI | 55.7 | 41.6 | 69.8 |
8 | Chinese-Alpaca2-13B | yiming cui | 55.3 | 38.6 | 72 |
9 | Llama-2-13B-Chat | Meta | 46.2 | 34.8 | 57.6 |
排名 | 模型 | 风格总分 | 语言风格 | 行为习惯 | 角色背景 |
---|---|---|---|---|---|
- | GPT4-Turbo-0125 | 75.4 | 72.6 | 77.6 | 76 |
🏅️ | qwen1.5-14b-chat | 72.67 | 71.8 | 72.6 | 73.6 |
🥈 | qwen1.5-72b-chat | 72.53 | 72.4 | 72.2 | 73 |
🥉 | 文心一言4.0 | 70.6 | 68 | 72.2 | 71.6 |
- | GPT-4 | 70.6 | 70.8 | 71.6 | 69.4 |
- | GPT-3.5-Turbo-0125 | 67.87 | 66.8 | 68.4 | 68.4 |
4 | 讯飞星火V3.5 | 66.2 | 65.6 | 68.2 | 64.8 |
5 | Chinese-Alpaca2-13B | 63.8 | 59.8 | 66.8 | 64.8 |
6 | Yi-34B-Chat | 63 | 66.8 | 61.6 | 60.6 |
7 | Baichuan2-13B-Chat | 62.93 | 61.6 | 62.8 | 64.4 |
8 | ChatGLM3-6B | 61.33 | 58.4 | 61.6 | 64 |
9 | Llama-2-13B-Chat | 53.67 | 47.6 | 55 | 58.4 |
排名 | 模型 | 应用总分 | 情感陪伴 | 游戏NPC | 社交场景 | 直播营销 | 影音名人 |
---|---|---|---|---|---|---|---|
- | GPT4-Turbo-0125 | 74.04 | 79.2 | 77.2 | 76.4 | 70.2 | 67.2 |
🏅️ | qwen1.5-72b-chat | 71.32 | 77 | 72.6 | 72.6 | 69.6 | 64.8 |
🥈 | 文心一言4.0 | 70.48 | 73 | 74.6 | 71 | 69.6 | 64.2 |
🥉 | qwen1.5-14b-chat | 69.88 | 73.8 | 68.4 | 74 | 68 | 65.2 |
4 | Yi-34B-Chat | 69.24 | 72.6 | 69.4 | 72.2 | 68.8 | 63.2 |
- | GPT-4 | 69.16 | 72.6 | 74 | 70.2 | 65 | 64 |
5 | 讯飞星火V3.5 | 66.88 | 72.2 | 68 | 68.6 | 63.4 | 62.2 |
- | GPT-3.5-Turbo-0125 | 66.68 | 71.2 | 68.6 | 69 | 63.8 | 60.8 |
6 | Baichuan2-13B-Chat | 64.52 | 67.2 | 64 | 70.4 | 63.4 | 57.6 |
7 | Chinese-Alpaca2-13B | 62.4 | 67.4 | 60 | 65.8 | 63.2 | 55.6 |
8 | ChatGLM3-6B | 61.16 | 67.4 | 59.4 | 63.6 | 61.2 | 54.2 |
9 | Llama-2-13B-Chat | 60.68 | 74.2 | 49.6 | 62.6 | 61.4 | 55.6 |
模型 | 知识掌握 | 对话能力 | 语言风格 | 行为习惯 | 角色背景 | 情感陪伴 | 游戏NPC | 社交场景 | 直播营销 | 影音名人 |
---|---|---|---|---|---|---|---|---|---|---|
GPT4-Turbo-0125 | 76.6 | 80.2 | 72.6 | 77.6 | 76 | 79.2 | 77.2 | 76.4 | 70.2 | 67.2 |
qwen1.5-72b-chat | 65.8 | 76.6 | 72.4 | 72.2 | 73 | 77 | 72.6 | 72.6 | 69.6 | 64.8 |
文心一言4.0 | 66.6 | 76 | 68 | 72.2 | 71.6 | 73 | 74.6 | 71 | 69.6 | 64.2 |
GPT-4 | 72.2 | 74.8 | 70.8 | 71.6 | 69.4 | 72.6 | 74 | 70.2 | 65 | 64 |
qwen1.5-14b-chat | 48.4 | 75.6 | 71.8 | 72.6 | 73.6 | 73.8 | 68.4 | 74 | 68 | 65.2 |
讯飞星火V3.5 | 61.6 | 76.6 | 65.6 | 68.2 | 64.8 | 72.2 | 68 | 68.6 | 63.4 | 62.2 |
Yi-34B-Chat | 53.8 | 73.8 | 66.8 | 61.6 | 60.6 | 72.6 | 69.4 | 72.2 | 68.8 | 63.2 |
GPT-3.5-Turbo-0125 | 49.8 | 73.4 | 66.8 | 68.4 | 68.4 | 71.2 | 68.6 | 69 | 63.8 | 60.8 |
Baichuan2-13B-Chat | 47 | 72.8 | 61.6 | 62.8 | 64.4 | 67.2 | 64 | 70.4 | 63.4 | 57.6 |
Chinese-Alpaca2-13B | 38.6 | 72 | 59.8 | 66.8 | 64.8 | 67.4 | 60 | 65.8 | 63.2 | 55.6 |
ChatGLM3-6B | 41.6 | 69.8 | 58.4 | 61.6 | 64 | 67.4 | 59.4 | 63.6 | 61.2 | 54.2 |
Llama-2-13B-Chat | 34.8 | 57.6 | 47.6 | 55 | 58.4 | 74.2 | 49.6 | 62.6 | 61.4 | 55.6 |
排名 | 模型 | 机构 | 推理等级 | 综合分数 | 推理步数
加权得分 | 准确率
综合得分 | 使用方式 |
---|---|---|---|---|---|---|---|
- | GPT-4o | OpenAI | 5 | 91.77 | 92.94 | 90.6 | 网页 |
- | GPT_4_1106_Preview | OpenAI | 5 | 90.71 | 91.65 | 89.76 | API |
🏅️ | AndesGPT | OPPO | 5 | 90.45 | 90.84 | 90.05 | 收录模型方公开自测结果 |
- | Claude3-Opus | Anthropic | 5 | 90.36 | 91.26 | 89.46 | API |
- | GPT-4 | OpenAI | 5 | 88.4 | 89.1 | 87.7 | API |
🥈 | 通义千问2.5 | 阿里云 | 5 | 86.52 | 87.72 | 85.33 | API |
🥉 | DeepSeek-V2 | 深度求索 | 5 | 86.39 | 87.81 | 84.97 | API |
4 | 文心一言4.0 | 百度 | 5 | 85.6 | 86.82 | 84.38 | API |
5 | GLM-4 | 智谱AI | 5 | 84.24 | 85.72 | 82.76 | API |
- | Llama-3-70B-instruct | Meta | 5 | 83.77 | 85.01 | 82.53 | API |
6 | 讯飞星火V3.5 | 科大讯飞 | 5 | 83.73 | 85.37 | 82.09 | API |
7 | ChatGLM-Turbo | 智谱AI | 4 | 57.7 | 60.32 | 55.08 | API |
- | GPT3.5-Turbo | OpenAI | 4 | 57.05 | 59.61 | 54.5 | API |
8 | qwen-14b-chat | 阿里云 | 4 | 53.12 | 55.99 | 50.26 | API |
9 | ChatGLM3-6B | 智谱AI | 3 | 40.9 | 44.2 | 37.6 | 模型 |
10 | 讯飞星火V3.0 | 科大讯飞 | 3 | 40.08 | 45.27 | 34.89 | API |
11 | Baichuan2-13B-Chat | 百川智能 | 3 | 39.4 | 42.63 | 36.17 | 模型 |
12 | 文心一言3.5 | 百度 | 2 | 25.19 | 27.7 | 22.67 | API |
13 | Chinese_Alpaca_2_13B | Yiming Cui | 2 | 20.55 | 22.52 | 18.58 | 模型 |
排名 | 模型 | 准确率
综合得分 | 全面
准确率 | 平均
准确率 | 第一轮
准确率 | 第二轮
准确率 | 两轮
差值 |
---|---|---|---|---|---|---|---|
- | GPT-4o | 90.6 | 88.15 | 93.05 | 95.24 | 90.86 | -4.38 |
- | GPT_4_1106_Preview | 89.76 | 87.13 | 92.4 | 95.43 | 89.37 | -6.06 |
- | Claude3-Opus | 89.46 | 87.03 | 91.88 | 95.15 | 88.62 | -6.53 |
- | GPT-4 | 87.7 | 84.79 | 90.62 | 94.12 | 87.13 | -6.99 |
🏅️ | 通义千问2.5 | 85.33 | 81.68 | 88.98 | 93.56 | 84.39 | -9.17 |
🥈 | DeepSeek-V2 | 84.97 | 81.2 | 88.74 | 93.38 | 84.1 | -9.28 |
🥉 | 文心一言4.0 | 84.38 | 80.78 | 87.97 | 91.98 | 83.96 | -8.02 |
4 | GLM-4 | 82.76 | 78.82 | 86.71 | 90.39 | 83.02 | -7.37 |
- | Llama-3-70B-instruct | 82.53 | 78.54 | 86.52 | 91.23 | 81.81 | -9.42 |
5 | 讯飞星火V3.5 | 82.09 | 77.61 | 86.57 | 91.7 | 81.44 | -10.26 |
6 | ChatGLM-Turbo | 55.08 | 46.92 | 63.25 | 73.69 | 52.8 | -20.89 |
- | GPT3.5-Turbo | 54.5 | 46.69 | 62.3 | 70.99 | 53.59 | -17.4 |
7 | qwen-14b-chat | 50.26 | 40.75 | 59.76 | 73.23 | 46.26 | -26.97 |
8 | ChatGLM3-6B | 37.6 | 26.96 | 48.23 | 61.1 | 35.35 | -25.75 |
9 | Baichuan2-13B-Chat | 36.17 | 26.03 | 46.32 | 58.86 | 33.77 | -25.09 |
10 | 讯飞星火V3.0 | 34.89 | 21.46 | 48.32 | 70.99 | 25.65 | -45.34 |
11 | 文心一言3.5 | 22.67 | 13.62 | 31.72 | 43 | 20.43 | -22.57 |
12 | Chinese_Alpaca_2_13B | 18.58 | 11.02 | 26.13 | 35.63 | 16.62 | -19.01 |
模型名称 | 指令遵循率
(答案) | 回答
平均长度 |
---|---|---|
GPT-4o | 99.77 | 201.44 |
GPT-4 | 99.44 | 129.72 |
GPT_4_1106_Preview | 99.44 | 179.78 |
Llama-3-70B-instruct | 99.3 | 118.87 |
DeepSeek-V2 | 98.55 | 154.25 |
通义千问2.5 | 98.41 | 147.08 |
GLM-4 | 96.64 | 183.97 |
讯飞星火V3.5 | 91.42 | 124.29 |
qwen-14b-chat | 90.74 | 73.42 |
文心一言4.0 | 90.44 | 197.02 |
Claude3-Opus | 83.4 | 125.21 |
文心一言3.5 | 65.89 | 43.36 |
ChatGLM-Turbo | 60.35 | 96.19 |
讯飞星火V3.0 | 54.63 | 62.97 |
GPT3.5-Turbo | 51.03 | 83.18 |
ChatGLM3-6B | 22.62 | 66.66 |
Chinese_Alpaca_2_13B | 19.59 | 47.77 |
Baichuan2-13B-Chat | 0.93 | 70.66 |
排名 | 模型 | 机构 | 总分 | 传统安全类 | 负责任类 | 指令攻击类 | 许可 | 发布日期 |
---|---|---|---|---|---|---|---|---|
🏅️ | AndesGPT | OPPO | 96.68 | 95.34 | 97.49 | 97.35 | 闭源 | 2024年05月30日 |
🥈 | 360gpt2-pro | 360 | 94.11 | 93.75 | 95.06 | 93.53 | 闭源 | 2024年10月23日 |
🥉 | BlueLM | vivo | 92.51 | 87.21 | 96.59 | 94.16 | 闭源 | 2024年05月30日 |
4 | Yi-34B-Chat | 零一万物 | 89.3 | 85.89 | 94.06 | 88.07 | 开源 | 2024年01月03日 |
5 | 文心一言4.0 | 百度 | 88.91 | 88.41 | 92.45 | 85.73 | 闭源 | 2024年01月03日 |
- | GPT4 | OpenAI | 87.43 | 84.51 | 91.22 | 86.7 | 闭源 | 2023年09月12日 |
6 | 讯飞星火(v3.0) | 科大讯飞 | 86.24 | 82.51 | 91.75 | 85.45 | 闭源 | 2024年01月03日 |
7 | 360gpt-pro | 360 | 85.31 | 82.82 | 90.35 | 82.75 | 闭源 | 2024年03月07日 |
8 | 讯飞星火(v2.0) | 科大讯飞 | 84.98 | 80.65 | 89.78 | 84.77 | 闭源 | 2023年09月12日 |
- | gpt-3.5-turbo | OpenAI | 83.82 | 82.82 | 87.81 | 80.72 | 闭源 | 2023年09月12日 |
9 | 文心一言3.5 | 百度 | 81.24 | 79.79 | 84.52 | 79.42 | 闭源 | 2023年09月12日 |
10 | ChatGLM2-Pro | 清华&智谱AI | 79.82 | 77.16 | 87.22 | 74.98 | 闭源 | 2023年09月12日 |
11 | ChatGLM2-6B | 清华&智谱AI | 79.43 | 76.53 | 84.36 | 77.45 | 开源 | 2023年09月12日 |
12 | Baichuan2-13B-Chat | 百川智能 | 78.78 | 74.7 | 85.87 | 75.86 | 开源 | 2023年09月12日 |
13 | Qwen-7B-Chat | 阿里巴巴 | 78.64 | 77.49 | 85.43 | 72.77 | 开源 | 2023年09月12日 |
14 | OpenBuddy-Llama2-70B | OpenBuddy | 78.21 | 77.37 | 87.51 | 69.3 | 开源 | 2023年09月12日 |
- | Llama-2-13B-Chat | Meta | 77.49 | 71.97 | 85.54 | 75.16 | 开源 | 2023年09月12日 |
15 | Chinese-Alpaca2-13B | yiming cui | 75.39 | 73.21 | 82.44 | 70.39 | 开源 | 2023年09月12日 |
16 | MiniMax-Abab5.5 | MiniMax | 71.9 | 71.67 | 79.77 | 63.82 | 闭源 | 2023年09月12日 |
排名 | 模型 | 机构 | 传统安全类 | 许可 | 发布日期 |
---|---|---|---|---|---|
🏅️ | AndesGPT | OPPO | 95.34 | 闭源 | 2024年05月30日 |
🥈 | 360gpt2-pro | 360 | 93.75 | 闭源 | 2024年10月23日 |
🥉 | 文心一言4.0 | 百度 | 88.41 | 闭源 | 2024年01月03日 |
4 | BlueLM | vivo | 87.21 | 闭源 | 2024年05月30日 |
5 | Yi-34B-Chat | 零一万物 | 85.89 | 开源 | 2024年01月03日 |
- | GPT4 | OpenAI | 84.51 | 闭源 | 2023年09月12日 |
- | gpt-3.5-turbo | OpenAI | 82.82 | 闭源 | 2023年09月12日 |
6 | 360gpt-pro | 360 | 82.82 | 闭源 | 2024年03月07日 |
7 | 讯飞星火(v3.0) | 科大讯飞 | 82.51 | 闭源 | 2024年01月03日 |
8 | 讯飞星火(v2.0) | 科大讯飞 | 80.65 | 闭源 | 2023年09月12日 |
9 | 文心一言3.5 | 百度 | 79.79 | 闭源 | 2023年09月12日 |
10 | Qwen-7B-Chat | 阿里巴巴 | 77.49 | 开源 | 2023年09月12日 |
11 | OpenBuddy-Llama2-70B | OpenBuddy | 77.37 | 开源 | 2023年09月12日 |
12 | ChatGLM2-Pro | 清华&智谱AI | 77.16 | 闭源 | 2023年09月12日 |
13 | ChatGLM2-6B | 清华&智谱AI | 76.53 | 开源 | 2023年09月12日 |
14 | Baichuan2-13B-Chat | 百川智能 | 74.7 | 开源 | 2023年09月12日 |
15 | Chinese-Alpaca2-13B | yiming cui | 73.21 | 开源 | 2023年09月12日 |
- | Llama-2-13B-Chat | Meta | 71.97 | 开源 | 2023年09月12日 |
16 | MiniMax-Abab5.5 | MiniMax | 71.67 | 闭源 | 2023年09月12日 |
排名 | 模型 | 机构 | 负责任类 | 许可 | 发布日期 |
---|---|---|---|---|---|
🏅️ | AndesGPT | OPPO | 97.49 | 闭源 | 2024年05月30日 |
🥈 | BlueLM | vivo | 96.59 | 闭源 | 2024年05月30日 |
🥉 | 360gpt2-pro | 360 | 95.06 | 闭源 | 2024年10月23日 |
4 | Yi-34B-Chat | 零一万物 | 94.06 | 开源 | 2024年01月03日 |
5 | 文心一言4.0 | 百度 | 92.45 | 闭源 | 2024年01月03日 |
6 | 讯飞星火(v3.0) | 科大讯飞 | 91.75 | 闭源 | 2024年01月03日 |
- | GPT4 | OpenAI | 91.22 | 闭源 | 2023年09月12日 |
7 | 360gpt-pro | 360 | 90.35 | 闭源 | 2024年03月07日 |
8 | 讯飞星火(v2.0) | 科大讯飞 | 89.78 | 闭源 | 2023年09月12日 |
- | gpt-3.5-turbo | OpenAI | 87.81 | 闭源 | 2023年09月12日 |
9 | OpenBuddy-Llama2-70B | OpenBuddy | 87.51 | 开源 | 2023年09月12日 |
10 | ChatGLM2-Pro | 清华&智谱AI | 87.22 | 闭源 | 2023年09月12日 |
11 | Baichuan2-13B-Chat | 百川智能 | 85.87 | 开源 | 2023年09月12日 |
- | Llama-2-13B-Chat | Meta | 85.54 | 开源 | 2023年09月12日 |
12 | Qwen-7B-Chat | 阿里巴巴 | 85.43 | 开源 | 2023年09月12日 |
13 | 文心一言3.5 | 百度 | 84.52 | 闭源 | 2023年09月12日 |
14 | ChatGLM2-6B | 清华&智谱AI | 84.36 | 开源 | 2023年09月12日 |
15 | Chinese-Alpaca2-13B | yiming cui | 82.44 | 开源 | 2023年09月12日 |
16 | MiniMax-Abab5.5 | MiniMax | 79.77 | 闭源 | 2023年09月12日 |
排名 | 模型 | 机构 | 指令攻击类 | 许可 | 发布日期 |
---|---|---|---|---|---|
🏅️ | AndesGPT | OPPO | 97.35 | 闭源 | 2024年05月30日 |
🥈 | BlueLM | vivo | 94.16 | 闭源 | 2024年05月30日 |
🥉 | 360gpt2-pro | 360 | 93.53 | 闭源 | 2024年10月23日 |
4 | Yi-34B-Chat | 零一万物 | 88.07 | 开源 | 2024年01月03日 |
- | GPT4 | OpenAI | 86.7 | 闭源 | 2023年09月12日 |
5 | 文心一言4.0 | 百度 | 85.73 | 闭源 | 2024年01月03日 |
6 | 讯飞星火(v3.0) | 科大讯飞 | 85.45 | 闭源 | 2024年01月03日 |
7 | 讯飞星火(v2.0) | 科大讯飞 | 84.77 | 闭源 | 2023年09月12日 |
8 | 360gpt-pro | 360 | 82.75 | 闭源 | 2024年03月07日 |
- | gpt-3.5-turbo | OpenAI | 80.72 | 闭源 | 2023年09月12日 |
9 | 文心一言3.5 | 百度 | 79.42 | 闭源 | 2023年09月12日 |
10 | ChatGLM2-6B | 清华&智谱AI | 77.45 | 开源 | 2023年09月12日 |
11 | Baichuan2-13B-Chat | 百川智能 | 75.86 | 开源 | 2023年09月12日 |
- | Llama-2-13B-Chat | Meta | 75.16 | 开源 | 2023年09月12日 |
12 | ChatGLM2-Pro | 清华&智谱AI | 74.98 | 闭源 | 2023年09月12日 |
13 | Qwen-7B-Chat | 阿里巴巴 | 72.77 | 开源 | 2023年09月12日 |
14 | Chinese-Alpaca2-13B | yiming cui | 70.39 | 开源 | 2023年09月12日 |
15 | OpenBuddy-Llama2-70B | OpenBuddy | 69.3 | 开源 | 2023年09月12日 |
16 | MiniMax-Abab5.5 | MiniMax | 63.82 | 闭源 | 2023年09月12日 |
模型名称 | 机构 | 等级 | 使用方式 | 发布日期 |
---|---|---|---|---|
GPT-4 Turbo | OpenAI | A+ | API | 2024年4月24日 |
Baichuan3 | 百川智能 | A | API | 2024年5月15日 |
GLM-4 | 清华&智谱AI | A | API | 2024年4月24日 |
MoonShot-v1-128K | 月之暗面 | A | API | 2024年4月24日 |
GPT-4 | OpenAI | B | API | 2024年4月24日 |
文心一言4.0 | 百度 | B | API | 2024年4月24日 |
讯飞星火V3.5 | 科大讯飞 | B | API | 2024年4月24日 |
Baichuan2-13B-Chat | 百川智能 | C | API | 2024年4月24日 |
GPT-3.5 Turbo | OpenAI | C | API | 2024年4月24日 |
ChatGLM3-6B | 清华&智谱AI | D | API | 2024年4月24日 |
Gemma-7b-instruct | Google | D | API | 2024年4月24日 |
通义金融-14B | 阿里巴巴 | D | API | 2024年4月24日 |
模型 | 金融知识百科 | 金融理解认知 | 金融数理计算 | 合规与风险管理 | 投研应用 | 投顾应用 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
GPT-4 Turbo | A+ | A+ | A+ | A+ | A | A | API | 2024年4月24日 |
Baichuan3 | A+ | B | A | A | B | A | API | 2024年5月15日 |
GLM-4 | A+ | B | A | A | B | A | API | 2024年4月24日 |
MoonShot-v1-128K | A+ | B | B | A | B | B | API | 2024年4月24日 |
GPT-3.5 Turbo | B | D | C | B | C | C | API | 2024年4月24日 |
GPT-4 | A | B | B | B | C | B | API | 2024年4月24日 |
文心一言4.0 | A | B | C | A | B | B | API | 2024年4月24日 |
讯飞星火V3.5 | A | B | A | A | B | B | API | 2024年4月24日 |
Baichuan2-13B-Chat | B | D | D | B | C | C | API | 2024年4月24日 |
ChatGLM3-6B | C | D | D | B | C | C | API | 2024年4月24日 |
Gemma-7b-instruct | D | C | D | C | D | D | API | 2024年4月24日 |
通义金融-14B | C | C | D | C | D | C | API | 2024年4月24日 |
模型 | 等级 | 基金从业资格知识 | 证券从业资格知识 | 银行从业资格知识 | 保险从业资格CICE知识 | 经济师知识 | 精算师 | 理财规划师知识 | 期货从业资格知识 | 税务师知识 | 注册会计师(CPA)知识 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
GPT-4 Turbo | A+ | A+ | A+ | A+ | A+ | A+ | A+ | A+ | A+ | A+ | A+ | API | 2024年4月24日 |
Baichuan3 | A+ | A+ | A+ | A | A | A+ | B | A | A+ | A | A | API | 2024年5月15日 |
GLM-4 | A+ | A+ | A+ | A+ | A+ | A+ | B | A | A | A+ | A+ | API | 2024年4月24日 |
MoonShot-v1-128K | A+ | A+ | A+ | A+ | A+ | A+ | B | A | A+ | A+ | A+ | API | 2024年4月24日 |
GPT-4 | A | A | A | A | A | A | B | B | A+ | A | B | API | 2024年4月24日 |
文心一言4.0 | A | A | A+ | A+ | A+ | A | C | A | A+ | A | B | API | 2024年4月24日 |
讯飞星火V3.5 | A | A | A+ | A+ | A | A | B | A | A+ | B | B | API | 2024年4月24日 |
Baichuan2-13B-Chat | B | B | B | A+ | B | A | D | B | C | A | B | API | 2024年4月24日 |
GPT-3.5 Turbo | B | B | A | A+ | A | B | D | B | A+ | B | B | API | 2024年4月24日 |
ChatGLM3-6B | C | C | C | A | B | D | D | C | C | C | C | API | 2024年4月24日 |
通义金融-14B | C | C | C | C | B | D | D | C | D | D | C | API | 2024年4月24日 |
Gemma-7b-instruct | D | D | D | C | D | D | D | D | D | D | D | API | 2024年4月24日 |
模型 | 等级 | 金融文件总结摘要 | 金融信息实体抽取 | 金融情绪判断 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|
GPT-4 Turbo | A+ | A | A+ | A | API | 2024年4月24日 |
Baichuan3 | B | B | A | A | API | 2024年5月15日 |
GLM-4 | B | B | B | B | API | 2024年4月24日 |
GPT-4 | B | C | A+ | B | API | 2024年4月24日 |
MoonShot-v1-128K | B | B | B | B | API | 2024年4月24日 |
文心一言4.0 | B | B | A | B | API | 2024年4月24日 |
讯飞星火V3.5 | B | B | B | B | API | 2024年4月24日 |
Gemma-7b-instruct | C | D | C | C | API | 2024年4月24日 |
通义金融-14B | C | C | D | D | API | 2024年4月24日 |
Baichuan2-13B-Chat | D | C | D | C | API | 2024年4月24日 |
ChatGLM3-6B | D | C | D | B | API | 2024年4月24日 |
GPT-3.5 Turbo | D | C | D | C | API | 2024年4月24日 |
模型 | 等级 | 数值计算 | 逻辑分析 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
GPT-4 Turbo | A+ | A+ | A+ | API | 2024年4月24日 |
Baichuan3 | A | A | A | API | 2024年5月15日 |
GLM-4 | A | A | A | API | 2024年4月24日 |
讯飞星火V3.5 | A | B | A | API | 2024年4月24日 |
GPT-4 | B | B | B | API | 2024年4月24日 |
MoonShot-v1-128K | B | B | A | API | 2024年4月24日 |
GPT-3.5 Turbo | C | C | C | API | 2024年4月24日 |
文心一言4.0 | C | D | A | API | 2024年4月24日 |
Baichuan2-13B-Chat | D | D | B | API | 2024年4月24日 |
ChatGLM3-6B | D | D | C | API | 2024年4月24日 |
Gemma-7b-instruct | D | D | D | API | 2024年4月24日 |
通义金融-14B | D | D | D | API | 2024年4月24日 |
模型 | 等级 | 金融合规 | 风险管理应用 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
GPT-4 Turbo | A+ | A | A+ | API | 2024年4月24日 |
Baichuan3 | A | A | A | API | 2024年5月15日 |
GLM-4 | A | A | A | API | 2024年4月24日 |
MoonShot-v1-128K | A | A | A | API | 2024年4月24日 |
文心一言4.0 | A | A | A | API | 2024年4月24日 |
讯飞星火V3.5 | A | A | A | API | 2024年4月24日 |
Baichuan2-13B-Chat | B | B | B | API | 2024年4月24日 |
ChatGLM3-6B | B | B | B | API | 2024年4月24日 |
GPT-3.5 Turbo | B | B | B | API | 2024年4月24日 |
GPT-4 | B | B | B | API | 2024年4月24日 |
Gemma-7b-instruct | C | D | C | API | 2024年4月24日 |
通义金融-14B | C | C | C | API | 2024年4月24日 |
模型 | 等级 | 宏观分析 | 个股分析 | 市场解读 | 行业分析 | 公司点评 | 财报点评 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|---|
GPT-4 Turbo | A | A | D | A | B | A | A | API | 2024年4月24日 |
Baichuan3 | B | B | D | A | C | B | A | API | 2024年5月15日 |
GLM-4 | B | A | D | A | B | B | A | API | 2024年4月24日 |
MoonShot-v1-128K | B | A | D | A | B | B | A | API | 2024年4月24日 |
文心一言4.0 | B | A | D | B | D | B | A | API | 2024年4月24日 |
讯飞星火V3.5 | B | B | D | A | C | B | C | API | 2024年4月24日 |
Baichuan2-13B-Chat | C | B | D | B | C | C | C | API | 2024年4月24日 |
ChatGLM3-6B | C | B | D | C | D | D | D | API | 2024年4月24日 |
GPT-3.5 Turbo | C | C | D | C | D | C | D | API | 2024年4月24日 |
GPT-4 | C | B | D | B | C | C | C | API | 2024年4月24日 |
Gemma-7b-instruct | D | D | D | D | D | D | D | API | 2024年4月24日 |
通义金融-14B | D | C | D | D | D | D | D | API | 2024年4月24日 |
模型 | 等级 | 泛投顾问答 | 基金分析 | 使用方式 | 发布日期 |
---|---|---|---|---|---|
GPT-4 Turbo | A | A | B | API | 2024年4月24日 |
Baichuan3 | A | A | A | API | 2024年5月15日 |
GLM-4 | A | A | A+ | API | 2024年4月24日 |
GPT-4 | B | B | B | API | 2024年4月24日 |
MoonShot-v1-128K | B | B | A | API | 2024年4月24日 |
文心一言4.0 | B | B | A | API | 2024年4月24日 |
讯飞星火V3.5 | B | B | B | API | 2024年4月24日 |
Baichuan2-13B-Chat | C | C | D | API | 2024年4月24日 |
ChatGLM3-6B | C | C | C | API | 2024年4月24日 |
GPT-3.5 Turbo | C | C | C | API | 2024年4月24日 |
通义金融-14B | C | C | D | API | 2024年4月24日 |
Gemma-7b-instruct | D | D | D | API | 2024年4月24日 |
排名 | 模型 | 机构 | 总分 | 智能座舱与交互 | 汽车营销 | 车辆使用指南 | 汽车理解与通用知识 | 使用方式 | 评测日期 |
---|---|---|---|---|---|---|---|---|---|
- | GPT4-Turbo | OpenAI | 83.95 | 83.2 | 80.4 | 91.8 | 80.4 | API | 2023年12月25日 |
🏅️ | 易车大模型 | 易车 | 82.23 | 73.95 | 80.6 | 91.3 | 82.9 | API | 2024年6月12日 |
- | GPT-4 | OpenAI | 79.3 | 79.4 | 74.4 | 85.8 | 77.6 | API | 2023年12月25日 |
🥈 | 文心一言3.5 | 百度 | 79.15 | 77.8 | 76.6 | 86.2 | 76 | API | 2023年12月25日 |
🥉 | ChatGLM-Turbo | 清华&智谱AI | 78.3 | 72.6 | 75.6 | 86.6 | 78.4 | API | 2023年12月25日 |
4 | XVERSE-13B-2-Chat | 元象科技 | 77 | 72.4 | 74.2 | 84.4 | 77 | 模型 | 2023年12月25日 |
5 | Baichuan2-13B-Chat | 百川智能 | 76.6 | 67.4 | 75.4 | 84.2 | 79.4 | 模型 | 2023年12月25日 |
- | GPT-3.5-Turbo | OpenAI | 76.15 | 71.8 | 73.6 | 84.8 | 74.4 | API | 2023年12月25日 |
6 | Qwen-14B-Chat | 阿里巴巴 | 75.95 | 69.4 | 73.2 | 83.2 | 78 | API | 2023年12月25日 |
7 | MiniMax-Abab5.5 | MiniMax | 75 | 72 | 74.8 | 74.4 | 78.8 | API | 2023年12月25日 |
8 | 讯飞星火V3.0 | 科大讯飞 | 72.8 | 66.2 | 74.2 | 78.4 | 72.4 | API | 2023年12月25日 |
9 | ChatGLM3-6B | 清华&智谱AI | 67.05 | 53.2 | 70.8 | 76 | 68.2 | 模型 | 2023年12月25日 |
- | Llama2-13B-Chat | Meta | 65.35 | 55.4 | 76.2 | 76.8 | 53 | 模型 | 2023年12月25日 |
排名 | 模型 | 机构 | 智能座舱与交互 | 使用方式 | 评测日期 |
---|---|---|---|---|---|
- | GPT-4-Turbo | OpenAI | 83.2 | API | 2023年12月25日 |
- | GPT-4 | OpenAI | 79.4 | API | 2023年12月25日 |
🏅️ | 文心一言3.5 | 百度 | 77.8 | API | 2023年12月25日 |
🥈 | 易车大模型 | 易车 | 73.95 | API | 2024年6月12日 |
🥉 | ChatGLM-Turbo | 清华&智谱AI | 72.6 | API | 2023年12月25日 |
4 | XVERSE-13B-2-Chat | 元象科技 | 72.4 | 模型 | 2023年12月25日 |
5 | MiniMax-Abab5.5 | MiniMax | 72 | API | 2023年12月25日 |
- | GPT-3.5-Turbo | OpenAI | 71.8 | API | 2023年12月25日 |
6 | Qwen-14B-Chat | 阿里巴巴 | 69.4 | API | 2023年12月25日 |
7 | Baichuan2-13B-Chat | 百川智能 | 67.4 | 模型 | 2023年12月25日 |
8 | 讯飞星火V3.0 | 科大讯飞 | 66.2 | API | 2023年12月25日 |
- | Llama2-13B-Chat | Meta | 55.4 | 模型 | 2023年12月25日 |
9 | ChatGLM3-6B | 清华&智谱AI | 53.2 | 模型 | 2023年12月25日 |
排名 | 模型 | 机构 | 汽车营销 | 使用方式 | 评测日期 |
---|---|---|---|---|---|
🏅️ | 易车大模型 | 易车 | 80.6 | API | 2024年6月12日 |
- | GPT-4-Turbo | OpenAI | 80.4 | API | 2023年12月25日 |
🥈 | 文心一言3.5 | 百度 | 76.6 | API | 2023年12月25日 |
- | Llama2-13B-Chat | Meta | 76.2 | 模型 | 2023年12月25日 |
🥉 | ChatGLM-Turbo | 清华&智谱AI | 75.6 | API | 2023年12月25日 |
4 | Baichuan2-13B-Chat | 百川智能 | 75.4 | 模型 | 2023年12月25日 |
5 | MiniMax-Abab5.5 | MiniMax | 74.8 | API | 2023年12月25日 |
- | GPT-4 | OpenAI | 74.4 | API | 2023年12月25日 |
6 | XVERSE-13B-2-Chat | 元象科技 | 74.2 | 模型 | 2023年12月25日 |
7 | 讯飞星火V3.0 | 科大讯飞 | 74.2 | API | 2023年12月25日 |
- | GPT-3.5-Turbo | OpenAI | 73.6 | API | 2023年12月25日 |
8 | Qwen-14B-Chat | 阿里巴巴 | 73.2 | API | 2023年12月25日 |
9 | ChatGLM3-6B | 清华&智谱AI | 70.8 | 模型 | 2023年12月25日 |
排名 | 模型 | 机构 | 车辆使用指南 | 使用方式 | 评测日期 |
---|---|---|---|---|---|
- | GPT-4-Turbo | OpenAI | 91.8 | API | 2023年12月25日 |
🏅️ | 易车大模型 | 易车 | 91.3 | API | 2024年6月12日 |
🥈 | ChatGLM-Turbo | 清华&智谱AI | 86.6 | API | 2023年12月25日 |
🥉 | 文心一言3.5 | 百度 | 86.2 | API | 2023年12月25日 |
- | GPT-4 | OpenAI | 85.8 | API | 2023年12月25日 |
- | GPT-3.5-Turbo | OpenAI | 84.8 | API | 2023年12月25日 |
4 | XVERSE-13B-2-Chat | 元象科技 | 84.4 | 模型 | 2023年12月25日 |
5 | Baichuan2-13B-Chat | 百川智能 | 84.2 | 模型 | 2023年12月25日 |
6 | Qwen-14B-Chat | 阿里巴巴 | 83.2 | API | 2023年12月25日 |
7 | 讯飞星火V3.0 | 科大讯飞 | 78.4 | API | 2023年12月25日 |
- | Llama2-13B-Chat | Meta | 76.8 | 模型 | 2023年12月25日 |
8 | ChatGLM3-6B | 清华&智谱AI | 76 | 模型 | 2023年12月25日 |
9 | MiniMax-Abab5.5 | MiniMax | 74.4 | API | 2023年12月25日 |
排名 | 模型 | 机构 | 汽车理解与通用知识 | 使用方式 | 评测日期 |
---|---|---|---|---|---|
🏅️ | 易车大模型 | 易车 | 82.9 | API | 2024年6月12日 |
- | GPT-4-Turbo | OpenAI | 80.4 | API | 2023年12月25日 |
🥈 | Baichuan2-13B-Chat | 百川智能 | 79.4 | 模型 | 2023年12月25日 |
🥉 | MiniMax-Abab5.5 | MiniMax | 78.8 | API | 2023年12月25日 |
4 | ChatGLM-Turbo | 清华&智谱AI | 78.4 | API | 2023年12月25日 |
5 | Qwen-14B-Chat | 阿里巴巴 | 78 | API | 2023年12月25日 |
- | GPT-4 | OpenAI | 77.6 | API | 2023年12月25日 |
6 | XVERSE-13B-2-Chat | 元象科技 | 77 | 模型 | 2023年12月25日 |
7 | 文心一言3.5 | 百度 | 76 | API | 2023年12月25日 |
- | GPT-3.5-Turbo | OpenAI | 74.4 | API | 2023年12月25日 |
8 | 讯飞星火V3.0 | 科大讯飞 | 72.4 | API | 2023年12月25日 |
9 | ChatGLM3-6B | 清华&智谱AI | 68.2 | 模型 | 2023年12月25日 |
- | Llama2-13B-Chat | Meta | 53 | 模型 | 2023年12月25日 |
排名 | 模型名称 | 机构 | 总分 | 基础能力 | 应用能力 | 使用方式 |
---|---|---|---|---|---|---|
- | GPT4-Turbo-0125 | OpenAI | 74.8 | 74.2 | 75.27 | API |
- | GPT4 | OpenAI | 66.6 | 65.53 | 67.6 | API |
🏅 | 奇智孔明AInno-15B-1128 | 创新奇智 | 65.22 | 63.27 | 67.17 | API |
🥈 | qwen1.5-14b-chat | 阿里巴巴 | 64.8 | 61.8 | 67.73 | API |
🥉 | 讯飞星火V3.0 | 科大讯飞 | 63.8 | 64.93 | 62.6 | API |
- | GPT3.5-Turbo-0125 | OpenAI | 63.6 | 61.47 | 65.6 | API |
4 | Baichuan2-13B-Chat | 百川智能 | 61.8 | 60.13 | 63.27 | 模型 |
5 | ChatGLM-Turbo | 智谱AI | 59.8 | 56.67 | 63 | API |
6 | 文心一言3.5 | 百度 | 54.2 | 51.07 | 57.6 | API |
7 | ChatGLM3-6B | 智谱AI | 52.8 | 50.33 | 55.07 | 模型 |
8 | Chinese_Alpaca2_13B | yiming cui | 51.4 | 47 | 55.47 | 模型 |
- | Llama_2_13B_Chat | Meta | 50 | 48.4 | 51.6 | 模型 |
排名 | 模型名称 | 机构 | 基础能力分数 | 工业常规问答 | 工业理解计算 | 工业代码生成 | 使用方式 |
---|---|---|---|---|---|---|---|
- | GPT4-Turbo-0125 | OpenAI | 74.2 | 77.6 | 81.2 | 63.8 | API |
- | GPT4 | OpenAI | 65.53 | 67.6 | 73.4 | 55.6 | API |
🏅 | 讯飞星火V3.0 | 科大讯飞 | 64.93 | 68.6 | 74.2 | 52 | API |
🥈 | 奇智孔明AInno-15B-1128 | 创新奇智 | 63.27 | 69.2 | 67.1 | 53.5 | API |
🥉 | qwen1.5-14b-chat | 阿里巴巴 | 61.8 | 72.6 | 57.2 | 55.6 | API |
- | GPT3.5-Turbo-0125 | OpenAI | 61.47 | 69.2 | 61.6 | 53.6 | API |
4 | Baichuan2-13B-Chat | 百川智能 | 60.13 | 73.8 | 49.6 | 57 | 模型 |
5 | ChatGLM-Turbo | 智谱AI | 56.67 | 72.2 | 51 | 46.8 | API |
6 | 文心一言3.5 | 百度 | 51.07 | 69.8 | 34.8 | 48.6 | API |
7 | ChatGLM3-6B | 智谱AI | 50.33 | 66 | 41.8 | 43.2 | 模型 |
- | Llama_2_13B_Chat | Meta | 48.4 | 65.8 | 37 | 42.4 | 模型 |
8 | Chinese_Alpaca2_13B | yiming cui | 47 | 65.2 | 32.4 | 43.4 | 模型 |
排名 | 模型名称 | 机构 | 应用能力分数 | 工业数据分析 | 工业文档问答 | 工业智能体Agent |
---|---|---|---|---|---|---|
- | GPT4-Turbo-0125 | OpenAI | 75.27 | 73.8 | 81 | 71 |
🏅 | qwen1.5-14b-chat | 阿里巴巴 | 67.73 | 60.6 | 76.6 | 66 |
- | GPT4 | OpenAI | 67.6 | 65 | 73.6 | 64.2 |
🥈 | 奇智孔明AInno-15B-1128 | 创新奇智 | 67.17 | 61.4 | 76.1 | 64 |
- | GPT3.5-Turbo-0125 | OpenAI | 65.6 | 60.2 | 76 | 60.6 |
🥉 | Baichuan2-13B-Chat | 百川智能 | 63.27 | 51.6 | 75.6 | 62.6 |
4 | ChatGLM-Turbo | 智谱AI | 63 | 53.8 | 74.6 | 60.6 |
5 | 讯飞星火V3.0 | 科大讯飞 | 62.6 | 61.6 | 71 | 55.2 |
6 | 文心一言3.5 | 百度 | 57.6 | 44.2 | 73.6 | 55 |
7 | Chinese_Alpaca2_13B | yiming cui | 55.47 | 43 | 73 | 50.4 |
8 | ChatGLM3-6B | 智谱AI | 55.07 | 39.4 | 72.4 | 53.4 |
- | Llama_2_13B_Chat | Meta | 51.6 | 40 | 63 | 51.8 |
模型名称 | 机构 | 工业常规问答 | 工业理解计算 | 工业代码生成 | 工业数据分析 | 工业文档问答 | 工业智能体Agent | 使用方式 |
---|---|---|---|---|---|---|---|---|
GPT4-Turbo-0125 | OpenAI | 77.6 | 81.2 | 63.8 | 73.8 | 81 | 71 | API |
GPT4 | OpenAI | 67.6 | 73.4 | 55.6 | 65 | 73.6 | 64.2 | API |
奇智孔明AInno-15B-1128 | 创新奇智 | 69.2 | 67.1 | 53.5 | 61.4 | 76.1 | 64 | API |
qwen1.5-14b-chat | 阿里巴巴 | 72.6 | 57.2 | 55.6 | 60.6 | 76.6 | 66 | API |
讯飞星火V3.0 | 科大讯飞 | 68.6 | 74.2 | 52 | 61.6 | 71 | 55.2 | API |
GPT3.5-Turbo-0125 | OpenAI | 69.2 | 61.6 | 53.6 | 60.2 | 76 | 60.6 | API |
Baichuan2-13B-Chat | 百川智能 | 73.8 | 49.6 | 57 | 51.6 | 75.6 | 62.6 | 模型 |
ChatGLM-Turbo | 智谱AI | 72.2 | 51 | 46.8 | 53.8 | 74.6 | 60.6 | API |
文心一言3.5 | 百度 | 69.8 | 34.8 | 48.6 | 44.2 | 73.6 | 55 | API |
ChatGLM3-6B | 智谱AI | 66 | 41.8 | 43.2 | 39.4 | 72.4 | 53.4 | 模型 |
Chinese_Alpaca2_13B | yiming cui | 65.2 | 32.4 | 43.4 | 43 | 73 | 50.4 | 模型 |
Llama_2_13B_Chat | Meta | 65.8 | 37 | 42.4 | 40 | 63 | 51.8 | 模型 |