SuperCLUE中文大模型测评基准—

请选择月份

SuperCLUE总排行榜（2025年3月）

排名	模型名称	机构	总分	数学推理	科学推理	代码生成	智能体Agent	精确指令遵循	文本理解与创作	使用方式	发布日期
-	o3-mini(high)	OpenAI	76.01	94.74	70.00	88.78	57.14	66.4	79.01	API	2025.03.18
🏅️	DeepSeek-R1	深度求索	70.33	85.96	64.00	86.94	65.18	39.52	80.41	API	2025.03.18
-	Claude 3.7 Sonnet	Anthropic	68.02	78.07	59.00	86.73	56.62	48.92	78.77	POE	2025.03.18
-	GPT-4.5-Preview	OpenAI	67.46	67.54	70.00	79.18	71.88	35.75	80.4	POE	2025.03.18
🥈	QwQ-32B	阿里巴巴	66.38	88.6	67.00	81.84	48.66	29.92	82.27	API	2025.03.18
-	Gemini-2.0-Pro-Exp-02-05	Google	65.35	65.79	70.71	77.76	64.88	33.6	79.34	API	2025.03.18
🥉	Doubao-1.5-pro-32k-250115	字节跳动	64.68	62.28	70.00	76.94	54.46	46.77	77.66	API	2025.03.18
4	hunyuan-turbos-20250226	腾讯	62.49	47.37	63.00	74.49	70.09	41.13	78.88	API	2025.03.18
5	DeepSeek-R1-Distill-Qwen-32B	深度求索	59.94	85.85	62.89	73.43	36.77	23.18	77.53	API	2025.03.18
5	Qwen-max-latest	阿里巴巴	59.34	42.98	68.00	76.33	58.48	29.38	80.88	API	2025.03.18
-	Gemini-2.0-Flash-Thinking-Exp-01-21	Google	59.26	83.33	63.00	68.16	26.34	33.6	81.16	API	2025.03.18
5	360智脑o1.5	360	59.08	83.33	57.00	71.43	36.61	26.34	79.78	API	2025.03.18
6	DeepSeek-V3	深度求索	57.63	48.25	63.00	68.78	63.39	23.39	78.99	API	2025.03.18
-	ChatGPT-4o-latest	OpenAI	57.57	35.96	66.00	73.06	56.7	32.8	80.89	API	2025.03.18
7	YAYI-Ultra	中科闻歌	55.81	42.11	62.00	69.39	59.38	23.39	78.57	API	2025.03.18
8	Qwen2.5-72B-Instruct	阿里巴巴	51.9	33.33	58.00	62.86	55.8	22.91	78.52	API	2025.03.18
8	kimi-latest	月之暗面	51.47	27.19	54.00	70.61	62.05	19.89	75.1	API	2025.03.18
9	Step-2-16k	阶跃星辰	50.81	26.32	58.00	62.45	59.38	18.55	80.17	API	2025.03.18
10	DeepSeek-R1-Distill-Qwen-14B	深度求索	49.67	79.46	63.27	55.79	7.14	16.85	75.51	API	2025.03.18
10	Sky-Chat-3.0	昆仑万维	49.17	38.6	63.00	55.1	38.84	21.83	77.66	API	2025.03.18
11	GLM-4-Plus	智谱AI	48.61	26.32	53.00	61.84	49.55	21.77	79.17	API	2025.03.18
12	ERNIE-4.0-Turbo-8K-Latest	百度	47.56	29.82	48.00	61.22	50.45	19.35	76.54	API	2025.03.18
13	GLM-Zero-Preview	智谱AI	46.11	74.56	64.00	41.02	8.48	16.94	71.64	API	2025.03.18
-	Llama-3.3-70B-Instruct	Meta	45.53	21.05	52.00	62.86	39.29	26.08	71.92	API	2025.03.18
-	Phi-4	微软	45.26	35.09	61.00	60.2	23.83	15.05	76.37	模型	2025.03.18
-	GPT-4o mini	OpenAI	43.8	21.05	53.00	63.06	29.02	20.43	76.22	API	2025.03.18
14	讯飞星火V4.0	科大讯飞	40.76	39.82	49.00	51.22	16.52	12.63	75.36	API	2025.03.18
14	Qwen2.5-14b-Instruct	阿里巴巴	40.7	21.05	48.00	50.61	32.59	15.09	76.87	API	2025.03.18
15	DeepSeek-R1-Distill-Qwen-7B	深度求索	39.06	77.23	58.06	34.5	2.68	6.47	55.45	API	2025.03.18
16	Qwen2.5-7B-Instruct	阿里巴巴	34.01	21.05	39.00	40	17.41	10.51	76.11	API	2025.03.18
17	InternLM3-8B-Instruct	上海人工智能实验室	32.02	32.74	43.00	25.31	8.93	8.6	73.53	模型	2025.03.18
18	GLM-4-9B-Chat	智谱AI	29.34	7.02	21.00	33.88	30.36	9.14	74.66	模型	2025.03.18
-	Gemma-2-9b-it	Google	28.3	2.63	31.00	37.35	10.27	16.67	71.88	模型	2025.03.18
-	Llama-3.1-8B-Instruct	Meta	25.42	1.75	19.00	31.02	23.66	10.48	66.63	API	2025.03.18
19	Yi-1.5-34B-Chat-16K	零一万物	23.29	6.14	22.00	23.27	7.14	7.8	73.41	模型	2025.03.18
20	Qwen2.5-3b-Instruct	阿里巴巴	22.18	13.16	20.00	12.65	7.59	6.2	73.49	API	2025.03.18
20	Yi-1.5-9B-Chat-16K	零一万物	21.94	4.42	19.00	14.49	14.75	7.53	71.42	模型	2025.03.18
21	DeepSeek-R1-Distill-Qwen-1.5B	深度求索	17.98	37.72	35.00	3.88	0	1.62	29.64	API	2025.03.18
-	Llama-3.2-3B-Instruct	Meta	17.15	7.89	5.00	18.78	3.57	5.48	62.17	API	2025.03.18
-	Mistral-7B-Instruct-v0.3	Mistral AI	11.78	1.75	5.00	2.86	1.34	4.3	55.43	模型	2025.03.18

排名	模型名称	机构	推理榜单总分	数学推理	科学推理	代码生成	使用方式	发布日期
-	o3-mini(high)	OpenAI	84.51	94.74	70	88.78	API	2025.03.18
🏅️	QwQ-32B	阿里巴巴	79.15	88.6	67	81.84	API	2025.03.18
🏅️	DeepSeek-R1	深度求索	78.97	85.96	64	86.94	API	2025.03.18
🥈	QwQ-Max-preview	阿里巴巴	76.01	86.84	64.65	76.53	网页	2025.03.18
-	Claude 3.7 Sonnet	Anthropic	74.6	78.07	59	86.73	POE	2025.03.18
🥉	DeepSeek-R1-Distill-Qwen-32B	深度求索	74.06	85.85	62.89	73.43	API	2025.03.18
-	GPT-4.5-Preview	OpenAI	72.24	67.54	70	79.18	POE	2025.03.18
-	Gemini-2.0-Flash-Thinking-Exp-01-21	Google	71.5	83.33	63	68.16	API	2025.03.18
-	Gemini-2.0-Pro-Exp-02-05	Google	71.42	65.79	70.71	77.76	API	2025.03.18
4	360智脑o1.5	360	70.59	83.33	57	71.43	API	2025.03.18
4	Kimi-K1.5	月之暗面	70.19	78.07	67	65.51	网页	2025.03.18
5	Doubao-1.5-pro-32k-250115	字节跳动	69.74	62.28	70	76.94	API	2025.03.18
-	Grok-3	X.AI	68.86	58.77	67	80.82	网页	2025.03.18
6	DeepSeek-R1-Distill-Qwen-14B	深度求索	66.17	79.46	63.27	55.79	API	2025.03.18
6	Step R-mini	阶跃星辰	65.2	73.45	61	61.16	网页	2025.03.18
7	Qwen-max-latest	阿里巴巴	62.44	42.98	68	76.33	API	2025.03.18
7	hunyuan-turbos-20250226	腾讯	61.62	47.37	63	74.49	API	2025.03.18
8	DeepSeek-V3	深度求索	60.01	48.25	63	68.78	API	2025.03.18
8	GLM-Zero-Preview	智谱AI	59.86	74.56	64	41.02	API	2025.03.18
-	ChatGPT-4o-latest	OpenAI	58.34	35.96	66	73.06	API	2025.03.18
9	YAYI-Ultra	中科闻歌	57.83	42.11	62	69.39	API	2025.03.18
10	DeepSeek-R1-Distill-Qwen-7B	深度求索	56.6	77.23	58.06	34.5	API	2025.03.18
11	Sky-Chat-3.0	昆仑万维	52.23	38.6	63	55.1	API	2025.03.18
-	Phi-4	微软	52.1	35.09	61	60.2	模型	2025.03.18
11	Qwen2.5-72B-Instruct	阿里巴巴	51.4	33.33	58	62.86	API	2025.03.18
12	kimi-latest	月之暗面	50.6	27.19	54	70.61	API	2025.03.18
13	Step-2-16k	阶跃星辰	48.92	26.32	58	62.45	API	2025.03.18
14	Skywork o1 Preview	昆仑万维	47.67	55.17	44.21	43.63	网页	2025.03.18
14	GLM-4-Plus	智谱AI	47.05	26.32	53	61.84	API	2025.03.18
14	讯飞星火V4.0	科大讯飞	46.68	39.82	49	51.22	API	2025.03.18
15	ERNIE-4.0-Turbo-8K-Latest	百度	46.35	29.82	48	61.22	API	2025.03.18
-	GPT-4o mini	OpenAI	45.7	21.05	53	63.06	API	2025.03.18
-	Llama-3.3-70B-Instruct	Meta	45.3	21.05	52	62.86	API	2025.03.18
16	Qwen2.5-14b-Instruct	阿里巴巴	39.89	21.05	48	50.61	API	2025.03.18
17	InternLM3-8B-Instruct	上海人工智能实验室	33.68	32.74	43	25.31	模型	2025.03.18
17	Qwen2.5-7B-Instruct	阿里巴巴	33.35	21.05	39	40	API	2025.03.18
18	DeepSeek-R1-Distill-Qwen-1.5B	深度求索	25.53	37.72	35	3.88	API	2025.03.18
-	Gemma-2-9b-it	Google	23.66	2.63	31	37.35	模型	2025.03.18
19	GLM-4-9B-Chat	智谱AI	20.63	7.02	21	33.88	模型	2025.03.18
-	Llama-3.1-8B-Instruct	Meta	17.26	1.75	19	31.02	API	2025.03.18
20	Yi-1.5-34B-Chat-16K	零一万物	17.14	6.14	22	23.27	模型	2025.03.18
21	Qwen2.5-3b-Instruct	阿里巴巴	15.27	13.16	20	12.65	API	2025.03.18
22	Yi-1.5-9B-Chat-16K	零一万物	12.64	4.42	19	14.49	模型	2025.03.18
-	Llama-3.2-3B-Instruct	Meta	10.56	7.89	5	18.78	API	2025.03.18
-	Mistral-7B-Instruct-v0.3	Mistral AI	3.2	1.75	5	2.86	模型	2025.03.18

排名	模型名称	机构	推理榜单总分	数学推理	科学推理	代码生成	使用方式	发布日期
-	o3-mini(high)	OpenAI	84.51	94.74	70	88.78	API	2025.03.18
🏅️	QwQ-32B	阿里巴巴	79.15	88.6	67	81.84	API	2025.03.18
🏅️	DeepSeek-R1	深度求索	78.97	85.96	64	86.94	API	2025.03.18
🥈	QwQ-Max-preview	阿里巴巴	76.01	86.84	64.65	76.53	网页	2025.03.18
-	Claude 3.7 Sonnet	Anthropic	74.6	78.07	59	86.73	POE	2025.03.18
🥉	DeepSeek-R1-Distill-Qwen-32B	深度求索	74.06	85.85	62.89	73.43	API	2025.03.18
-	Gemini-2.0-Flash-Thinking-Exp-01-21	Google	71.5	83.33	63	68.16	API	2025.03.18
4	360智脑o1.5	360	70.59	83.33	57	71.43	API	2025.03.18
4	Kimi-K1.5	月之暗面	70.19	78.07	67	65.51	网页	2025.03.18
5	DeepSeek-R1-Distill-Qwen-14B	深度求索	66.17	79.46	63.27	55.79	API	2025.03.18
5	Step R-mini	阶跃星辰	65.2	73.45	61	61.16	网页	2025.03.18
6	GLM-Zero-Preview	智谱AI	59.86	74.56	64	41.02	API	2025.03.18
7	DeepSeek-R1-Distill-Qwen-7B	深度求索	56.6	77.23	58.06	34.5	API	2025.03.18
8	Skywork o1 Preview	昆仑万维	47.67	55.17	44.21	43.63	网页	2025.03.18
9	InternLM3-8B-Instruct	上海人工智能实验室	33.68	32.74	43	25.31	模型	2025.03.18
10	DeepSeek-R1-Distill-Qwen-1.5B	深度求索	25.53	37.72	35	3.88	API	2025.03.18

排名	模型名称	机构	总分	数学推理	科学推理	代码生成	智能体Agent	精确指令遵循	文本理解与创作	使用方式	发布日期
-	GPT-4.5-Preview	OpenAI	67.46	67.54	70	79.18	71.88	35.75	80.4	POE	2025.03.18
-	Gemini-2.0-Pro-Exp-02-05	Google	65.35	65.79	70.71	77.76	64.88	33.6	79.34	API	2025.03.18
🏅️	Doubao-1.5-pro-32k-250115	字节跳动	64.68	62.28	70	76.94	54.46	46.77	77.66	API	2025.03.18
🥈	hunyuan-turbos-20250226	腾讯	62.49	47.37	63	74.49	70.09	41.13	78.88	API	2025.03.18
🥉	Qwen-max-latest	阿里巴巴	59.34	42.98	68	76.33	58.48	29.38	80.88	API	2025.03.18
4	DeepSeek-V3	深度求索	57.63	48.25	63	68.78	63.39	23.39	78.99	API	2025.03.18
-	ChatGPT-4o-latest	OpenAI	57.57	35.96	66	73.06	56.7	32.8	80.89	API	2025.03.18
5	YAYI-Ultra	中科闻歌	55.81	42.11	62	69.39	59.38	23.39	78.57	API	2025.03.18
6	Qwen2.5-72B-Instruct	阿里巴巴	51.9	33.33	58	62.86	55.8	22.91	78.52	API	2025.03.18
6	kimi-latest	月之暗面	51.47	27.19	54	70.61	62.05	19.89	75.1	API	2025.03.18
7	Step-2-16k	阶跃星辰	50.81	26.32	58	62.45	59.38	18.55	80.17	API	2025.03.18
8	Sky-Chat-3.0	昆仑万维	49.17	38.6	63	55.1	38.84	21.83	77.66	API	2025.03.18
8	GLM-4-Plus	智谱AI	48.61	26.32	53	61.84	49.55	21.77	79.17	API	2025.03.18
9	ERNIE-4.0-Turbo-8K-Latest	百度	47.56	29.82	48	61.22	50.45	19.35	76.54	API	2025.03.18
-	Llama-3.3-70B-Instruct	Meta	45.53	21.05	52	62.86	39.29	26.08	71.92	API	2025.03.18
-	Phi-4	微软	45.26	35.09	61	60.2	23.83	15.05	76.37	模型	2025.03.18
-	GPT-4o mini	OpenAI	43.8	21.05	53	63.06	29.02	20.43	76.22	API	2025.03.18
10	讯飞星火V4.0	科大讯飞	40.76	39.82	49	51.22	16.52	12.63	75.36	API	2025.03.18
10	Qwen2.5-14b-Instruct	阿里巴巴	40.7	21.05	48	50.61	32.59	15.09	76.87	API	2025.03.18
11	Qwen2.5-7B-Instruct	阿里巴巴	34.01	21.05	39	40	17.41	10.51	76.11	API	2025.03.18
12	GLM-4-9B-Chat	智谱AI	29.34	7.02	21	33.88	30.36	9.14	74.66	模型	2025.03.18
-	Gemma-2-9b-it	Google	28.3	2.63	31	37.35	10.27	16.67	71.88	模型	2025.03.18
-	Llama-3.1-8B-Instruct	Meta	25.42	1.75	19	31.02	23.66	10.48	66.63	API	2025.03.18
13	Yi-1.5-34B-Chat-16K	零一万物	23.29	6.14	22	23.27	7.14	7.8	73.41	模型	2025.03.18
14	Qwen2.5-3b-Instruct	阿里巴巴	22.18	13.16	20	12.65	7.59	6.2	73.49	API	2025.03.18
14	Yi-1.5-9B-Chat-16K	零一万物	21.94	4.42	19	14.49	14.75	7.53	71.42	模型	2025.03.18
-	Llama-3.2-3B-Instruct	Meta	17.15	7.89	5	18.78	3.57	5.48	62.17	API	2025.03.18
-	Mistral-7B-Instruct-v0.3	Mistral AI	11.78	1.75	5	2.86	1.34	4.3	55.43	模型	2025.03.18

排名	模型名称	机构	参数量	总分	数学推理	科学推理	代码生成	智能体Agent	精确指令遵循	文本理解与创作	使用方式	发布日期
1	DeepSeek-R1	深度求索	671B	70.33	85.96	64	86.94	65.18	39.52	80.41	API	2025.03.18
2	QwQ-32B	阿里巴巴	32B	66.38	88.6	67	81.84	48.66	29.92	82.27	API	2025.03.18
3	DeepSeek-R1-Distill-Qwen-32B	深度求索	32B	59.94	85.85	62.89	73.43	36.77	23.18	77.53	API	2025.03.18
4	DeepSeek-V3	深度求索	671B	57.63	48.25	63	68.78	63.39	23.39	78.99	API	2025.03.18
5	Qwen2.5-72B-Instruct	阿里巴巴	72B	51.9	33.33	58	62.86	55.8	22.91	78.52	API	2025.03.18
6	DeepSeek-R1-Distill-Qwen-14B	深度求索	14B	49.67	79.46	63.27	55.79	7.14	16.85	75.51	API	2025.03.18
-	Llama-3.3-70B-Instruct	Meta	70B	45.53	21.05	52	62.86	39.29	26.08	71.92	API	2025.03.18
-	Phi-4	微软	14B	45.26	35.09	61	60.2	23.83	15.05	76.37	模型	2025.03.18
7	Qwen2.5-14b-Instruct	阿里巴巴	14B	40.7	21.05	48	50.61	32.59	15.09	76.87	API	2025.03.18
8	DeepSeek-R1-Distill-Qwen-7B	深度求索	7B	39.06	77.23	58.06	34.5	2.68	6.47	55.45	API	2025.03.18
9	Qwen2.5-7B-Instruct	阿里巴巴	7B	34.01	21.05	39	40	17.41	10.51	76.11	API	2025.03.18
10	InternLM3-8B-Instruct	上海人工智能实验室	8B	32.02	32.74	43	25.31	8.93	8.6	73.53	模型	2025.03.18
11	GLM-4-9B-Chat	智谱AI	9B	29.34	7.02	21	33.88	30.36	9.14	74.66	模型	2025.03.18
-	Gemma-2-9b-it	Google	9B	28.3	2.63	31	37.35	10.27	16.67	71.88	模型	2025.03.18
-	Llama-3.1-8B-Instruct	Meta	8B	25.42	1.75	19	31.02	23.66	10.48	66.63	API	2025.03.18
12	Yi-1.5-34B-Chat-16K	零一万物	34B	23.29	6.14	22	23.27	7.14	7.8	73.41	API	2025.03.18
13	Qwen2.5-3b-Instruct	阿里巴巴	3B	22.18	13.16	20	12.65	7.59	6.2	73.49	API	2025.03.18
13	Yi-1.5-9B-Chat-16K	零一万物	9B	21.94	4.42	19	14.49	14.75	7.53	71.42	API	2025.03.18
14	DeepSeek-R1-Distill-Qwen-1.5B	深度求索	1.5B	17.98	37.72	35	3.88	0	1.62	29.64	API	2025.03.18
-	Llama-3.2-3B-Instruct	Meta	3B	17.15	7.89	5	18.78	3.57	5.48	62.17	API	2025.03.18
-	Mistral-7B-Instruct-v0.3	Mistral AI	7B	11.78	1.75	5	2.86	1.34	4.3	55.43	模型	2025.03.18

排名	模型名称	机构	参数量	总分	数学推理	科学推理	代码生成	智能体Agent	精确指令遵循	文本理解与创作	使用方式	发布日期
1	DeepSeek-R1-Distill-Qwen-7B	深度求索	7B	39.06	77.23	58.06	34.5	2.68	6.47	55.45	API	2025.03.18
2	Qwen2.5-7B-Instruct	阿里巴巴	7B	34.01	21.05	39	40	17.41	10.51	76.11	API	2025.03.18
3	InternLM3-8B-Instruct	上海人工智能实验室	8B	32.02	32.74	43	25.31	8.93	8.6	73.53	模型	2025.03.18
4	GLM-4-9B-Chat	智谱AI	9B	29.34	7.02	21	33.88	30.36	9.14	74.66	模型	2025.03.18
-	Gemma-2-9b-it	Google	9B	28.3	2.63	31	37.35	10.27	16.67	71.88	模型	2025.03.18
-	Llama-3.1-8B-Instruct	Meta	8B	25.42	1.75	19	31.02	23.66	10.48	66.63	API	2025.03.18
5	Qwen2.5-3b-Instruct	阿里巴巴	3B	22.18	13.16	20	12.65	7.59	6.2	73.49	API	2025.03.18
5	Yi-1.5-9B-Chat-16K	零一万物	9B	21.94	4.42	19	14.49	14.75	7.53	71.42	API	2025.03.18
6	DeepSeek-R1-Distill-Qwen-1.5B	深度求索	1.5B	17.98	37.72	35	3.88	0	1.62	29.64	API	2025.03.18
-	Llama-3.2-3B-Instruct	Meta	3B	17.15	7.89	5	18.78	3.57	5.48	62.17	API	2025.03.18
-	Mistral-7B-Instruct-v0.3	Mistral AI	7B	11.78	1.75	5	2.86	1.34	4.3	55.43	模型	2025.03.18

排名	模型名称	机构	参数量	总分	数学推理	科学推理	代码生成	智能体Agent	精确指令遵循	文本理解与创作	使用方式	发布日期
1	Qwen2.5-3b-Instruct	阿里巴巴	3B	22.18	13.16	20	12.65	7.59	6.2	73.49	API	2025.03.18
2	DeepSeek-R1-Distill-Qwen-1.5B	深度求索	1.5B	17.98	37.72	35	3.88	0	1.62	29.64	API	2025.03.18
-	Llama-3.2-3B-Instruct	Meta	3B	17.15	7.89	5	18.78	3.57	5.48	62.17	API	2025.03.18

SuperCLUE

排名	模型名称	机构	总成绩	基础认知能力	视觉推理能力	视觉 Agent 执行力	使用方式	发布日期
🏅️	Doubao-1.5-vision-pro-32k	字节跳动	66.33	73	69	57	API	2025.03.06
-	Gemini-2.0-Flash-Thinking-Exp-01-21	Google	63.33	72	60	58	API	2025.03.06
-	ChatGPT-4o-latest	OpenAI	62	70	53	63	API	2025.03.06
🥈	Qwen2.5-vl-72b-instruct	阿里巴巴	59	69	55	53	API	2025.03.06
🥉	Step-1o-vision-32k	阶跃星辰	57	68	46	57	API	2025.03.06
4	SenseNova-5.5-Pro-20250113	商汤	55.33	64	52	50	API	2025.03.06
5	GLM-4V-Plus-0111	智谱AI	50	60	44	46	API	2025.03.06
-	Claude-3.7-Sonnet	Anthropic	48	59	49	36	API	2025.03.06
6	K1.5 长思考	月之暗面	47.33	50	55	37	官网	2025.03.06
7	Hunyuan-turbo-vision-20241126	腾讯	45	53	49	33	API	2025.03.06
7	InternVL2.5-38B	上海AI Lab	44.33	51	37	45	模型	2025.03.06
-	o3-mini-high	OpenAI	41.67	53	36	36	官网	2025.03.06
8	ERNIE-4.0-Turbo	百度	40.67	54	33	35	官网	2025.03.06
9	GLM-4v-9B	智谱AI	34.67	50	28	26	模型	2025.03.06
10	MiniCPM-o-2.6	面壁智能	33.33	45	29	26	模型	2025.03.06
11	Qwen2.5-vl-3b-instruct	阿里巴巴	32	39	36	21	API	2025.03.06
12	Yi-Vision-V2	零一万物	30.33	38	29	24	API	2025.03.06
13	InternVL2.5-2B	上海AI Lab	27.67	34	30	19	模型	2025.03.06
14	讯飞星火视觉模型	科大讯飞	23.33	39	18	13	API	2025.03.06

排名	模型名称	机构	分数	常识问答	物体识别	文本识别	数量判断	特征定位	使用方式	发布日期
🏅️	Doubao-1.5-vision-pro-32k	字节跳动	73	85	100	70	60	50	API	2025.03.06
-	Gemini-2.0-Flash-Thinking-Exp-01-21	Google	72	85	100	70	50	55	API	2025.03.06
-	ChatGPT-4o-latest	OpenAI	70	85	95	65	45	60	API	2025.03.06
🥈	Qwen2.5-vl-72b-instruct	阿里巴巴	69	65	100	80	45	55	API	2025.03.06
🥈	Step-1o-vision-32k	阶跃星辰	68	90	95	70	30	55	API	2025.03.06
🥉	SenseNova-5.5-Pro-20250113	商汤	64	70	90	70	45	45	API	2025.03.06
4	GLM-4V-Plus-0111	智谱AI	60	75	90	70	20	45	API	2025.03.06
-	Claude-3.7-Sonnet	Anthropic	59	75	95	45	40	40	API	2025.03.06
5	ERNIE-4.0-Turbo	百度	54	75	95	60	25	15	官网	2025.03.06
-	o3-mini-high	OpenAI	53	70	90	40	30	35	官网	2025.03.06
5	Hunyuan-turbo-vision-20241126	腾讯	53	80	95	55	10	25	API	2025.03.06
6	InternVL2.5-38B	上海AI Lab	51	60	85	65	30	15	模型	2025.03.06
6	K1.5 长思考	月之暗面	50	70	80	45	15	40	官网	2025.03.06
6	GLM-4v-9B	智谱AI	50	70	85	60	20	15	模型	2025.03.06
7	MiniCPM-o-2.6	面壁智能	45	45	85	45	30	20	模型	2025.03.06
8	讯飞星火视觉模型	科大讯飞	39	70	90	5	15	15	API	2025.03.06
8	Qwen2.5-vl-3b-instruct	阿里巴巴	39	45	75	55	10	10	API	2025.03.06
8	Yi-Vision-V2	零一万物	38	45	90	25	15	15	API	2025.03.06
9	InternVL2.5-2B	上海AI Lab	34	45	65	45	15	0	模型	2025.03.06

排名	模型名称	机构	分数	数学推理	代码推理	科学推理	图表推理	空间推理	逻辑推理	使用方式	发布日期
🏅️	Doubao-1.5-vision-pro-32k	字节跳动	69	64.71	93.75	94.12	82.35	37.5	41.18	API	2025.03.06
-	Gemini-2.0-Flash-Thinking-Exp-01-21	Google	60	52.94	93.75	76.47	70.59	25	41.18	API	2025.03.06
🥈	Qwen2.5-vl-72b-instruct	阿里巴巴	55	29.41	87.5	47.06	76.47	37.5	52.94	API	2025.03.06
🥈	K1.5 长思考	月之暗面	55	47.06	81.25	41.18	64.71	43.75	52.94	官网	2025.03.06
-	ChatGPT-4o-latest	OpenAI	53	29.41	100	47.06	70.59	37.5	35.29	API	2025.03.06
🥉	SenseNova-5.5-Pro-20250113	商汤	52	29.41	87.5	58.82	64.71	50	23.53	API	2025.03.06
4	Hunyuan-turbo-vision-20241126	腾讯	49	11.76	87.5	58.82	64.71	31.25	41.18	API	2025.03.06
-	Claude-3.7-Sonnet	Anthropic	49	23.53	93.75	35.29	76.47	31.25	35.29	API	2025.03.06
5	Step-1o-vision-32k	阶跃星辰	46	35.29	56.25	47.06	70.59	50	17.65	API	2025.03.06
6	GLM-4V-Plus-0111	智谱AI	44	11.76	68.75	47.06	76.47	31.25	29.41	API	2025.03.06
7	InternVL2.5-38B	上海AI Lab	37	5.88	75	35.29	58.82	31.25	17.65	模型	2025.03.06
-	o3-mini-high	OpenAI	36	17.65	87.5	23.53	52.94	25	11.76	官网	2025.03.06
7	Qwen2.5-vl-3b-instruct	阿里巴巴	36	5.88	68.75	47.06	52.94	18.75	23.53	API	2025.03.06
8	ERNIE-4.0-Turbo	百度	33	23.53	62.5	23.53	47.06	25	17.65	官网	2025.03.06
9	InternVL2.5-2B	上海AI Lab	30	5.88	56.25	23.53	41.18	31.25	23.53	模型	2025.03.06
10	MiniCPM-o-2.6	面壁智能	29	5.88	56.25	23.53	47.06	31.25	11.76	模型	2025.03.06
10	Yi-Vision-V2	零一万物	29	11.76	68.75	17.65	41.18	25	11.76	API	2025.03.06
11	GLM-4v-9B	智谱AI	28	5.88	62.5	11.76	58.82	31.25	0	API	2025.03.06
12	讯飞星火视觉模型	科大讯飞	18	0	37.5	29.41	5.88	31.25	5.88	API	2025.03.06

排名	模型名称	机构	分数	图形界面操作	物理环境交互	自动驾驶	医疗影像分析	内容审核	使用方式	发布日期
-	ChatGPT-4o-latest	OpenAI	63	65	55	70	30	95	API	2025.03.06
-	Gemini-2.0-Flash-Thinking-Exp-01-21	Google	58	80	60	65	20	65	API	2025.03.06
🏅️	Step-1o-vision-32k	阶跃星辰	57	70	55	60	20	80	API	2025.03.06
🏅️	Doubao-1.5-vision-pro-32k	字节跳动	57	70	60	60	25	70	API	2025.03.06
🥈	Qwen2.5-vl-72b-instruct	阿里巴巴	53	65	50	60	15	75	API	2025.03.06
🥉	SenseNova-5.5-Pro-20250113	商汤	50	45	55	60	20	70	API	2025.03.06
4	GLM-4V-Plus-0111	智谱AI	46	50	35	60	15	70	API	2025.03.06
4	InternVL2.5-38B	上海AI Lab	45	40	45	65	10	65	模型	2025.03.06
5	K1.5 长思考	月之暗面	37	45	40	50	10	40	官网	2025.03.06
-	Claude-3.7-Sonnet	Anthropic	36	35	35	45	15	50	API	2025.03.06
-	o3-mini-high	OpenAI	36	30	35	35	25	55	官网	2025.03.06
6	ERNIE-4.0-Turbo	百度	35	30	35	45	10	55	官网	2025.03.06
7	Hunyuan-turbo-vision-20241126	腾讯	33	20	30	60	10	45	API	2025.03.06
8	MiniCPM-o-2.6	面壁智能	26	25	30	50	0	25	模型	2025.03.06
8	GLM-4v-9B	智谱AI	26	25	25	50	0	30	模型	2025.03.06
9	Yi-Vision-V2	零一万物	24	20	25	45	0	30	API	2025.03.06
10	Qwen2.5-vl-3b-instruct	阿里巴巴	21	15	40	45	0	5	API	2025.03.06
11	InternVL2.5-2B	上海AI Lab	19	25	20	35	0	15	模型	2025.03.06
12	讯飞星火视觉模型	科大讯飞	13	0	20	20	5	20	API	2025.03.06

SuperCLUE

排名	模型	机构	总分	功能完整性	代码质量	用户体验	使用方式	发布日期
-	o3-mini-high	OpenAI	82.08	84.28	78.22	79.41	API	2025.2.27
-	Gemini-2.5-Pro-Experimental-03-25	谷歌	81.75	84.41	79.71	71.89	API	2025.3.27
-	Claude-3.7-Sonnet-Reasoning	Anthropic	81.63	82.55	77.73	85.46	POE	2025.2.27
🏅️	DeepSeek-V3-0324	深度求索	79.43	81.41	76.11	75.58	API	2025.3.25
🏅️	DeepSeek-R1	深度求索	78.59	81.67	75.28	68.95	API	2025.2.27
-	Gemini-2.0-pro	谷歌	78.41	80.74	75.78	72.4	API	2025.2.27
🥈	hunyuan-t1-20250321	腾讯云	77.94	80.06	75.79	71.41	API	2025.4.01
-	Claude-3.5-Sonnet	Anthropic	77.94	78.4	75.21	78.1	API	2025.2.27
🥉	QwQ-32B	阿里	76.55	79.12	74.18	68.6	API	2025.3.28
-	GPT-4o-latest-128k	OpenAI	75.45	77.35	73.46	69.28	API	2025.2.27
4	Qwen-Max-20250125	阿里	75.2	77.48	73.6	66.83	API	2025.2.27
4	K1.5 长思考	月之暗面	74.45	76.76	72.76	64.87	官网	2025.2.27
-	Llama-4-Maverick-17B-128E-Instruct-FP8	Meta	73.8	76.82	71.27	63.37	API	2025.4.08
5	Step R-mini	阶跃星辰	73.61	75.49	72.69	64.71	官网	2025.2.27
5	Doubao-1.5-pro-256k	字节跳动	73.41	76.01	71.64	60.78	API	2025.2.27
6	GLM-Zero-preview	智谱AI	71.2	72.84	71.15	59.15	API	2025.2.27
-	Llama-4-Scout-17B-16E-Instruct	Meta	67.45	69.11	69.17	55.07	API	2025.4.08
7	Spark4.0-ultra	科大讯飞	66.47	68.2	69.89	48.53	API	2025.2.27

排名	模型	游戏开发	发布日期
-	Claude-3.7-Sonnet-Reasoning	82.17	2025.2.27
-	o3-mini-high	81.75	2025.2.27
🏅️	DeepSeek-V3-0324	80.25	2025.3.25
-	Gemini-2.5-Pro-Experimental-03-25	80	2025.3.27
🏅️	DeepSeek-R1	79.58	2025.2.27
-	Claude-3.5-Sonnet	78.58	2025.2.27
🥈	hunyuan-t1-20250321	77.08	2025.4.01
-	Gemini-2.0-pro	77	2025.2.27
-	GPT-4o-latest-128k	75.08	2025.2.27
🥉	QwQ-32B	74.92	2025.3.28
🥉	Qwen-Max-20250125	74.92	2025.2.27
🥉	K1.5 长思考	74.25	2025.2.27
4	Doubao-1.5-pro-256k	73.08	2025.2.27
4	Step R-mini	72.83	2025.2.27
5	GLM-Zero-preview	71.25	2025.2.27
-	Llama-4-Maverick-17B-128E-Instruct-FP8	71.25	2025.4.08
-	Llama-4-Scout-17B-16E-Instruct	66.08	2025.4.08
6	Spark4.0-ultra	62.17	2025.2.27

排名	模型	快捷工具	发布日期
-	o3-mini-high	82.5	2025.2.27
-	Claude-3.7-Sonnet-Reasoning	82.33	2025.2.27
-	Gemini-2.5-Pro-Experimental-03-25	81.83	2025.3.27
🏅️	DeepSeek-V3-0324	78.92	2025.3.25
🏅️	QwQ-32B	78.92	2025.3.28
-	Gemini-2.0-pro	78.83	2025.2.27
🏅️	DeepSeek-R1	78.25	2025.2.27
🥈	hunyuan-t1-20250321	77.67	2025.4.01
-	Claude-3.5-Sonnet	76.92	2025.2.27
🥉	Qwen-Max-20250125	76.33	2025.2.27
-	GPT-4o-latest-128k	76.33	2025.2.27
-	Llama-4-Maverick-17B-128E-Instruct-FP8	75.92	2025.4.08
4	Step R-mini	74.58	2025.2.27
4	K1.5 长思考	73.67	2025.2.27
5	Doubao-1.5-pro-256k	72.08	2025.2.27
6	GLM-Zero-preview	70.5	2025.2.27
-	Llama-4-Scout-17B-16E-Instruct	68.78	2025.4.08
7	Spark4.0-ultra	68.25	2025.2.27

排名	模型	网络应用	发布日期
-	o3-mini-high	83.67	2025.2.27
-	Gemini-2.5-Pro-Experimental-03-25	83.8	2025.3.27
-	Claude-3.7-Sonnet-Reasoning	83.47	2025.2.27
🏅️	DeepSeek-V3-0324	81.31	2025.3.25
-	Claude-3.5-Sonnet	81.07	2025.2.27
-	Gemini-2.0-pro	80.6	2025.2.27
🏅️	DeepSeek-R1	80.53	2025.2.27
🏅️	hunyuan-t1-20250321	80.53	2025.4.01
-	GPT-4o-latest-128k	78.93	2025.2.27
🥈	QwQ-32B	78.53	2025.3.28
🥉	K1.5 长思考	77.4	2025.2.27
🥉	Qwen-Max-20250125	77.13	2025.2.27
🥉	Doubao-1.5-pro-256k	77	2025.2.27
-	Llama-4-Maverick-17B-128E-Instruct-FP8	76.47	2025.4.08
🥉	GLM-Zero-preview	75.4	2025.2.27
4	Step R-mini	74.73	2025.2.27
-	Llama-4-Scout-17B-16E-Instruct	70.87	2025.4.08
5	Spark4.0-ultra	69.8	2025.2.27

排名	模型	管理系统	发布日期
-	Gemini-2.5-Pro-Experimental-03-25	80	2025.3.27
-	o3-mini-high	78.4	2025.2.27
-	Claude-3.7-Sonnet-Reasoning	77.2	2025.2.27
🏅️	hunyuan-t1-20250321	76.8	2025.4.01
-	Gemini-2.0-pro	76.67	2025.2.27
🏅️	DeepSeek-V3-0324	75.87	2025.3.25
🥈	DeepSeek-R1	74.93	2025.2.27
-	Claude-3.5-Sonnet	73.87	2025.2.27
🥉	Qwen-Max-20250125	72.67	2025.2.27
🥉	QwQ-32B	72.27	2025.3.28
-	GPT-4o-latest-128k	71.6	2025.2.27
4	K1.5 长思考	70.8	2025.2.27
4	Step R-mini	70.4	2025.2.27
4	Doubao-1.5-pro-256k	70.27	2025.2.27
-	Llama-4-Maverick-17B-128E-Instruct-FP8	69.87	2025.4.08
5	GLM-Zero-preview	66.4	2025.2.27
6	Spark4.0-ultra	64.53	2025.2.27
-	Llama-4-Scout-17B-16E-Instruct	64.4	2025.4.08

排名	模型	多媒体编辑	发布日期
-	o3-mini-high	82.67	2025.2.27
-	Gemini-2.5-Pro-Experimental-03-25	82.22	2025.3.27
-	Claude-3.7-Sonnet-Reasoning	79.56	2025.2.27
🏅️	DeepSeek-V3-0324	78.44	2025.3.25
-	Gemini-2.0-pro	76.61	2025.2.27
🥈	DeepSeek-R1	76.44	2025.2.27
-	Claude-3.5-Sonnet	75.33	2025.2.27
🥉	QwQ-32B	75.11	2025.3.28
🥉	Step R-mini	74.67	2025.2.27
🥉	hunyuan-t1-20250321	74.22	2025.4.01
4	K1.5 长思考	73.33	2025.2.27
-	Llama-4-Maverick-17B-128E-Instruct-FP8	72.67	2025.4.08
5	Doubao-1.5-pro-256k	71.11	2025.2.27
5	Qwen-Max-20250125	70.67	2025.2.27
-	GPT-4o-latest-128k	68.89	2025.2.27
6	GLM-Zero-preview	66.89	2025.2.27
7	Spark4.0-ultra	65.33	2025.2.27
-	Llama-4-Scout-17B-16E-Instruct	61.33	2025.4.08

SuperCLUE

排名	模型	机构	总分	使用方式	发布日期
-	Gemini-2.5-Pro-Experimental-03-25	Google	92.54	API	2025.3.27
🏅️	QwQ-32B	阿里云	91.04	API	2025.3.28
-	o3-mini(high)	OpenAI	89.55	API	2025.2.10
🥈	DeepSeek-R1	深度求索	87.31	API	2025.2.05
🥈	hunyuan-t1-20250321	腾讯云	87.31	API	2025.4.01
🥉	QwQ-Max-Preview	阿里云	83.97	网页	2025.2.26
-	Gemini 2.0 Flash Thinking	Google	80.6	API	2025.2.10
-	o1	OpenAI	77.61	官网	2025.1.21
-	Claude-3.7-Sonnet-Reasoning	Anthropic	69.4	POE	2025.2.27
4	GLM-Zero-Preview	智谱AI	69.4	API	2025.1.21
5	DeepSeek-V3-0324	深度求索	67.91	API	2025.3.25
5	QwQ-32B-Preview	阿里云	67.91	API	2025.1.21
6	Deepseek-R1-Lite-Preview	深度求索	61.19	官网	2025.1.21
6	InternThinker	上海AI实验室	60.45	官网	2025.1.21
7	Doubao-pro-32k-241215	字节跳动	48.51	API	2025.1.21
8	讯飞星火 X1	科大讯飞	47.01	官网	2025.1.21
-	Llama-4-Maverick-17B-128E-Instruct-FP8	Meta	47.01	API	2025.4.08
9	Deepseek-V3	深度求索	45.52	API	2025.1.21
-	Gemini-2.0-Flash-Exp	Google	44.78	官网	2025.1.21
10	360zhinao2	360	37.31	API	2025.1.21
11	Qwen2.5-Max	阿里云	33.58	API	2025.2.06
-	Llama-4-Scout-17B-16E-Instruct	Meta	24.63	API	2025.4.08
-	Claude 3.5 Sonnet(20241022)	Anthropic	17.91	POE	2025.1.21

SuperCLUE

排名	模型	机构	总分	物理	化学	生物	推理等级	使用方式	发布日期
-	o3-mini(high)	OpenAI	79.12	84.97	70.25	85.14	7级	API	2025.3.03
-	Gemini-2.5-Pro-Experimental-03-25	Google	77.23	79.74	72.96	80.48	7级	API	2025.3.27
-	Claude-3.7-Sonnet-Reasoning	Anthropic	73.73	81.08	62.81	80.38	7级	POE	2025.2.27
🏅️	DeepSeek-R1	深度求索	73.64	77.99	65.83	80.67	7级	API	2025.1.22
-	o1	OpenAI	72.63	75.06	65.94	80.86	7级	官网	2025.1.22
🥈	DeepSeek-V3-0324	深度求索	72.48	75.33	65.49	80.48	7级	API	2025.3.25
🥈	QwQ-Max-Preview	阿里云	72.2	79.42	63.95	74.48	7级	官网	2025.2.26
-	chatgpt-4o-latest	OpenAI	69.61	70.31	60.32	86	6级	API	2025.1.22
-	Gemini-2.0-Flash-Exp	Google	69.22	69.59	65.16	76.1	6级	API	2025.1.22
3	QwQ-32B	阿里云	68.67	74.18	59.78	74.95	6级	API	2025.3.28
4	GLM-Zero-Preview	智谱AI	65.74	70.82	54.2	78.29	6级	API	2025.1.22
-	Llama-4-Maverick-17B-128E-Instruct-FP8	Meta	64.9	66.26	59.5	72.67	6级	API	2025.4.08
-	Claude-3.5-Sonnet(1022)	Anthropic	63.64	59.59	61.19	75.71	6级	API	2025.1.22
5	DeepSeek-R1-Lite-Preview	深度求索	62.68	69.38	54.87	64	6级	官网	2025.1.22
6	Kimi-k1	月之暗面	61.04	65.33	55.1	64.38	6级	官网	2025.1.22
-	Llama-4-Scout-17B-16E-Instruct	Meta	61	60.77	57.1	68.86	6级	API	2025.4.08
6	InternThinker	上海AI实验室	60.19	61.13	54.53	68.95	6级	官网	2025.1.22
7	QwQ-32B-Preview	阿里云	58.08	66.77	46.2	64.57	5级	API	2025.1.22

排名	模型	机构	物理	推理等级	使用方式	发布日期
-	o3-mini(high)	OpenAI	84.97	8级	API	2025.3.03
-	Claude-3.7-Sonnet-Reasoning	Anthropic	81.08	8级	POE	2025.2.27
-	Gemini-2.5-Pro-Experimental-03-25	Google	79.74	7级	API	2025.3.27
🏅️	QwQ-Max-Preview	阿里云	79.42	7级	官网	2025.2.26
🥈	DeepSeek-R1	深度求索	77.99	7级	API	2025.1.22
🥉	DeepSeek-V3-0324	深度求索	75.33	7级	API	2025.3.25
-	o1	OpenAI	75.06	7级	官网	2025.1.22
4	QwQ-32B	阿里云	74.18	7级	API	2025.3.28
5	GLM-Zero-Preview	智谱AI	70.82	7级	API	2025.1.22
-	chatgpt-4o-latest	OpenAI	70.31	7级	API	2025.1.22
-	Gemini-2.0-Flash-Exp	Google	69.59	6级	API	2025.1.22
6	Deepseek-R1-Lite-Preview	深度求索	69.38	6级	官网	2025.1.22
7	QwQ-32B-Preview	阿里云	66.77	6级	API	2025.1.22
-	Llama-4-Maverick-17B-128E-Instruct-FP8	Meta	66.26	6级	API	2025.4.08
8	Kimi_k1	月之暗面	65.33	6级	官网	2025.1.22
9	InternThinker	上海AI实验室	61.13	6级	官网	2025.1.22
-	Llama-4-Scout-17B-16E-Instruct	Meta	60.77	6级	API	2025.4.08
-	Claude-3.5-Sonnet(1022)	Anthropic	59.59	5级	API	2025.1.22

排名	模型	机构	化学	推理等级	使用方式	发布日期
-	Gemini-2.5-Pro-Experimental-03-25	Google	72.76	7级	API	2025.3.27
-	o3-mini(high)	OpenAI	70.25	7级	API	2025.3.03
-	o1	OpenAI	65.94	6级	官网	2025.1.22
🏅️	DeepSeek-R1	深度求索	65.83	6级	API	2025.1.22
🏅️	DeepSeek-V3-0324	深度求索	65.49	6级	API	2025.3.25
-	Gemini-2.0-Flash-Exp	Google	65.16	6级	API	2025.1.22
🥈	QwQ-Max-Preview	阿里云	63.95	6级	官网	2025.2.26
-	Claude-3.7-Sonnet-Reasoning	Anthropic	62.81	6级	POE	2025.2.27
-	Claude-3.5-Sonnet(1022)	Anthropic	61.19	6级	API	2025.1.22
-	chatgpt-4o-latest	OpenAI	60.32	6级	API	2025.1.22
🥉	QwQ-32B	阿里云	59.78	5级	API	2025.3.28
-	Llama-4-Maverick-17B-128E-Instruct-FP8	Meta	59.5	5级	API	2025.4.08
-	Llama-4-Scout-17B-16E-Instruct	Meta	57.1	5级	API	2025.4.08
4	Kimi_k1	月之暗面	55.1	5级	官网	2025.1.22
4	Deepseek-R1-Lite-Preview	深度求索	54.87	5级	官网	2025.1.22
4	InternThinker	上海AI实验室	54.53	5级	官网	2025.1.22
4	GLM-Zero-Preview	智谱AI	54.2	5级	API	2025.1.22
5	QwQ-32B-Preview	阿里云	46.2	4级	API	2025.1.22

排名	模型	机构	生物	推理等级	使用方式	发布日期
-	chatgpt-4o-latest	OpenAI	86	8级	API	2025.1.22
-	o3-mini(high)	OpenAI	85.14	8级	API	2025.3.03
-	o1	OpenAI	80.86	8级	官网	2025.1.22
🥈	DeepSeek-R1	深度求索	80.67	8级	API	2025.1.22
🥈	DeepSeek-V3-0324	深度求索	80.48	8级	API	2025.3.25
-	Gemini-2.5-Pro-Experimental-03-25	Google	80.48	8级	API	2025.3.27
-	Claude-3.7-Sonnet-Reasoning	Anthropic	80.38	8级	POE	2025.2.27
🥉	GLM-Zero-Preview	智谱AI	78.29	7级	API	2025.1.22
-	Gemini-2.0-Flash-Exp	Google	76.1	7级	API	2025.1.22
-	Claude-3.5-Sonnet(1022)	Anthropic	75.71	7级	API	2025.1.22
4	QwQ-32B	阿里云	74.95	7级	API	2025.3.28
4	QwQ-Max-Preview	阿里云	74.48	7级	官网	2025.2.26
-	Llama-4-Maverick-17B-128E-Instruct-FP8	Meta	72.67	7级	API	2025.4.08
5	InternThinker	上海AI实验室	68.95	6级	官网	2025.1.22
-	Llama-4-Scout-17B-16E-Instruct	Meta	68.86	6级	API	2025.4.08
6	QwQ-32B-Preview	阿里云	64.57	6级	API	2025.1.22
6	Kimi_k1	月之暗面	64.38	6级	官网	2025.1.22
6	Deepseek-R1-Lite-Preview	深度求索	64	6级	官网	2025.1.22

SuperCLUE

排名	模型	机构	总分	常规多轮对话	函数缺失	参数缺失	长上下文干扰	使用方式	发布日期
-	Claude-3.5-Sonnet(1022)	Anthropic	46.35	64.29	42.86	52.17	26.09	API	2025.02.14
-	gpt-4o-2024-11-20	OpenAI	42.88	64	34.62	38.1	34.78	API	2025.02.14
-	Gemini-2.0-Flash-Exp	Google	36.6	50	28.57	47.83	20	API	2025.02.14
🏅️	Doubao-1.5-pro-32k-250115	字节跳动	36.57	53.57	28.57	39.13	25	API	2025.02.14
-	gpt-4o-mini	OpenAI	34.34	46.15	23.08	33.33	34.78	API	2025.02.14
🥈	Moonshot-V1-128k	月之暗面	31.23	53.57	28.57	34.78	8	API	2025.02.14
🥉	Qwen-2.5-72B-Chat	阿里云	30.13	46.43	14.29	34.78	25	API	2025.02.14
4	GLM4-plus	智谱AI	28.49	50	17.86	26.09	20	API	2025.02.14
5	GLM4-9B-Chat	智谱AI	24.13	42.86	10.71	30.43	12.5	模型	2025.02.14
6	DeepSeek-V3	深度求索	21.7	39.29	7.14	26.09	14.29	API	2025.02.14
7	Qwen-2.5-7B-Chat	阿里云	15.36	25	10.71	17.39	8.33	API	2025.02.14
-	Llama-3.1-8B-Instruct	Meta	0.89	3.57	0	0	0	模型	2025.02.14

SuperCLUE

排名	名称	机构	总分	基础检索能力	分析推理能力	平均耗时（秒/题）	测评日期
🥇	腾讯元宝	腾讯	80.61	100	55.81	39.69	2025.3.11
🥈	阶跃AI	阶跃星辰	74.49	100	41.86	41.1	2025.3.11
🥉	支付宝百宝箱	蚂蚁集团	73.47	96.36	44.19	45.27	2025.3.11
4	百度AI搜索	百度	70.41	100	32.56	41.57	2025.3.11
4	天工AI（高级模式）	昆仑万维	70.41	87.27	48.84	54.69	2025.3.11
5	飞书知识问答	字节跳动	65.31	92.73	30.23	35.8	2025.3.11
5	秘塔AI搜索（深入模式）	秘塔科技	65.31	96.36	25.58	58.58	2025.3.11
5	纳米AI搜索	360	65.31	96.36	25.58	36.04	2025.3.11
6	字节火山引擎	字节跳动	64.29	94.55	25.58	17.12	2025.3.11
7	MiniMax	MiniMax	61.22	90.91	23.26	73.51	2025.3.11

排名	名称	机构	基础检索能力	文化生活	时政新闻	经济生活	测评日期
🥇	阶跃AI	阶跃星辰	100	100	100	100	2025.3.11
🥇	腾讯元宝	腾讯	100	100	100	100	2025.3.11
🥇	百度AI搜索	百度	100	100	100	100	2025.3.11
🥈	支付宝百宝箱	蚂蚁集团	96.36	100	92.86	93.33	2025.3.11
🥈	纳米AI搜索	360	96.36	100	100	86.67	2025.3.11
🥈	秘塔AI搜索（深入模式）	秘塔科技	96.36	92.31	100	100	2025.3.11
🥉	字节火山引擎	字节跳动	94.55	96.15	92.86	93.33	2025.3.11
4	飞书知识问答	字节跳动	92.73	92.31	85.71	100	2025.3.11
5	MiniMax	MiniMax	90.91	88.46	92.86	93.33	2025.3.11
6	天工AI（高级模式）	昆仑万维	87.27	96.15	78.57	80	2025.3.11

排名	名称	机构	分析推理能力	推理计算	数据检索与分析	分析排序	测评日期
🥇	腾讯元宝	腾讯	55.81	50	38.46	83.33	2025.3.11
🥈	天工AI（高级模式）	昆仑万维	48.84	33.33	38.46	83.33	2025.3.11
🥉	支付宝百宝箱	蚂蚁集团	44.19	38.89	38.46	58.33	2025.3.11
4	阶跃AI	阶跃星辰	41.86	44.44	38.46	41.67	2025.3.11
5	百度AI搜索	百度	32.56	27.78	46.15	25	2025.3.11
6	飞书知识问答	字节跳动	30.23	38.89	30.77	16.67	2025.3.11
7	字节火山引擎	字节跳动	25.58	22.22	23.08	33.33	2025.3.11
7	秘塔AI搜索（深入模式）	秘塔科技	25.58	5.56	38.46	41.67	2025.3.11
7	纳米AI搜索	360	25.58	22.22	30.77	25	2025.3.11
8	MiniMax	MiniMax	23.26	27.78	23.08	16.67	2025.3.11

排名	名称	机构	完整回复率(%)	截断率(%)	无回复率(%)	测评日期
🥇	飞书知识问答	字节跳动	100	0	0	2025.3.11
🥇	腾讯元宝	腾讯	100	0	0	2025.3.11
🥇	阶跃AI	阶跃星辰	100	0	0	2025.3.11
🥇	支付宝百宝箱	蚂蚁集团	100	0	0	2025.3.11
🥈	秘塔AI搜索（深入模式）	秘塔科技	98.98	0	1.02	2025.3.11
🥈	纳米AI搜索	360	98.98	1.02	0	2025.3.11
🥈	天工AI（高级模式）	昆仑万维	98.98	0	1.02	2025.3.11
🥉	MiniMax	MiniMax	95.92	2.04	2.04	2025.3.11
4	百度AI搜索	百度	93.88	6.12	0	2025.3.11
5	字节火山引擎	字节跳动	87.76	0	12.24	2025.3.11

排名	名称	机构	平均耗时（秒/题）	基础检索能力平均耗时	分析推理能力平均耗时	测评日期
🥇	字节火山引擎	字节跳动	17.12	13.82	22.69	2025.3.11
🥈	飞书知识问答	字节跳动	35.8	24.89	49.74	2025.3.11
🥈	纳米AI搜索	360	36.04	26.11	49.05	2025.3.11
🥉	腾讯元宝	腾讯	39.69	28.4	54.14	2025.3.11
4	阶跃AI	阶跃星辰	41.1	20.78	67.09	2025.3.11
4	百度AI搜索	百度	41.57	31.65	56.3	2025.3.11
5	支付宝百宝箱	蚂蚁集团	45.27	24.09	72.37	2025.3.11
6	天工AI（高级模式）	昆仑万维	54.69	44.19	67.88	2025.3.11
7	秘塔AI搜索（深入模式）	秘塔科技	58.58	28.56	96.28	2025.3.11
8	MiniMax	MiniMax	73.51	48.91	105.32	2025.3.11

SuperCLUE

第三方平台	机构	完整回复率	截断率	无回复率	准确率	每秒输出token数量	首token输出平均耗时/s	获取答案的平均耗时/s	测评日期
字节火山引擎	字节跳动	100%	0%	0%	95.00%	27.94	0.85	147.25	2025.02.20
商汤大装置	商汤科技	100%	0%	0%	90.00%	20.63	0.7	181.85	2025.02.20
阿里云百炼	阿里巴巴	100%	0%	0%	70.00%	6.9	1.1	569.84	2025.02.20
硅基流动	硅基流动	95%	5%	0%	94.74%	11.76	0.64	386.58	2025.02.20
together.ai	together.ai	95%	5%	0%	89.47%	55.86	0.88	74.33	2025.02.20
腾讯云知识引擎	腾讯科技	95%	5%	0%	84.21%	10.97	0.82	436.82	2025.02.20
微软云	Microsoft	75%	0%	25%	93.33%	6.89	6.65	567.01	2025.02.20

排名	第三方平台	机构	完整回复率	截断率	无回复率	测评日期
🏅️	字节火山引擎	字节跳动	100%	0%	0%	2025.02.20
🏅️	商汤大装置	商汤科技	100%	0%	0%	2025.02.20
🏅️	阿里云百炼	阿里巴巴	100%	0%	0%	2025.02.20
2	硅基流动	硅基流动	95%	5%	0%	2025.02.20
2	together.ai	together.ai	95%	5%	0%	2025.02.20
2	腾讯云知识引擎	腾讯科技	95%	5%	0%	2025.02.20
3	微软云	Microsoft	75%	0%	25%	2025.02.20

排名	第三方平台	机构	准确率	测评日期
🏅️	字节火山引擎	字节跳动	95.00%	2025.02.20
🥈	硅基流动	硅基流动	94.74%	2025.02.20
🥉	微软云	Microsoft	93.33%	2025.02.20
4	商汤大装置	商汤科技	90.00%	2025.02.20
5	together.ai	together.ai	89.47%	2025.02.20
6	腾讯云知识引擎	腾讯科技	84.21%	2025.02.20
7	阿里云百炼	阿里巴巴	70.00%	2025.02.20

排名	第三方平台	机构	每秒输出token数量	首token输出平均耗时/s	获取答案的平均耗时/s	测评日期
🏅️	together.ai	together.ai	55.86	0.88	74.33	2025.02.20
🥈	字节火山引擎	字节跳动	27.94	0.85	147.25	2025.02.20
🥉	商汤大装置	商汤科技	20.63	0.7	181.85	2025.02.20
4	硅基流动	硅基流动	11.76	0.64	386.58	2025.02.20
5	腾讯云知识引擎	腾讯科技	10.97	0.82	436.82	2025.02.20
6	阿里云百炼	阿里巴巴	6.9	1.1	569.84	2025.02.20
7	微软云	Microsoft	6.89	6.65	567.01	2025.02.20

第三方平台	机构	属地	API版本名	是否免费	测评日期
阿里云百炼	阿里巴巴	国内	deepseek-r1	付费	2025.02.20
火山引擎	字节跳动	国内	deepseek-r1-250120	付费	2025.02.20
腾讯云知识引擎	腾讯科技	国内	deepseek-r1	限时免费	2025.02.20
商汤大装置	商汤科技	国内	DeepSeek-R1	限时免费	2025.02.20
硅基流动	硅基流动	国内	Pro/deepseek-ai/DeepSeek-R1	付费	2025.02.20
微软云	Microsoft	海外	DeepSeek-R1	限时免费	2025.02.20
totether.ai	together.ai	海外	deepseek-ai/DeepSeek-R1	付费	2025.02.20

SuperCLUE

第三方平台名称	机构	完整回复率	截断率	无回复率	超时率	准确率	推理耗时（秒/题）	测评日期
随时问	学而思	100%	0%	0%	0%	75%	129.17	2025.02.19
秘塔AI搜索	秘塔科技	95%	0%	0%	5%	89%	150.89	2025.02.19
跃问	阶跃星辰	90%	10%	0%	0%	94%	151.78	2025.02.19
纳米AI搜索	360	85%	15%	0%	0%	88%	135.29	2025.02.19
百度	百度	85%	15%	0%	0%	94%	145.94	2025.02.19
问小白	元石科技	85%	0%	0%	15%	94%	213.06	2025.02.19
腾讯元宝	腾讯	85%	5%	0%	10%	88%	219.24	2025.02.19
知乎	知乎	65%	0%	15%	20%	100%	177.21	2025.02.19
钉钉	阿里	45%	25%	10%	20%	-	-	2025.02.19
腾讯文档	腾讯	35%	0%	35%	30%	-	-	2025.02.19

排名	第三方平台名称	机构	完整回复率	截断率	无回复率	超时率	测评日期
🏅️	随时问	学而思	100%	0%	0%	0%	2025.02.19
🥈	秘塔AI搜索	秘塔科技	95%	0%	0%	5%	2025.02.19
🥉	跃问	阶跃星辰	90%	10%	0%	0%	2025.02.19
4	问小白	元石科技	85%	0%	0%	15%	2025.02.19
4	腾讯元宝	腾讯	85%	5%	0%	10%	2025.02.19
4	百度	百度	85%	15%	0%	0%	2025.02.19
4	纳米AI搜索	360	85%	15%	0%	0%	2025.02.19
5	知乎	知乎	65%	0%	15%	20%	2025.02.19
6	钉钉	阿里	45%	25%	10%	20%	2025.02.19
7	腾讯文档	腾讯	35%	0%	35%	30%	2025.02.19

排名	第三方平台名称	机构	准确率	测评日期
🏅️	知乎	知乎	100%	2025.02.19
🥈	跃问	阶跃星辰	94%	2025.02.19
🥈	问小白	元石科技	94%	2025.02.19
🥈	百度	百度	94%	2025.02.19
🥉	秘塔AI搜索	秘塔科技	89%	2025.02.19
4	腾讯元宝	腾讯	88%	2025.02.19
4	纳米AI搜索	360	88%	2025.02.19
5	随时问	学而思	75%	2025.02.19

排名	第三方平台名称	机构	推理耗时（秒/题）	测评日期
🏅️	随时问	学而思	129.17	2025.02.19
🥈	纳米AI搜索	360	135.29	2025.02.19
🥉	百度	百度	145.94	2025.02.19
4	秘塔AI搜索	秘塔科技	150.89	2025.02.19
5	跃问	阶跃星辰	151.78	2025.02.19
6	知乎	知乎	177.21	2025.02.19
7	问小白	元石科技	213.06	2025.02.19
8	腾讯元宝	腾讯	219.24	2025.02.19

第三方平台名称	机构	使用方式	是否支持联网	是否免费	测评日期
百度	百度	APP	不支持	免费	2025.02.19
钉钉	阿里	APP	不支持	免费	2025.02.19
秘塔AI搜索	秘塔科技	APP	默认联网	免费	2025.02.19
纳米AI搜索	360	APP	支持	免费	2025.02.19
随时问	学而思	APP	不支持	免费	2025.02.19
腾讯文档	腾讯	APP	默认联网	免费	2025.02.19
腾讯元宝	腾讯	APP	支持	免费	2025.02.19
问小白	元石科技	APP	支持	免费	2025.02.19
跃问	阶跃星辰	APP	支持	免费	2025.02.19
知乎	知乎	APP	默认联网	免费	2025.02.19

SuperCLUE

请选择月份

SuperCLUE总榜（2025年3月）

排名	第三方平台	机构	完整回复率（%）	截断率（%）	无回复率（%）	准确率（%）	平均耗时
🥇	字节火山引擎	字节跳动	100	0	0	74.65	242.4
🥈	阶跃AI	阶跃星辰	98.59	1.41	0	83.1	233.71
🥈	支付宝百宝箱	蚂蚁集团	98.59	0	1.41	70.4	173.1
🥉	天工AI	昆仑万维	97.18	2.82	0	80.28	192.41
🥉	腾讯元宝	腾讯	97.18	2.82	0	78.87	236.63
4	硅基流动	硅基流动	92.96	5.63	1.41	71.83	670.07
5	纳米AI搜索	360	81.96	18.31	0	67.61	121.19
6	阿里云百炼	阿里巴巴	80.28	19.72	0	64.79	278.27
7	MiniMax	MiniMax	67.61	32.39	0	63.38	228.98
-	DeepSeek官网	深度求索	22.54	0	77.46	93.75	272.11

排名	第三方平台	机构	完整回复率（%）	截断率（%）	无回复率（%）
🥇	字节火山引擎	字节跳动	100	0	0
🥈	阶跃AI	阶跃星辰	98.59	1.41	0
🥈	支付宝百宝箱	蚂蚁集团	98.59	0	1.41
🥉	天工AI	昆仑万维	97.18	2.82	0
🥉	腾讯元宝	腾讯	97.18	2.82	0
4	硅基流动	硅基流动	92.96	5.63	1.41
5	纳米AI搜索	360	81.96	18.31	0
6	阿里云百炼	阿里巴巴	80.28	19.72	0
7	MiniMax	MiniMax	67.61	32.39	0
-	DeepSeek官网	深度求索	22.54	0	77.46

排名	第三方平台	机构	准确率（%）
🥇	阶跃AI	阶跃星辰	83.1
🥈	天工AI	昆仑万维	80.28
🥉	腾讯元宝	腾讯	78.87
4	字节火山引擎	字节跳动	74.65
5	硅基流动	硅基流动	71.83
6	支付宝百宝箱	蚂蚁集团	70.4
7	纳米AI搜索	360	67.61
8	阿里云百炼	阿里巴巴	64.79
9	MiniMax	MiniMax	63.38
-	DeepSeek官网	深度求索	93.75

排名	第三方平台	机构	平均耗时
🥇	纳米AI搜索	360	121.19
🥈	支付宝百宝箱	蚂蚁集团	173.1
🥉	天工AI	昆仑万维	192.41
4	MiniMax	MiniMax	228.98
5	阶跃AI	阶跃星辰	233.71
6	腾讯元宝	腾讯	236.63
7	字节火山引擎	字节跳动	242.4
8	阿里云百炼	阿里巴巴	278.27
9	硅基流动	硅基流动	670.07
-	DeepSeek官网	深度求索	272.11

SuperCLUE

排名	产品名称	机构	总分	基础认知能力	视觉推理能力	记忆能力	语音交互能力	应用场景	发布日期
-	ChatGPT（实时音视频）	OpenAI	69.05	70.5	51.34	79.67	81.05	62.67	2025.01.26
🏅️	日日新5o（实时音视频）	商汤科技	68.59	77	46.34	77.67	77.95	64	2025.01.26
🥈	讯飞星火（实时音视频）	科大讯飞	66.83	76	46.35	65.34	75.78	70.68	2025.01.26
🥉	智谱清言（实时音视频）	清华&智谱AI	55.32	73	33.67	49.32	66.26	54.35	2025.01.26
🥉	通义（实时音视频）	阿里巴巴	55.25	57.5	33.68	68.99	65.43	50.66	2025.01.26

产品名称	所属团队	属地	手机型号	使用	版本号	发布日期
ChatGPT（实时音视频）	OpenAI	海外	真我GT Neo5 SE	安卓端APP	1.2025.007	2025.01.26
日日新5o（实时音视频）	商汤科技	国内	真我GT Neo5 SE	安卓端APP	1.0	2025.01.26
讯飞星火（实时音视频）	科大讯飞	国内	真我GT Neo5 SE	安卓端APP	4.0.24	2025.01.26
智谱清言（实时音视频）	清华&智谱AI	国内	真我GT Neo5 SE	安卓端APP	2.7.5	2025.01.26
通义（实时音视频）	阿里巴巴	国内	真我GT Neo5 SE	安卓端APP	3.26.0	2025.01.26

SuperCLUE

请选择月份

SuperCLUE总榜单（2025年1月）

排名	模型	机构	总分	使用方式	发布日期
🏅️	Deepseek-R1	深度求索	82.15	API	2025.01.21
-	o1	OpenAI	75.98	网页	2025.01.21
-	o1-preview-2024-09-12	OpenAI	73.74	API	2025.01.21
🥈	DeepSeek-R1-Lite-Preview	深度求索	69.87	网页	2025.01.21
🥉	QwQ-32B-Preview	阿里云	66.84	API	2025.01.21
4	k0-math	月之暗面	57.36	网页	2025.01.21
-	chatgpt-4o-latest	OpenAI	57.27	API	2025.01.21
-	Gemini-1.5-Pro-002	Google	55.47	API	2025.01.21
5	InternThinker	上海AI实验室	54.84	网页	2025.01.21
5	Doubao-pro-32k-240828	字节跳动	54.82	API	2025.01.21
6	Qwen2.5-72b-instruct	阿里云	50.36	API	2025.01.21
6	Qwen-max-0919	阿里云	49.77	API	2025.01.21
7	Baichuan4-Turbo	百川智能	49.29	API	2025.01.21
7	kimi.ai(网页)	月之暗面	48.74	网页	2025.01.21
-	Claude-3.5-Sonnet(1022)	Anthropic	47.41	POE	2025.01.21
8	DeepSeek V2.5	深度求索	47.34	API	2025.01.21
8	step-2-16k	阶跃星辰	46.36	API	2025.01.21
9	GLM-4-Plus	智谱AI	46.04	API	2025.01.21
-	o1-mini-2024-09-12	OpenAI	44.03	API	2025.01.21
-	gpt4-turbo-2024-04-09	OpenAI	43.44	API	2025.01.21
11	Qwen2.5-7b-instruct	阿里云	39.94	API	2025.01.21
12	Spark-4-Ultra	科大讯飞	38.41	API	2025.01.21
-	Llama3.1-405B-Instruct	Meta	37.2	API	2025.01.21
14	MiniMax-abab6.5s-chat	MiniMax	34.55	API	2025.01.21
15	Baichuan4	百川智能	33.12	API	2025.01.21
16	glm4-9b-chat	智谱AI	31.62	模型	2025.01.21
-	Llama3.1-70B-Instruct	Meta	30.93	API	2025.01.21
-	gemma-2-9b-it	Google	29.25	模型	2025.01.21
17	Yi-1.5-6b-chat	零一万物	25.1	模型	2025.01.21
17	Yi-1.5-9b-chat-16k	零一万物	24.78	模型	2025.01.21
18	Qwen2.5-1.5b-instruct	阿里云	23.83	API	2025.01.21
-	Llama3.1-8B-Instruct	Meta	23.81	API	2025.01.21
-	gemma-2-2b-it	Google	21.57	模型	2025.01.21
-	phi-3-mini-4k	微软	19.77	模型	2025.01.21
19	Qwen2.5-0.5b-instruct	阿里云	18.81	API	2025.01.21
-	mistral-7b-v0.3	Mistral AI	17.56	模型	2025.01.21
20	RWKV-6-World-7b	RWKV	15.27	模型	2025.01.21

模型	机构	总分	行程	数论	几何	计数	应用题	计算	奥数杂题	使用方式	发布日期
Deepseek-R1	深度求索	82.15	82	82.07	78.86	76.8	92.64	88.87	73.08	API	2025.01.21
o1	OpenAI	75.98	58.71	78.93	80.86	77.8	85.64	80.4	68.54	网页	2025.01.21
o1-preview-2024-09-12	OpenAI	73.74	78.08	70.57	68.15	70.73	83.07	84.6	59.31	API	2025.01.21
DeepSeek-R1-Lite-Preview	深度求索	69.87	61.07	76.93	65.71	72.6	75.71	71.2	65.23	网页	2025.01.21
QwQ-32B-Preview	阿里云	66.84	56.77	63.79	63.07	73.85	75.69	69.07	65.82	API	2025.01.21
k0-math	月之暗面	57.36	51.57	58.29	41.36	63.33	67.5	67	50.92	网页	2025.01.21
chatgpt-4o-latest	OpenAI	57.27	61.21	49.64	42.71	62.93	65	60.57	59.1	API	2025.01.21
Gemini-1.5-Pro-002	Google	55.47	52.14	56.79	41.64	55.2	72	63.07	46.31	API	2025.01.21
InternThinker	上海AI实验室	54.84	51	55.71	24.79	62.73	72.07	69.67	45.31	网页	2025.01.21
Doubao-pro-32k-240828	字节跳动	54.82	60.5	48.93	44.07	56.4	68.86	71.47	30.46	API	2025.01.21
Qwen2.5-72b-instruct	阿里云	50.36	49.29	45.57	39.14	56.13	59.5	62.6	38.15	API	2025.01.21
Qwen-max-0919	阿里云	49.77	54.07	51.71	29.86	55.47	56.14	61.8	37.15	API	2025.01.21
Baichuan4-Turbo	百川智能	49.29	52.71	53.14	34.36	55.2	60.86	54.87	31.85	API	2025.01.21
kimi.ai(网页)	月之暗面	48.74	50.93	49.93	29.93	49.87	65.43	53.27	40.85	网页	2025.01.21
Claude-3.5-Sonnet(1022)	Anthropic	47.41	40.21	57.5	24.14	55	63.79	47.87	42.46	POE	2025.01.21
DeepSeek V2.5	深度求索	47.34	40.43	50.14	32.21	44.13	62.36	59.67	41.38	API	2025.01.21
step-2-16k	阶跃星辰	46.36	50.29	42.71	31.29	44.2	60.71	49.2	46.08	API	2025.01.21
GLM-4-Plus	智谱AI	46.04	42.43	42.79	30.36	51.47	57.36	53.87	42.85	API	2025.01.21
o1-mini-2024-09-12	OpenAI	44.03	29.36	49.64	34.79	54.6	47.36	46.53	45.08	API	2025.01.21
gpt4-turbo-2024-04-09	OpenAI	43.44	38.79	46.86	30.43	55.87	51.69	48.47	30.38	API	2025.01.21
Qwen2.5-7b-instruct	阿里云	39.94	49.86	36	27.79	48.27	41.57	41.67	33.23	API	2025.01.21
Spark-4-Ultra	科大讯飞	38.41	37.79	31.36	30.54	36.93	49.86	38.31	44	API	2025.01.21
Llama3.1-405B-Instruct	Meta	37.2	38.14	40.71	23.93	32	50.71	32.4	43.69	API	2025.01.21
MiniMax-abab6.5s-chat	MiniMax	34.55	41.36	38.21	29.93	31.27	31.79	38.87	30	API	2025.01.21
Baichuan4	百川智能	33.12	34	32	24.29	28.47	46.14	37.87	28.77	API	2025.01.21
glm4-9b-chat	智谱AI	31.62	25.93	28.57	21.43	26.27	49.29	37.67	32.15	模型	2025.01.21
Llama3.1-70B-Instruct	Meta	30.93	35.43	33.71	22.71	31.2	36	30.93	26.15	API	2025.01.21
gemma-2-9b-it	Google	29.25	27.21	30.64	21.86	35.13	28.64	28.8	32.31	模型	2025.01.21
Yi-1.5-6b-chat	零一万物	25.1	26.71	28.38	22.64	25.07	22	28.14	22.33	模型	2025.01.21
Yi-1.5-9b-chat-16k	零一万物	24.78	22.93	26.71	21.14	22.27	24.14	32.33	23.46	模型	2025.01.21
Qwen2.5-1.5b-instruct	阿里云	23.83	22.93	26.14	22.86	20.27	20.5	31	22.77	API	2025.01.21
Llama3.1-8B-Instruct	Meta	23.81	22.79	24.71	20.14	21.41	18.86	32	27.15	API	2025.01.21
gemma-2-2b-it	Google	21.57	20.86	22.79	19.5	18.8	24.79	23.87	20.31	模型	2025.01.21
phi-3-mini-4k	微软	19.77	18.79	18.57	16.93	19.53	23.36	20.4	20.85	模型	2025.01.21
Qwen2.5-0.5b-instruct	阿里云	18.81	18.21	17.29	20.64	16.73	18.64	19.87	20.46	API	2025.01.21
mistral-7b-v0.3	Mistral AI	17.56	17.64	16.86	15.36	18.07	14	20.07	20.92	模型	2025.01.21
RWKV-6-World-7b	RWKV	15.27	15.64	14	14.86	16.73	14.64	13.13	18.15	模型	2025.01.21

SuperCLUE

排名	模型	机构	总分	回答质量	思维链与反思	推理等级	使用方式	发布日期
-	o1	OpenAI	76.12	86.36	65.89	7级	网页	2024.12.06
-	o1-preview-2024-09-12	OpenAI	71.84	82.41	61.27	7级	API	2024.10.31
🏅️	QwQ-32B-Preview	阿里云	63.5	66.36	60.63	6级	API	2024.12.03
🥈	Deepseek-R1	深度求索	62.04	77.69	46.39	6级	API	2025.01.21
-	chatgpt-4o-latest	OpenAI	57.87	57.16	58.58	5级	API	2024.10.31
-	Claude-3.5-Sonnet(1022)	Anthropic	54.6	53.97	55.23	5级	POE	2024.10.31
-	Gemini-1.5-Pro-002	Google	54.36	49.93	58.81	5级	API	2024.10.31
🥉	GLM-4-Plus	智谱AI	50.19	45.57	54.82	5级	API	2024.10.31
🥉	yi-lightning	零一万物	49.98	45.05	54.91	4级	API	2024.10.31
-	gpt-4-turbo-2024-04-09	OpenAI	48.52	47.13	49.91	4级	API	2024.10.31
4	InternThinker	上海AI实验室	48.18	44.56	51.78	4级	网页	2024.12.03
5	Qwen-max-0919	阿里云	46.17	43.17	49.17	4级	API	2024.10.31
5	Qwen2.5-72b-instruct	阿里云	46.01	39.91	52.11	4级	API	2024.10.31
5	DeepSeek-R1-Lite-Preview	深度求索	45.8	51.14	40.45	4级	网页	2024.11.21
6	Doubao-pro-32k-240828	字节跳动	43.6	41.61	45.59	4级	API	2024.10.31
6	DeepSeek V2.5	深度求索	43.53	39.11	47.94	4级	API	2024.10.31
-	o1-mini-2024-09-12	OpenAI	43.29	39.95	46.62	4级	API	2024.10.31
7	step-2-16k	阶跃星辰	40.86	36.75	45	4级	API	2024.10.31
8	Minimax-abab6.5s-chat	Minimax	39.21	35.42	43.01	3级	API	2024.10.31
9	ERNIE-4.0-Turbo-8K-Preview	百度	38.18	34.61	41.74	3级	API	2024.10.31
9	hunyuan-turbo-latest	腾讯	37.85	33.82	41.89	3级	API	2024.10.31
-	Llama3.1-405B-Instruct	Meta	37.82	37.66	37.98	3级	API	2024.10.31
10	kimi.ai(网页)	月之暗面	36.46	31.94	40.97	3级	网页	2024.10.31
-	Llama3.1-70B-Instruct	Meta	34.92	31.32	38.52	3级	API	2024.10.31
-	gemma-2-9b-it	Google	34.41	30.05	38.8	3级	模型	2024.10.31
11	Qwen2.5-7b-instruct	阿里云	34.17	26.83	41.51	3级	API	2024.10.31
12	Spark-4-Ultra	科大讯飞	33.01	26.44	39.58	3级	API	2024.10.31
12	Baichuan4	百川智能	32.21	26.04	38.38	3级	API	2024.10.31
13	Yi-1.5-9b-chat-16k	零一万物	30.36	23.71	37.01	3级	模型	2024.10.31
14	glm4-9b-chat	智谱AI	29.83	23.1	36.57	2级	模型	2024.10.31
15	Yi-1.5-6b-chat	零一万物	26.35	20.39	32.33	2级	模型	2024.10.31
-	Llama3.1-8B-Instruct	Meta	22.97	17.55	28.41	2级	API	2024.10.31
-	gemma-2-2b-it	Google	21.53	16.65	26.42	2级	模型	2024.10.31
16	Qwen2.5-1.5b-instruct	阿里云	20.1	15.52	24.67	2级	API	2024.10.31
-	phi-3-mini-4k	微软	19.6	15.17	24.07	1级	模型	2024.10.31
-	mistral-7b-v0.3	Mistral AI	16.3	9.56	23.04	1级	模型	2024.10.31
17	Qwen2.5-0.5b-instruct	阿里云	11.88	5.97	17.78	1级	API	2024.10.31
17	RWKV-6-World-7b	RWKV	11.28	5.92	16.65	1级	模型	2024.10.31

排名	模型	机构	回答质量得分	解题过程	最终答案	使用方式	发布日期
-	o1	OpenAI	86.36	90.28	85.05	网页	2024.12.06
-	o1-preview-2024-09-12	OpenAI	82.41	88.55	80.36	API	2024.10.31
🏅️	Deepseek-R1	深度求索	77.69	84.26	75.49	API	2025.01.21
🥈	QwQ-32B-Preview	阿里云	66.36	71.14	64.77	API	2024.12.03
-	chatgpt-4o-latest	OpenAI	57.16	77.25	50.46	API	2024.10.31
-	Claude-3.5-Sonnet(1022)	Anthropic	53.97	70.46	48.47	POE	2024.10.31
🥉	DeepSeek-R1-Lite-Preview	深度求索	51.14	65.64	46.3	网页	2024.11.21
-	Gemini-1.5-Pro-002	Google	49.93	73.21	42.17	API	2024.10.31
-	gpt-4-turbo-2024-04-09	OpenAI	47.13	68.81	39.91	API	2024.10.31
4	GLM-4-Plus	智谱AI	45.57	69.54	37.58	API	2024.10.31
4	yi-lightning	零一万物	45.05	70.28	36.64	API	2024.10.31
5	InternThinker	上海AI实验室	44.56	71.03	35.73	网页	2024.12.03
6	Qwen-max-0919	阿里云	43.17	65.32	35.78	API	2024.10.31
7	Doubao-pro-32k-240828	字节跳动	41.61	64.18	34.09	API	2024.10.31
-	o1-mini-2024-09-12	OpenAI	39.95	65.37	31.48	API	2024.10.31
8	Qwen2.5-72b-instruct	阿里云	39.91	68.81	30.28	API	2024.10.31
8	DeepSeek V2.5	深度求索	39.11	64.49	30.65	API	2024.10.31
-	Llama3.1-405B-Instruct	Meta	37.66	58.17	30.83	API	2024.10.31
9	step-2-16k	阶跃星辰	36.75	60.73	28.76	API	2024.10.31
10	Minimax-abab6.5s-chat	Minimax	35.42	59.07	27.53	API	2024.10.31
10	ERNIE-4.0-Turbo-8K-Preview	百度	34.61	59.63	26.27	API	2024.10.31
11	hunyuan-turbo-latest	腾讯	33.82	57.17	26.04	API	2024.10.31
12	kimi.ai(网页)	月之暗面	31.94	56.48	23.77	网页	2024.10.31
-	Llama3.1-70B-Instruct	Meta	31.32	54.07	23.73	API	2024.10.31
-	gemma-2-9b-it	Google	30.05	54.07	22.04	模型	2024.10.31
13	Qwen2.5-7b-instruct	阿里云	26.83	55.05	17.43	API	2024.10.31
13	Spark-4-Ultra	科大讯飞	26.44	53.89	17.28	API	2024.10.31
13	Baichuan4	百川智能	26.04	52.78	17.13	API	2024.10.31
14	Yi-1.5-9b-chat-16k	零一万物	23.71	48.6	15.42	模型	2024.10.31
14	glm4-9b-chat	智谱AI	23.1	50.74	13.89	模型	2024.10.31
15	Yi-1.5-6b-chat	零一万物	20.39	43.69	12.62	模型	2024.10.31
-	Llama3.1-8B-Instruct	Meta	17.55	39.81	10.12	API	2024.10.31
-	gemma-2-2b-it	Google	16.65	36.42	10.06	模型	2024.10.31
16	Qwen2.5-1.5b-instruct	阿里云	15.52	36.6	8.49	API	2024.10.31
-	phi-3-mini-4k	微软	15.17	33.33	9.12	模型	2024.10.31
-	mistral-7b-v0.3	Mistral AI	9.56	31.21	2.34	模型	2024.10.31
17	Qwen2.5-0.5b-instruct	阿里云	5.97	23.89	0	API	2024.10.31
17	RWKV-6-World-7b	RWKV	5.92	22.39	0.43	模型	2024.10.31

排名	模型	机构	思维链与反思得分	思维过程	反思与调整	创新性与灵活性	使用方式	发布日期
-	o1	OpenAI	65.89	94.08	63.79	58.36	网页	2024.12.06
-	o1-preview-2024-09-12	OpenAI	61.27	93.03	58.52	53.13	API	2024.10.31
🏅️	QwQ-32B-Preview	阿里云	60.63	76.52	61.51	54.55	API	2024.12.03
-	Gemini-1.5-Pro-002	Google	58.81	88.38	56.08	51.38	API	2024.10.31
-	chatgpt-4o-latest	OpenAI	58.58	92.35	55.96	49.64	API	2024.10.31
-	Claude-3.5-Sonnet(1022)	Anthropic	55.23	87.16	53.21	46.38	POE	2024.10.31
🥈	yi-lightning	零一万物	54.91	89.3	50.8	47.09	API	2024.10.31
🥈	GLM-4-Plus	智谱AI	54.82	85.02	52.29	46.99	API	2024.10.31
🥉	Qwen2.5-72b-instruct	阿里云	52.11	87.77	48.51	43.43	API	2024.10.31
🥉	InternThinker	上海AI实验室	51.78	86.6	49.07	42.58	网页	2024.12.03
-	gpt-4-turbo-2024-04-09	OpenAI	49.91	85.02	46.67	41.08	API	2024.10.31
4	Qwen-max-0919	阿里云	49.17	84.4	45.07	41.08	API	2024.10.31
5	DeepSeek V2.5	深度求索	47.94	81.62	45.09	39.25	API	2024.10.31
-	o1-mini-2024-09-12	OpenAI	46.62	85.19	42.25	37.65	API	2024.10.31
6	Deepseek-R1	深度求索	46.39	86.73	39	39.51	API	2025.01.21
6	Doubao-pro-32k-240828	字节跳动	45.59	80	40.91	38.28	API	2024.10.31
7	step-2-16k	阶跃星辰	45	83.64	40.34	36.26	API	2024.10.31
8	Minimax-abab6.5s-chat	Minimax	43.01	78.7	39.24	34.47	API	2024.10.31
9	hunyuan-turbo-latest	腾讯	41.89	79.87	38.21	32.49	API	2024.10.31
9	ERNIE-4.0-Turbo-8K-Preview	百度	41.74	78.9	36.58	33.94	API	2024.10.31
9	Qwen2.5-7b-instruct	阿里云	41.51	78.9	37.27	32.82	API	2024.10.31
9	kimi.ai(网页)	月之暗面	40.97	79.32	35.88	32.72	网页	2024.10.31
10	DeepSeek-R1-Lite-Preview	深度求索	40.45	78.18	35.34	32.42	网页	2024.11.21
10	Spark-4-Ultra	科大讯飞	39.58	75.93	35.07	31.48	API	2024.10.31
-	gemma-2-9b-it	Google	38.8	75	34.49	30.56	模型	2024.10.31
-	Llama3.1-70B-Instruct	Meta	38.52	75.31	33.56	30.66	API	2024.10.31
11	Baichuan4	百川智能	38.38	74.38	34.49	29.84	API	2024.10.31
-	Llama3.1-405B-Instruct	Meta	37.98	75.84	33.49	29.36	API	2024.10.31
12	Yi-1.5-9b-chat-16k	零一万物	37.01	71.34	33.64	28.56	模型	2024.10.31
12	glm4-9b-chat	智谱AI	36.57	72.22	31.6	29.12	模型	2024.10.31
13	Yi-1.5-6b-chat	零一万物	32.33	64.4	28.28	25.24	模型	2024.10.31
-	Llama3.1-8B-Instruct	Meta	28.41	60.44	23.6	22.01	API	2024.10.31
-	gemma-2-2b-it	Google	26.42	57.86	22.64	19.29	模型	2024.10.31
14	Qwen2.5-1.5b-instruct	阿里云	24.67	56.29	19.69	18.55	API	2024.10.31
-	phi-3-mini-4k	微软	24.07	50.33	20.59	18.41	模型	2024.10.31
-	mistral-7b-v0.3	Mistral AI	23.04	49.53	18.81	17.96	模型	2024.10.31
15	Qwen2.5-0.5b-instruct	阿里云	17.78	39.81	14.35	13.48	API	2024.10.31
16	RWKV-6-World-7b	RWKV	16.65	37.61	13.65	12.33	模型	2024.10.31

SuperCLUE

请选择月份

SuperCLUE总榜（2024年12月）

排名	产品名称	机构	总分	语音交互	通用能力	场景应用	响应速度	发布日期
🏅️	讯飞星火（实时语音）	科大讯飞	76.18	92.15	73.44	67.24	71.88	2024.12.24
-	GPT-4o（高级语音）	OpenAI	73.04	86.09	72.84	68.12	65.12	2024.12.24
🥈	豆包（实时语音）	字节跳动	70.76	82.72	73.08	64.36	62.88	2024.12.24
🥉	海螺AI（实时语音）	MiniMax	69.64	77.63	73.52	66.64	60.77	2024.12.24
4	智谱清言（实时语音）	清华&智谱AI	60.79	76.41	64.68	68.72	33.34	2024.12.24
5	通义（实时语音）	阿里巴巴	59.76	73.77	78.32	72.76	14.21	2024.12.24
5	Kimi（实时语音）	月之暗面	59.3	62.3	77.6	67.84	29.47	2024.12.24
6	文小言（实时语音）	百度	47.55	61.48	73.52	55.2	0	2024.12.24

SuperCLUE

排名	模型名称	机构	总分	基础能力	场景应用	发布日期
🏅️	豆包.语音合成模型	字节跳动	93.06	95.8	90.32	2024.12.12
🥈	百度TTS	百度	89.9	90.95	88.84	2024.12.12
🥈	讯飞TTS	科大讯飞	89.61	89.9	89.32	2024.12.12
-	Microsoft TTS	Microsoft	88.99	93.9	84.08	2024.12.12
🥉	CosyVoice	阿里巴巴	86.83	86.9	86.76	2024.12.12
4	speech-01-turbo	MiniMax	82.92	90.55	75.28	2024.12.12
-	tts-1-hd	OpenAI	78.04	84.4	71.68	2024.12.12
-	Google TTS	Google	72.56	78.6	66.52	2024.12.12
-	Eleven Multilingual v2	ElevenLabs	66.05	72.05	60.04	2024.12.12
5	华为TTS	华为	65.45	71.3	59.6	2024.12.12

SuperCLUE

排名	模型	机构	总分	基础能力	场景应用	使用方式	发布日期
-	chatgpt-4o-latest	OpenAI	73.41	79.23	71.33	网页	2024.11.27
🏅️	Kimi 探索版	月之暗面	72.7	80.2	70.02	网页	2024.11.27
🥈	秘塔AI搜索（研究模式）	秘塔科技	64.68	69.87	62.83	网页	2024.11.27
-	Gemini-1.5-Pro-Search	Google	64.41	73.3	61.24	POE	2024.11.27
🥉	智谱清言AI搜索	智谱AI	63.61	70.2	61.26	网页	2024.11.27
4	海螺AI	Minimax	61.66	69.8	58.98	网页	2024.11.27
4	360AI搜索（深入回答）	360	60.95	64.47	59.69	网页	2024.11.27
4	文小言	百度	60.67	58.33	61.5	APP	2024.11.27
5	通义千问（深度搜索）	阿里云	60.46	66.27	58.38	网页	2024.11.27
5	天工AI搜索（高级模式）	昆仑万维	59.53	68.27	56.4	网页	2024.11.27
-	Perplexity（一般模式）	Perplexity AI	59.24	67.43	56.31	网页	2024.11.27
6	豆包AI搜索（深入搜索）	字节跳动	55.75	54.8	56.09	网页	2024.11.27
7	星火AI搜索	科大讯飞	52.07	50.8	52.52	网页	2024.11.27
-	Bing Search	微软	35.58	30	37.57	POE	2024.11.27

SuperCLUE

请选择月份

SuperCLUE总榜（2024年11月）

排名	模型名称	所属机构	总分	基础与技术	应用场景	发布日期
🥇	PixVerse V3	爱诗科技	82.02	78.93	85.1	2024.11.12
🥇	海螺视频	MiniMax	81.5	78.2	84.8	2024.11.12
🥈	可灵AI 1.5	快手	80.92	76.23	85.6	2024.11.12
-	Luma DreamMachine1.6	Luma AI	79.97	76.93	83	2024.11.12
🥉	通义万相	阿里云	78.19	74.67	81.7	2024.11.12
4	Dreamina即梦AI	字节跳动	75.56	70.27	80.85	2024.11.12
-	Pika1.5	Pika Labs	75.1	72.4	77.8	2024.11.12
-	Runway Gen3	Runway	74.55	69.1	80	2024.11.12
5	Vidu	生数科技	73.49	67.53	79.45	2024.11.12
6	智谱清影	智谱AI	72.32	73.6	71.03	2024.11.12

SuperCLUE

请选择月份

SuperCLUE总榜（2024年10月）

排名	模型名称	机构	总分	基础认知能力	应用能力	使用方式	发布日期
-	ChatGPT-4o-latest	OpenAI	77.81	74.06	80.75	API	2024年10月10日
-	GPT-4o-2024-05-13	OpenAI	75.12	70.83	77.94	API	2024年10月10日
1	Step-1V-8k	阶跃星辰	73.98	71.59	75.85	API	2024年10月10日
1	hunyuan-vision	腾讯混元	73.6	69.71	78.21	API	2024年10月10日
1	SenseChat-Vision 5.5	商汤	73.56	71.12	74.86	API	2024年10月10日
-	Claude-3.5-Sonnet	Anthropic	73.29	71.74	73.87	POE	2024年10月10日
2	InternVL2-40B	上海人工智能实验室	72.51	71.06	73.86	模型	2024年10月10日
-	Gemini-1.5-Pro	Google	70.73	72.04	69.11	POE	2024年10月10日
3	ERNIE-4-Turbo	百度	69.3	67.05	70.85	网页	2024年10月10日
3	Qwen2-VL-72B	阿里云	68.36	64.5	70.86	API	2024年10月10日
4	GLM-4V-Plus	智谱AI	67.49	66.58	69.06	API	2024年10月10日
4	MiniCpm-V2.6	面壁智能	66.86	66.04	66.84	模型	2024年10月10日
-	GPT-4-Turbo-0409	OpenAI	65.93	66.28	65	API	2024年10月10日
5	海螺AI	MiniMax	65	62.72	65.63	网页	2024年10月10日
5	Yi-Vision	零一万物	64.44	65	62.42	API	2024年10月10日
6	DeekSeek-VL-7b-chat	深度求索	55.8	57.82	54.46	模型	2024年10月10日
-	Phi-3.5-vision-Instruct	微软	45	47.14	42.26	模型	2024年10月10日

SuperCLUE

请选择月份

SuperCLUEAgent总榜（2024年10-12月）

排名	模型	机构	总分	任务规划	工具使用	长短期记忆	使用方式	发布日期
-	GPT-4o-2024-05-13	OpenAI	78.37	75.39	75.24	85.46	API	2024年10月12日
1	ERNIE-4-8k-latest	百度	75.27	74.39	72.71	79.54	API	2024年10月12日
1	TeleChat2-Large	中国电信人工智能研究院（TeleAI）	74.48	71.86	71.94	80.43	API	2024年12月23日
2	Qwen-2-72B-Instruct	阿里云	74.02	73.3	72.08	77.36	API	2024年10月12日
2	TeleChat2	中国电信人工智能研究院（TeleAI）	73.72	71.02	70.14	81.11	API	2024年10月12日
3	GLM-4-9B-Chat	智谱AI	69.62	69.7	65.9	74.5	模型	2024年10月12日
-	GPT-3.5-0125	OpenAI	65.43	61.75	63.26	71.94	API	2024年10月12日
4	Baichuan-2-13B-Chat-v2	百川智能	62.68	57.49	59.69	71.76	模型	2024年10月12日
4	Yi-1.5-6B-Chat	零一万物	62.22	64.28	58.19	65.73	模型	2024年10月12日
-	Phi-3-mini-128k-instruct	微软	55.27	55.47	56.28	53.7	模型	2024年10月12日
-	Gemma-7b-it	Google	51.33	47.1	51.55	55.19	模型	2024年10月12日

SuperCLUE

请选择月份

SuperCLUE文生图总榜（2024年9月）

排名	模型名称	机构	总分	图像质量	图文一致性	复杂度适应性	内容创造	文字创作	中华文化与元素	使用方式	日期
-	DALL·E 3	OpenAI	72.91	77.69	65.16	74.55	81.67	56.05	82.35	API	2024年9月30日
1	BlueLM-Art	vivo	71.52	74.11	54.18	80.02	68.33	75.57	76.89	API	2024年9月30日
2	混元文生图	腾讯	69.91	72.54	58.6	76.19	68.15	65.61	78.38	API	2024年9月30日
-	Midjourney	Midjourney	69.1	74.71	54.42	75.16	73.48	56.71	80.14	网页	2024年9月30日
3	豆包文生图	字节跳动	67.56	74.34	56.06	75.88	67.27	48.86	82.97	网页	2024年9月30日
-	Stable Diffusion 3 Large	Stability.ai	66.18	74.12	53.79	75.47	63.03	52.62	78.04	API	2024年9月30日
-	Flux.1 Pro	Black Forest Labs	66.03	76.15	56.94	71.22	63.18	53.41	75.27	POE	2024年9月30日
4	文心一格	百度	64.16	76.92	54.97	66.04	66.9	46.86	73.29	API	2024年9月30日
4	Cogview3-Plus	智谱	63.97	72.12	55.21	71.44	69.55	49.07	66.43	API	2024年9月30日
5	Wanx-v1	阿里巴巴	62.23	73.16	47.87	70.14	65.3	49.62	67.3	API	2024年9月30日
5	美图AI	美图	62.21	71.19	51.88	64.55	61.82	56.62	67.22	网页	2024年9月30日
5	星火绘图	科大讯飞	61.67	69.61	52.66	64.13	63.03	46.84	73.75	API	2024年9月30日
6	天工AI	昆仑万维	60.88	72.72	51.48	63.5	59.7	49.73	68.14	网页	2024年9月30日
7	360智绘	360	54.89	69.07	45.28	62.73	52.03	42.68	57.57	网页	2024年9月30日

SuperCLUE

排名	模型名称	机构	总分	代码生成与改写	代码理解与分析	代码优化与修复	跨函数与跨文件编程
-	Cursor	Anysphere	89.87	89.3	86.99	92.4	90.81
🏅️	文心快码Baidu Comate	百度	87.55	87.45	89.16	88.99	84.62
🏅️	通义灵码	阿里巴巴	87.36	86.9	87.12	88.8	86.64
🥈	星火飞码iFlyCode	讯飞	80.63	80.16	81	83.38	78
🥉	CodesArt Snap	华为	77.82	80.87	79.32	73.3	77.81
4	豆包MarsCode	字节跳动	76.36	82.14	75.01	71.51	76.77
-	Codeium	Codeium	75.3	80.41	75.96	74.6	70.21

SuperCLUE

排名	模型名称	机构	总分	数学计算	推理	安全保护	摘要	文本润色	写作	信息查询	知识百科	个性化内容生成	指令遵循	使用方式	日期
-	ChatGPT-4o-latest	OpenAI	81.15	81.56	71.99	92.21	82.41	81.12	76.88	77.29	87.52	77.15	87.5	API	2024年10月1日
1	BlueLM	vivo	79.41	79.37	68.67	93.77	84.57	83.64	74.26	72.89	80.03	79.02	75	API	2024年10月1日
-	GPT-4-Turbo-2024-04-09	OpenAI	78.59	77.91	65.21	93.88	83.12	81.66	73.95	69.44	81.27	77.94	84.38	API	2024年10月1日
2	ERNIE-4.0-Turbo-8K	百度	77.68	73.42	66.87	94.08	80.2	81.34	75.84	78.42	79.6	74.3	68.75	API	2024年10月1日
2	Qwen2-72B-Instruct	阿里巴巴	77.5	80.43	62.21	93.48	78.01	85.11	69.14	76.54	83.34	76.96	65.62	API	2024年10月1日
3	GLM-4-9B-Chat	智谱	73.33	69.47	54.86	90.85	77.71	83.94	71.76	72.59	82.1	74.42	50	模型	2024年10月1日
-	Llama-3.1-70B-Instruct	Meta	72.84	69.99	55.55	83.36	76.57	76.34	68.06	70.93	81.17	71.67	68.75	POE	2024年10月1日
3	讯飞星火V4.0	科大讯飞	72.48	60.43	63.87	85.57	79.91	80.83	68.84	71.01	82.61	76.29	50	API	2024年10月1日
-	Gemma-2-9b-it	Google	71.14	67.19	56.42	91.17	80.42	69.38	72.5	57.29	78.88	75.51	53.12	模型	2024年10月1日
4	Yi-1.5-9B-Chat-16K	零一万物	70.86	66.44	46.89	91.89	77.27	79.46	69.45	67.38	77.01	71.95	59.38	模型	2024年10月1日
-	Llama-3.1-8B-Instruct	Meta	66.06	61.24	43.21	82.84	74.59	77.7	61.99	65.99	72.41	70.09	40.62	POE	2024年10月1日
-	Gemma-2-2b-it	Google	65.15	55.18	39.98	88.36	78.55	68.96	69.79	57.31	69.3	70.1	43.75	模型	2024年10月1日
-	Phi-3-Mini-4K-Instruct	微软	52.33	56.22	34.19	73.24	54.17	44.36	55.84	46.46	52.52	57.05	25	模型	2024年10月1日

SuperCLUE

排名	模型名称	机构	总分	创作	解析	摘要	使用方式	更新日期
-	GPT-4o-2024-05-13	OpenAI	68.39	63.29	70.97	69.22	POE	2024年9月11日
1	Moonshot(kimi)	月之暗面	66.79	64.23	67.61	67.66	网页	2024年9月11日
2	豆包	字节跳动	65.26	62.53	66.69	65.66	网页	2024年9月11日
2	Baichuan4	百川智能	64.74	60.58	66.12	66.13	API	2024年9月11日
2	360gpt2-pro-360k	360	64.5	62.61	64.02	66.21	API	2024年9月11日
2	通义千问2.5	阿里巴巴	64.36	63.15	65.02	64.51	网页	2024年9月11日
3	文心一言4 Turbo	百度	64.09	61.07	65.47	64.73	网页	2024年9月11日
4	GLM-4-0520	清华&智谱AI	60.51	61.4	59.67	60.77	API	2024年9月11日
5	讯飞星火	科大讯飞	58.78	58.37	58.09	59.74	网页	2024年9月11日
-	Claude-instant-100k	Anthropic	57.97	55.26	59.1	58.68	POE	2024年9月11日




				·

SuperCLUE

请选择月份

SuperCLUE总榜（2024年10月）

排名	模型名称	机构名称	总分	发布日期
-	GPT-4o	OpenAI	82.22	2024.10.23
🏅️	GLM-4-plus	智谱	80.08	2024.10.23
🏅️	qwen_max_longcontext	阿里巴巴	79.54	2024.10.23
🥈	ERNIE-3.5-128K	百度	76.97	2024.10.23
🥉	讯飞星火V3.5	科大讯飞	75.26	2024.10.23
4	Qwen2-7B-Instruct	阿里巴巴	74.11	2024.10.23
4	Yi-1.5-34B-Chat-16K	零一万物	73.18	2024.10.23
-	GPT3.5-Turbo-0125	OpenAI	72.59	2024.10.23
5	Doubao-lite-32k	字节跳动	68.42	2024.10.23
-	Llama-3-8B-Instruct	Meta	63.34	2024.10.23

SuperCLUE

请选择月份

SuperCLUE总排行（2024年9月）

排名	模型	机构	分数	初级分数	中级分数	高级分数	使用方式	发布日期
-	o1-preview-2024-09-12	OpenAI	89.39	96.3	92.31	69.23	API	2024年10月23日
-	Claude 3.5 Sonnet(new)	Anthropic	84.85	96.3	80.77	69.23	POE	2024年10月23日
-	GPT-4o-0513	OpenAI	83.33	92.59	84.62	61.54	API	2024年9月12日
-	GPT-4-0125-preview	OpenAI	81.82	88.89	84.62	61.54	API	2024年9月12日
🏅	DeepSeek-V2	深度求索	80.3	85.19	80.77	69.23	API	2024年9月12日
-	GPT-4	OpenAI	80.3	88.89	80.77	61.54	API	2024年9月12日
🏅	通义千问2.5	阿里巴巴	80.3	85.19	84.62	61.54	API	2024年9月12日
-	Llama-3-70B-instruct	Meta	78.79	88.89	76.92	61.54	POE	2024年9月12日
🥈	NebulaCoder-V4	中兴	78.46	81.48	80.77	66.67	API	2024年9月12日
-	GPT-3.5-Turbo-0125	OpenAI	68.18	81.48	69.23	38.46	API	2024年9月12日
-	Gemini 1.0 Pro	Google	60.61	62.96	61.54	53.85	API	2024年9月12日
🥉	Deepseek-coder-6.7b-instruct	深度求索	57.58	62.96	57.69	46.15	模型	2024年9月12日
4	XVERSE-13B-2-Chat	元象科技	39.39	59.26	23.08	30.77	模型	2024年9月12日
5	Qwen-14B-Chat	阿里巴巴	33.33	51.85	23.08	15.38	模型	2024年9月12日
-	Code-Llama-13b-instruct	Meta	33.33	55.56	23.08	7.69	模型	2024年9月12日
6	ChatGLM3-6B-Chat	智谱AI	24.24	37.04	19.23	7.69	模型	2024年9月12日
7	Baichuan2-13B-Chat-v2	百川智能	21.21	40.74	11.54	0	模型	2024年9月12日
-	Llama2-13b-Chat	Meta	12.12	22.22	7.69	0	模型	2024年9月12日

SuperCLUE

排名	模型	机构	总分
🏅️	XVERSE-13B-LONGCONTEXT	元象科技	10
-	GPT4-Turbo-0125	OpenAI	9.98
🥈	Yi-34B-Chat 200k	零一万物	9.96
🥉	Moonshot(KimiChat)	月之暗面	9.96

SuperCLUE

请选择月份

SuperCLUE总榜（2024年11月）

排名	模型名称	机构	总分	使用方式	发布日期
🏅️	360智脑	360	75.43	API	2024.11.26
🥈	GLM-4-0520	清华&智谱AI	71.49	API	2024.11.26
🥉	MiniMax-abab6.5s-chat	MiniMax	68.26	API	2024.11.26
🥉	通义千问2.5	阿里巴巴	67.97	网页	2024.11.26
4	文心一言4-turbo	百度	67.03	网页	2024.11.26
-	GPT-4o-2024-05-13	OpenAI	66.66	POE	2024.11.26
4	文心一言3.5	百度	66.36	网页	2024.11.26
5	讯飞星火4.0	科大讯飞	65.46	API	2024.11.26
6	Moonshot-v1-128k	月之暗面	57.36	API	2024.11.26

SuperCLUE

排名	模型	机构	总分	角色基础	角色风格	场景应用
-	GPT4-Turbo-0125	OpenAI	75.19	78.4	75.4	74.04
🏅️	qwen1.5-72b-chat	阿里云	71.62	71.2	72.53	71.32
🥈	文心一言4.0	百度	70.69	71.3	70.6	70.48
-	GPT-4	OpenAI	70.36	73.5	70.6	69.16
🥉	qwen1.5-14b-chat	阿里云	69.32	62	72.67	69.88
4	讯飞星火V3.5	科大讯飞	67.07	69.1	66.2	66.88
5	Yi-34B-Chat	零一万物	66.48	63.8	63	69.24
-	GPT-3.5-Turbo-0125	OpenAI	66.06	61.6	67.87	66.68
6	Baichuan2-13B-Chat	百川智能	63.23	59.9	62.93	64.52
7	Chinese-Alpaca2-13B	yiming cui	61.52	55.3	63.8	62.4
8	ChatGLM3-6B	智谱AI	60.19	55.7	61.33	61.16
9	Llama-2-13B-Chat	Meta	55.94	46.2	53.67	60.68

SuperCLUE

排名	模型	机构	推理等级	综合分数	推理步数加权得分	准确率综合得分	使用方式
-	GPT-4o	OpenAI	5	91.77	92.94	90.6	网页
-	GPT_4_1106_Preview	OpenAI	5	90.71	91.65	89.76	API
🏅️	AndesGPT	OPPO	5	90.45	90.84	90.05	收录模型方公开自测结果
-	Claude3-Opus	Anthropic	5	90.36	91.26	89.46	API
-	GPT-4	OpenAI	5	88.4	89.1	87.7	API
🥈	通义千问2.5	阿里云	5	86.52	87.72	85.33	API
🥉	DeepSeek-V2	深度求索	5	86.39	87.81	84.97	API
4	文心一言4.0	百度	5	85.6	86.82	84.38	API
5	GLM-4	智谱AI	5	84.24	85.72	82.76	API
-	Llama-3-70B-instruct	Meta	5	83.77	85.01	82.53	API
6	讯飞星火V3.5	科大讯飞	5	83.73	85.37	82.09	API
7	ChatGLM-Turbo	智谱AI	4	57.7	60.32	55.08	API
-	GPT3.5-Turbo	OpenAI	4	57.05	59.61	54.5	API
8	qwen-14b-chat	阿里云	4	53.12	55.99	50.26	API
9	ChatGLM3-6B	智谱AI	3	40.9	44.2	37.6	模型
10	讯飞星火V3.0	科大讯飞	3	40.08	45.27	34.89	API
11	Baichuan2-13B-Chat	百川智能	3	39.4	42.63	36.17	模型
12	文心一言3.5	百度	2	25.19	27.7	22.67	API
13	Chinese_Alpaca_2_13B	Yiming Cui	2	20.55	22.52	18.58	模型

SuperCLUE

排名	模型	机构	总分	传统安全类	负责任类	指令攻击类	许可	发布日期
🏅️	AndesGPT	OPPO	96.68	95.34	97.49	97.35	闭源	2024年05月30日
🥈	360gpt2-pro	360	94.11	93.75	95.06	93.53	闭源	2024年10月23日
🥉	BlueLM	vivo	92.51	87.21	96.59	94.16	闭源	2024年05月30日
4	Yi-34B-Chat	零一万物	89.3	85.89	94.06	88.07	开源	2024年01月03日
5	文心一言4.0	百度	88.91	88.41	92.45	85.73	闭源	2024年01月03日
-	GPT4	OpenAI	87.43	84.51	91.22	86.7	闭源	2023年09月12日
6	讯飞星火(v3.0)	科大讯飞	86.24	82.51	91.75	85.45	闭源	2024年01月03日
7	360gpt-pro	360	85.31	82.82	90.35	82.75	闭源	2024年03月07日
8	讯飞星火(v2.0)	科大讯飞	84.98	80.65	89.78	84.77	闭源	2023年09月12日
-	gpt-3.5-turbo	OpenAI	83.82	82.82	87.81	80.72	闭源	2023年09月12日
9	文心一言3.5	百度	81.24	79.79	84.52	79.42	闭源	2023年09月12日
10	ChatGLM2-Pro	清华&智谱AI	79.82	77.16	87.22	74.98	闭源	2023年09月12日
11	ChatGLM2-6B	清华&智谱AI	79.43	76.53	84.36	77.45	开源	2023年09月12日
12	Baichuan2-13B-Chat	百川智能	78.78	74.7	85.87	75.86	开源	2023年09月12日
13	Qwen-7B-Chat	阿里巴巴	78.64	77.49	85.43	72.77	开源	2023年09月12日
14	OpenBuddy-Llama2-70B	OpenBuddy	78.21	77.37	87.51	69.3	开源	2023年09月12日
-	Llama-2-13B-Chat	Meta	77.49	71.97	85.54	75.16	开源	2023年09月12日
15	Chinese-Alpaca2-13B	yiming cui	75.39	73.21	82.44	70.39	开源	2023年09月12日
16	MiniMax-Abab5.5	MiniMax	71.9	71.67	79.77	63.82	闭源	2023年09月12日

SuperCLUE

模型名称	机构	等级	使用方式	发布日期
GPT-4 Turbo	OpenAI	A+	API	2024年4月24日
Baichuan3	百川智能	A	API	2024年5月15日
GLM-4	清华&智谱AI	A	API	2024年4月24日
MoonShot-v1-128K	月之暗面	A	API	2024年4月24日
GPT-4	OpenAI	B	API	2024年4月24日
文心一言4.0	百度	B	API	2024年4月24日
讯飞星火V3.5	科大讯飞	B	API	2024年4月24日
Baichuan2-13B-Chat	百川智能	C	API	2024年4月24日
GPT-3.5 Turbo	OpenAI	C	API	2024年4月24日
ChatGLM3-6B	清华&智谱AI	D	API	2024年4月24日
Gemma-7b-instruct	Google	D	API	2024年4月24日
通义金融-14B	阿里巴巴	D	API	2024年4月24日

SuperCLUE

排名	模型	机构	总分	智能座舱与交互	汽车营销	车辆使用指南	汽车理解与通用知识	使用方式	评测日期
-	GPT4-Turbo	OpenAI	83.95	83.2	80.4	91.8	80.4	API	2023年12月25日
🏅️	易车大模型	易车	82.23	73.95	80.6	91.3	82.9	API	2024年6月12日
-	GPT-4	OpenAI	79.3	79.4	74.4	85.8	77.6	API	2023年12月25日
🥈	文心一言3.5	百度	79.15	77.8	76.6	86.2	76	API	2023年12月25日
🥉	ChatGLM-Turbo	清华&智谱AI	78.3	72.6	75.6	86.6	78.4	API	2023年12月25日
4	XVERSE-13B-2-Chat	元象科技	77	72.4	74.2	84.4	77	模型	2023年12月25日
5	Baichuan2-13B-Chat	百川智能	76.6	67.4	75.4	84.2	79.4	模型	2023年12月25日
-	GPT-3.5-Turbo	OpenAI	76.15	71.8	73.6	84.8	74.4	API	2023年12月25日
6	Qwen-14B-Chat	阿里巴巴	75.95	69.4	73.2	83.2	78	API	2023年12月25日
7	MiniMax-Abab5.5	MiniMax	75	72	74.8	74.4	78.8	API	2023年12月25日
8	讯飞星火V3.0	科大讯飞	72.8	66.2	74.2	78.4	72.4	API	2023年12月25日
9	ChatGLM3-6B	清华&智谱AI	67.05	53.2	70.8	76	68.2	模型	2023年12月25日
-	Llama2-13B-Chat	Meta	65.35	55.4	76.2	76.8	53	模型	2023年12月25日

SuperCLUE

排名	模型名称	机构	总分	基础能力	应用能力	使用方式
-	GPT4-Turbo-0125	OpenAI	74.8	74.2	75.27	API
-	GPT4	OpenAI	66.6	65.53	67.6	API
🏅	奇智孔明AInno-15B-1128	创新奇智	65.22	63.27	67.17	API
🥈	qwen1.5-14b-chat	阿里巴巴	64.8	61.8	67.73	API
🥉	讯飞星火V3.0	科大讯飞	63.8	64.93	62.6	API
-	GPT3.5-Turbo-0125	OpenAI	63.6	61.47	65.6	API
4	Baichuan2-13B-Chat	百川智能	61.8	60.13	63.27	模型
5	ChatGLM-Turbo	智谱AI	59.8	56.67	63	API
6	文心一言3.5	百度	54.2	51.07	57.6	API
7	ChatGLM3-6B	智谱AI	52.8	50.33	55.07	模型
8	Chinese_Alpaca2_13B	yiming cui	51.4	47	55.47	模型
-	Llama_2_13B_Chat	Meta	50	48.4	51.6	模型

SuperCLUE

模型	所属机构	视频画质	外观遵循能力	动态遵循能力	日常生活	影视	应用	中国文化场景	发布日期
PixVerse V3	爱诗科技	95.2	76	65.6	88.8	81.2	85.2	85.2	2024.11.12
海螺视频	MiniMax	93.4	75.4	65.8	90.4	80.2	82.8	85.8	2024.11.12
可灵AI 1.5	快手	88	72.8	67.9	89.5	81.1	86.2	85.6	2024.11.12
Luma DreamMachine1.6	Luma AI	88.4	79	63.4	90.2	75	82.6	84.2	2024.11.12
通义万相	阿里云	92.4	76.2	55.4	91	75.6	78.2	82	2024.11.12
Dreamina即梦AI	字节跳动	93	67.1	50.7	89	71.4	80.4	82.6	2024.11.12
Pika1.5	Pika Labs	90.8	67	59.4	84	74.4	73.4	79.4	2024.11.12
Runway Gen3	Runway	91.1	60.5	55.7	90.4	73.2	77.4	79	2024.11.12
Vidu	生数科技	80.4	65.2	57	83.8	71.4	80.4	82.2	2024.11.12
智谱清影	智谱AI	78.8	74.6	67.4	75.9	63.4	75.1	69.7	2024.11.12

模型名称	机构	任务分解	思维链	自我反思	检索API	规划API	调用API	通用工具使用	多文档问答	长程对话	少样本示例学习	使用方式	发布日期
GPT-4o-2024-05-13	OpenAI	71.91	80.18	73.89	71.94	74.86	76.53	77.64	80.28	85.28	90.83	API	2024年10月12日
ERNIE-4-8k-latest	百度	68.32	81.19	73.33	75.28	73.06	71.11	71.39	73.06	77.5	88.06	API	2024年10月12日
TeleChat2-Large	中国电信人工智能研究院（TeleAI）	68.52	67.58	79.31	66.81	73.61	75.14	72.22	80	80.56	80.72	API	2024年12月23日
Qwen-2-72B-Instruct	阿里云	68.33	76.01	75.28	72.64	73.33	69.58	72.78	75.56	70.56	86.47	API	2024年10月12日
TeleChat2	中国电信人工智能研究院（TeleAI）	69.22	68.61	75.14	67.78	73.19	66.57	72.92	77.22	80.28	85.83	API	2024年10月12日
GLM-4-9B-Chat	智谱AI	67.64	70.93	70.42	62.92	64.03	66.67	70	76.67	72.94	73.89	模型	2024年10月12日
GPT-3.5-0125	OpenAI	59.41	58.33	67.36	60.14	63.33	65.28	64.31	72.78	68.89	74.17	API	2024年10月12日
Baichuan-2-13B-Chat-v2	百川智能	64.7	51.22	56.94	57.78	59.17	56.39	65.42	70.28	72.22	72.78	模型	2024年10月12日
Yi-1.5-6B-Chat	零一万物	64.7	62.32	65.83	57.78	52.64	56.11	66.25	73.33	60	63.55	模型	2024年10月12日
Phi-3-mini-128k-instruct	微软	55.09	49.92	61.39	59.17	50.83	57.92	57.22	62.78	50	48.33	模型	2024年10月12日
Gemma-7b-it	Google	52.93	34.26	54.44	49.72	52.92	50.42	53.13	66.94	52.22	46.39	模型	2024年10月12日

排名	模型名称	图像质量总分	构图	光影	色彩饱和度	色彩准确性	细节处理	图片保真度之辨识难度	图片保真度之分辨率	图片保真度之锐度	结构合理性	用户情感	色彩对比度	使用方式	日期
-	DALL·E 3	77.69	72.85	79.55	76.67	88	85.91	80.45	86	78	70.1	55.5	87.73	API	2024年9月30日
1	文心一格	76.92	71.58	88.64	80	85.91	77.27	78.18	81	76.5	69.55	58.64	85.45	API	2024年9月30日
-	Flux.1 Pro	76.15	72.11	83.18	72	90	74.55	78.64	79	75.45	69.09	60.91	86.82	POE	2024年9月30日
-	Midjourney	74.71	72.63	79.78	72	86.82	77.27	76.6	83	65.45	75.45	56.36	82.27	网页	2024年9月30日
2	豆包文生图	74.34	70.79	74.09	71	83.49	80.91	75.91	78	78.64	70.15	58.64	80.45	网页	2024年9月30日
-	Stable Diffusion 3 Large	74.12	72.37	75.91	70.76	90	77.27	79.09	67	68.64	67.73	58.64	85	API	2024年9月30日
2	BlueLM-Art	74.11	70.79	71.82	72	84.24	82.27	77.73	80	79.09	67.27	54.55	80.91	API	2024年9月30日
3	Wanx-v1	73.16	69.74	84.09	69.5	82.27	78.64	71.82	84	78.18	63.64	51.82	79.09	API	2024年9月30日
3	天工AI	72.72	66.14	81.82	67.5	85	76.82	76.82	69	74.09	65.91	52.27	86.82	网页	2024年9月30日
3	混元文生图	72.54	71.15	80.94	72.78	82.5	76.54	69.18	77	70.5	67.27	51.36	74.62	API	2024年9月30日
4	Cogview3-Plus	72.12	70.44	75.91	69	78.18	76.36	77.73	87	72.73	67.27	53.18	74.55	API	2024年9月30日
4	美图AI	71.19	69.74	67.27	75.5	78.18	74.55	75.91	75	73.18	70	50	77.27	网页	2024年9月30日
5	星火绘图	69.61	65.53	70.24	67.5	79.09	73.64	69.55	73	66.5	68.64	56.36	80	API	2024年9月30日
5	360智绘	69.07	63.42	67.73	71.67	79.47	75.45	80.5	77	62.5	71.82	50.45	69.09	网页	2024年9月30日

排名	模型名称	代码生成与改写	代码生成	代码转换
-	Cursor	89.3	86.03	92.56
🏅️	文心快码Baidu Comate	87.45	86.66	88.24
🏅️	通义灵码	86.9	88.88	84.91
🥈	豆包MarsCode	82.14	81.9	82.39
3	CodesArt Snap	80.87	73.5	88.24
-	Codeium	80.41	83.15	77.67
3	星火飞码iFlyCode	80.16	81.28	79.04

排名	模型名称	代码优化与修复	代码纠错	性能优化	安全性检查
-	Cursor	92.4	96.12	89.41	91.67
🏅️	文心快码Baidu Comate	88.99	92.25	86.66	88.07
🏅️	通义灵码	88.8	88.37	89.41	88.62
🥈	星火飞码iFlyCode	83.38	84.43	78.8	86.92
-	Codeium	74.6	78.88	70.19	74.74
🥉	CodesArt Snap	73.3	66.12	74.89	78.9
4	豆包MarsCode	71.51	76.12	70.16	68.26

排名	模型名称	跨函数与跨文件编程	函数调用	跨文件能力
-	Cursor	90.81	93.5	88.12
🏅️	通义灵码	86.64	83.62	89.67
🥈	文心快码Baidu Comate	84.62	83.2	86.03
🥉	星火飞码iFlyCode	78	75.65	80.34
🥉	CodesArt Snap	77.81	79.43	76.18
4	豆包MarsCode	76.77	74.82	78.72
-	Codeium	70.21	63.91	76.51

排名	模型名称	解析总分	检索定位	全文信息解读	数理分析	翻译	多轮信息解读	多文本信息处理	使用方式	更新日期
-	GPT-4o-2024-05-13	70.97	68.38	74.86	66.63	70.15	71.11	66.67	POE	2024年9月11日
1	Moonshot(kimi)	67.61	66.18	69.83	67.8	63.78	73.89	66.67	网页	2024年9月11日
1	豆包	66.69	65	69.89	71.17	61.16	72.78	61.67	网页	2024年9月11日
2	Baichuan4	66.12	65.88	69.01	66.7	62.03	67.22	60	API	2024年9月11日
2	文心一言4 turbo	65.47	61.76	67.74	63.37	64.19	72.78	71.67	网页	2024年9月11日
3	通义千问2.5	65.02	66.03	64.23	65.57	59.03	78.33	70	网页	2024年9月11日
3	360gpt2-pro-360k	64.02	64.41	66.76	63.33	53.91	75.56	70	API	2024年9月11日
4	GLM-4-0520	59.67	60.74	64.68	65.57	47.24	60.56	66.67	API	2024年9月11日
-	Claude-instant-100k	59.1	56.32	61.72	60	54.41	71.67	50	POE	2024年9月11日
5	讯飞星火	58.09	58.97	59.55	66.67	51	62.78	53.33	网页	2024年9月11日

排名	模型名称	机构名称	应用能力	车身服务能力	汽车操控	故障维修	用车答疑	娱乐能力	百科问答	儿童关怀	情感聊天	出行规划	发布日期
-	GPT-4o	OpenAI	82.64	85.01	84.84	84.16	86.04	80.27	87.42	76.78	74.61	82.33	2024.10.23
🏅️	GLM-4-plus	智谱	81.72	85.51	87.47	85.99	83.14	77.93	85.91	71.5	71.32	82.94	2024.10.23
🥈	qwen_max_longcontext	阿里巴巴	79.71	80	74.95	84.15	81.04	79.42	86.23	76.54	75.53	79.5	2024.10.23
🥉	讯飞星火V3.5	科大讯飞	78.53	82.45	83.12	81.78	82.42	74.6	87.21	66.88	67.41	76.98	2024.10.23
4	ERNIE-3.5-128K	百度	76.36	78.78	76.78	80.33	79.26	73.94	79.54	73.44	66.79	75.96	2024.10.23
4	Qwen2-7B-Instruct	阿里巴巴	75.46	76.9	70.9	82.49	77.51	74.01	81.89	63.76	71.44	79.44	2024.10.23
5	Yi-1.5-34B-Chat-16K	零一万物	74.28	75.69	69.7	81.24	76.28	72.87	79.14	67.85	67.82	76.59	2024.10.23
-	GPT3.5-Turbo-0125	OpenAI	71.39	74.02	77.06	68.03	76.88	68.75	72.16	66.45	71.99	64.55	2024.10.23
6	Doubao-lite-32k	字节跳动	70.8	69.66	64.34	77.41	67.47	71.93	80.34	60.66	70.96	75.56	2024.10.23
-	Llama-3-8B-Instruct	Meta	61.28	62.46	71.22	61.48	54.64	60.09	65.7	63.88	55.85	55.37	2024.10.23

模型名称	机构	拒答能力	检错和纠错能力	信息整合能力	答案及时性	使用方式	发布日期
360智脑	360	82.28	79.68	66.83	72.91	API	2024.11.26
GLM-4-0520	清华&智谱AI	67.03	82.04	63.52	73.37	API	2024.11.26
MiniMax-abab6.5s-chat	MiniMax	64.95	77.2	63.78	67.09	API	2024.11.26
通义千问2.5	阿里巴巴	55.82	77.58	66.86	71.63	网页	2024.11.26
文心一言4-turbo	百度	57.07	79.78	67.43	63.84	网页	2024.11.26
GPT-4o-2024-05-13	OpenAI	61.25	82.15	68.71	54.53	POE	2024.11.26
文心一言3.5	百度	56.41	80.65	64.44	63.95	网页	2024.11.26
讯飞星火4.0	科大讯飞	55.49	80.7	63.54	62.09	API	2024.11.26
Moonshot-v1-128k	月之暗面	62.91	80.97	67.3	18.26	API	2024.11.26

排名	模型	应用总分	情感陪伴	游戏NPC	社交场景	直播营销	影音名人
-	GPT4-Turbo-0125	74.04	79.2	77.2	76.4	70.2	67.2
🏅️	qwen1.5-72b-chat	71.32	77	72.6	72.6	69.6	64.8
🥈	文心一言4.0	70.48	73	74.6	71	69.6	64.2
🥉	qwen1.5-14b-chat	69.88	73.8	68.4	74	68	65.2
4	Yi-34B-Chat	69.24	72.6	69.4	72.2	68.8	63.2
-	GPT-4	69.16	72.6	74	70.2	65	64
5	讯飞星火V3.5	66.88	72.2	68	68.6	63.4	62.2
-	GPT-3.5-Turbo-0125	66.68	71.2	68.6	69	63.8	60.8
6	Baichuan2-13B-Chat	64.52	67.2	64	70.4	63.4	57.6
7	Chinese-Alpaca2-13B	62.4	67.4	60	65.8	63.2	55.6
8	ChatGLM3-6B	61.16	67.4	59.4	63.6	61.2	54.2
9	Llama-2-13B-Chat	60.68	74.2	49.6	62.6	61.4	55.6

排名	模型	准确率综合得分	全面准确率	平均准确率	第一轮准确率	第二轮准确率	两轮差值
-	GPT-4o	90.6	88.15	93.05	95.24	90.86	-4.38
-	GPT_4_1106_Preview	89.76	87.13	92.4	95.43	89.37	-6.06
-	Claude3-Opus	89.46	87.03	91.88	95.15	88.62	-6.53
-	GPT-4	87.7	84.79	90.62	94.12	87.13	-6.99
🏅️	通义千问2.5	85.33	81.68	88.98	93.56	84.39	-9.17
🥈	DeepSeek-V2	84.97	81.2	88.74	93.38	84.1	-9.28
🥉	文心一言4.0	84.38	80.78	87.97	91.98	83.96	-8.02
4	GLM-4	82.76	78.82	86.71	90.39	83.02	-7.37
-	Llama-3-70B-instruct	82.53	78.54	86.52	91.23	81.81	-9.42
5	讯飞星火V3.5	82.09	77.61	86.57	91.7	81.44	-10.26
6	ChatGLM-Turbo	55.08	46.92	63.25	73.69	52.8	-20.89
-	GPT3.5-Turbo	54.5	46.69	62.3	70.99	53.59	-17.4
7	qwen-14b-chat	50.26	40.75	59.76	73.23	46.26	-26.97
8	ChatGLM3-6B	37.6	26.96	48.23	61.1	35.35	-25.75
9	Baichuan2-13B-Chat	36.17	26.03	46.32	58.86	33.77	-25.09
10	讯飞星火V3.0	34.89	21.46	48.32	70.99	25.65	-45.34
11	文心一言3.5	22.67	13.62	31.72	43	20.43	-22.57
12	Chinese_Alpaca_2_13B	18.58	11.02	26.13	35.63	16.62	-19.01

模型名称	指令遵循率（答案）	回答平均长度
GPT-4o	99.77	201.44
GPT-4	99.44	129.72
GPT_4_1106_Preview	99.44	179.78
Llama-3-70B-instruct	99.3	118.87
DeepSeek-V2	98.55	154.25
通义千问2.5	98.41	147.08
GLM-4	96.64	183.97
讯飞星火V3.5	91.42	124.29
qwen-14b-chat	90.74	73.42
文心一言4.0	90.44	197.02
Claude3-Opus	83.4	125.21
文心一言3.5	65.89	43.36
ChatGLM-Turbo	60.35	96.19
讯飞星火V3.0	54.63	62.97
GPT3.5-Turbo	51.03	83.18
ChatGLM3-6B	22.62	66.66
Chinese_Alpaca_2_13B	19.59	47.77
Baichuan2-13B-Chat	0.93	70.66

排名	模型	机构	智能座舱与交互	使用方式	评测日期
-	GPT-4-Turbo	OpenAI	83.2	API	2023年12月25日
-	GPT-4	OpenAI	79.4	API	2023年12月25日
🏅️	文心一言3.5	百度	77.8	API	2023年12月25日
🥈	易车大模型	易车	73.95	API	2024年6月12日
🥉	ChatGLM-Turbo	清华&智谱AI	72.6	API	2023年12月25日
4	XVERSE-13B-2-Chat	元象科技	72.4	模型	2023年12月25日
5	MiniMax-Abab5.5	MiniMax	72	API	2023年12月25日
-	GPT-3.5-Turbo	OpenAI	71.8	API	2023年12月25日
6	Qwen-14B-Chat	阿里巴巴	69.4	API	2023年12月25日
7	Baichuan2-13B-Chat	百川智能	67.4	模型	2023年12月25日
8	讯飞星火V3.0	科大讯飞	66.2	API	2023年12月25日
-	Llama2-13B-Chat	Meta	55.4	模型	2023年12月25日
9	ChatGLM3-6B	清华&智谱AI	53.2	模型	2023年12月25日

SuperCLUE总排行榜（2025年3月）

SuperCLUE推理任务总排行榜（2025年3月）

SuperCLUE推理模型总排行榜（2025年3月）

SuperCLUE基础模型总排行榜（2025年3月）

SuperCLUE开源排行榜（2025年3月）

SuperCLUE小模型10B榜（2025年3月）

SuperCLUE小模型5B榜（2025年3月）

SuperCLUE总榜（2025年3月）

SuperCLUE回复率（2025年3月）

SuperCLUE准确率（2025年3月）

SuperCLUE推理耗时（2025年3月）

SuperCLUE总榜单（2025年1月）

SuperCLUE开源榜单（2025年1月）

SuperCLUE七大任务榜单（2025年1月）

SuperCLUE总榜（2024年12月）

SuperCLUE语音交互（2024年12月）

SuperCLUE通用能力（2024年12月）

SuperCLUE场景应用（2024年12月）

SuperCLUE响应速度（2024年12月）

SuperCLUE十五大能力（2024年12月）

SuperCLUE测评产品列表（2024年12月）

SuperCLUE总榜（2024年11月）

SuperCLUE基础与技术榜单（2024年11月）

SuperCLUE应用场景榜单（2024年11月）

SuperCLUE七大任务榜单（2024年11月）

SuperCLUE总榜（2024年10月）

SuperCLUE基础认知能力（2024年10月）

SuperCLUE应用能力（2024年10月）

SuperCLUE八大任务榜单（2024年10月）

SuperCLUEAgent总榜（2024年10-12月）

SuperCLUE任务规划（2024年10-12月）

SuperCLUE工具使用（2024年10-12月）

SuperCLUE长短期记忆（2024年10-12月）

SuperCLUE十大基础能力（2024年10-12月）

SuperCLUE文生图总榜（2024年9月）

SuperCLUE图像质量榜单（2024年9月）

SuperCLUE图文一致性榜单（2024年9月）

SuperCLUE复杂度适应性榜单（2024年9月）

SuperCLUE内容创造榜单（2024年9月）

SuperCLUE文字创作榜单（2024年9月）

SuperCLUE中华文化与元素榜单（2024年9月）

SuperCLUE总榜（2024年10月）

SuperCLUE各任务大类得分（2024年10月）

SuperCLUE基础能力（2024年10月）

SuperCLUE应用能力（2024年10月）

SuperCLUE总排行（2024年9月）

SuperCLUE初级难度（2024年9月）

SuperCLUE中级难度（2024年9月）

SuperCLUE高级难度（2024年9月）

SuperCLUE总榜（2024年11月）

SuperCLUE四大任务（2024年11月）