TCMEval

评测榜单

综合排名

基于TCM-PQ-Exam测试集综合得分排名

排名	模型名称	组织/团队名称	发布日期	类型	参数量	综合得分	第一单元	第二单元	第三单元	第四单元
	ZMT-M1	北京智明堂科技有限公司	2025-10-01	闭源	671B	96.26	97.7	96.94	95.57	94.61
	ERNIE-X1-Turbo-32K	百度	2025-03-01	闭源	-	94.23	96.64	95.45	92.61	91.89
	Qwen3-235B-A22B	通义实验室	2025-07-01	开源	235B-A22B	93.52	94.89	95.45	91.95	91.52
4	Kimi-K2-Instruct	月之暗面	2025-07-01	开源	1T	93.3	94.83	95.06	92.75	90.18
5	Hunyuan-T1	腾讯混元	2025-03-01	闭源	-	92.47	95.15	94.92	91.22	88.02
6	DeepSeek-R1	深度求索	2025-05-01	开源	671B	91.61	93.92	93.08	90.02	88.84
7	LongCat-Flash-Chat	美团Longcat团队	2025-09-01	开源	562B	91.56	93.92	93.08	90.02	88.84
8	Baichuan4	百川智能	2024-05-01	闭源	-	91.41	92.76	92.81	91.75	87.87
9	Qwen2.5-72B-Instruct	通义实验室	2024-07-01	开源	72B	90.73	91.98	93.54	90.22	86.68
10	DeepSeek-V3.1	深度求索	2025-09-01	开源	685B	90.54	92.44	91.69	90.42	87.2
11	Spark-4.0-Ultra	科大讯飞科技有限公司	2024-10-01	闭源	-	90.02	91.34	92.22	89.16	86.98
12	Qwen3-32B	通义实验室	2025-09-01	开源	32B	85.04	89.2	90.38	81.9	77.75
13	GLM-4.5	智谱清言	2025-08-01	开源	355B-A33B	85.03	89.85	91.5	80.57	77.16
14	DeepSeek-R1-Distill-Qwen-32B	深度求索	2025-05-01	开源	32B	79.17	82.09	84.25	75.18	74.55
15	Qwen3-14B	通义实验室	2025-09-01	开源	14B	78.35	83.13	85.5	75.85	67.56
16	GLM-4.5-Air	智谱清言	2025-08-01	开源	106B-A12B	77.99	84.55	84.18	72.59	69.49
17	DeepSeek-R1-Distill-Qwen-14B	深度求索	2025-01-01	开源	14B	75.49	78.86	82.73	72.19	67.11
18	GPT-4.1	通义实验室	2025-04-01	闭源	-	73.92	73.29	81.18	73.76	66.52
19	Qwen3-8B	通义实验室	2025-09-01	开源	8B	73.52	77.38	79.7	71.06	64.88
20	GPT-4o	OpenAI	2024-05-01	闭源	-	69.79	71.58	81.96	73.76	49.77
21	MiniMax-M1	MiniMax	2025-06-01	开源	456B-A45.9B	69.65	76.92	74.82	66.33	59.15
22	Llama-3.3-70B-Instruct	Meta	2024-12-01	开源	70B	68.38	70.85	80.75	61.41	59.38
23	Qwen3-30B-A3B	通义实验室	2025-07-01	开源	30B-A3B	61.07	69.49	72.51	52.5	48.03
24	DeepSeek-R1-Distill-Llama-70B	深度求索	2025-01-01	开源	70B	57.54	56.04	71.72	50.77	50.82
25	GPT-OSS-120B	OpenAI	2025-08-01	开源	117B-A5.1B	56.31	53.17	75.64	44.8	51.45
26	Baichuan-M2-32B	百川智能	2025-08-01	开源	32B	55.63	70.14	64.8	45.71	39.66
27	Llama-3.1-8B-Instruct	Meta	2024-07-01	开源	8B	48.66	46.35	58.73	43.51	45.68
28	GPT-OSS-20B	OpenAI	2025-08-01	开源	21B-A3.6B	38.72	33.16	54.85	28.28	38.62
29	DeepSeek-R1-Distill-Qwen-7B	深度求索	2025-01-01	开源	7B	31.25	29.8	36.65	25.82	32.89
30	DeepSeek-R1-Distill-Llama-8B	深度求索	2025-01-01	开源	8B	28.74	26.31	35.46	24.95	28.2