
TCMEval
评测榜单
最后更新: 2024年1月15日
综合排名
基于TCM-PQ-Exam测试集综合得分排名
| 排名 | 模型名称 | 组织/团队名称 | 发布日期 | 类型 | 参数量 | 综合得分 | 第一单元 | 第二单元 | 第三单元 | 第四单元 |
|---|---|---|---|---|---|---|---|---|---|---|
ZMT-M1 | 北京智明堂科技有限公司 | 2025-10-01 | 闭源 | 671B | 96.26 | 97.7 | 96.94 | 95.57 | 94.61 | |
ERNIE-X1-Turbo-32K | 百度 | 2025-03-01 | 闭源 | - | 94.23 | 96.64 | 95.45 | 92.61 | 91.89 | |
Qwen3-235B-A22B | 通义实验室 | 2025-07-01 | 开源 | 235B-A22B | 93.52 | 94.89 | 95.45 | 91.95 | 91.52 | |
4 | Kimi-K2-Instruct | 月之暗面 | 2025-07-01 | 开源 | 1T | 93.3 | 94.83 | 95.06 | 92.75 | 90.18 |
5 | Hunyuan-T1 | 腾讯混元 | 2025-03-01 | 闭源 | - | 92.47 | 95.15 | 94.92 | 91.22 | 88.02 |
6 | DeepSeek-R1 | 深度求索 | 2025-05-01 | 开源 | 671B | 91.61 | 93.92 | 93.08 | 90.02 | 88.84 |
7 | LongCat-Flash-Chat | 美团Longcat团队 | 2025-09-01 | 开源 | 562B | 91.56 | 93.92 | 93.08 | 90.02 | 88.84 |
8 | Baichuan4 | 百川智能 | 2024-05-01 | 闭源 | - | 91.41 | 92.76 | 92.81 | 91.75 | 87.87 |
9 | Qwen2.5-72B-Instruct | 通义实验室 | 2024-07-01 | 开源 | 72B | 90.73 | 91.98 | 93.54 | 90.22 | 86.68 |
10 | DeepSeek-V3.1 | 深度求索 | 2025-09-01 | 开源 | 685B | 90.54 | 92.44 | 91.69 | 90.42 | 87.2 |
11 | Spark-4.0-Ultra | 科大讯飞科技有限公司 | 2024-10-01 | 闭源 | - | 90.02 | 91.34 | 92.22 | 89.16 | 86.98 |
12 | Qwen3-32B | 通义实验室 | 2025-09-01 | 开源 | 32B | 85.04 | 89.2 | 90.38 | 81.9 | 77.75 |
13 | GLM-4.5 | 智谱清言 | 2025-08-01 | 开源 | 355B-A33B | 85.03 | 89.85 | 91.5 | 80.57 | 77.16 |
14 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 2025-05-01 | 开源 | 32B | 79.17 | 82.09 | 84.25 | 75.18 | 74.55 |
15 | Qwen3-14B | 通义实验室 | 2025-09-01 | 开源 | 14B | 78.35 | 83.13 | 85.5 | 75.85 | 67.56 |
16 | GLM-4.5-Air | 智谱清言 | 2025-08-01 | 开源 | 106B-A12B | 77.99 | 84.55 | 84.18 | 72.59 | 69.49 |
17 | DeepSeek-R1-Distill-Qwen-14B | 深度求索 | 2025-01-01 | 开源 | 14B | 75.49 | 78.86 | 82.73 | 72.19 | 67.11 |
18 | GPT-4.1 | 通义实验室 | 2025-04-01 | 闭源 | - | 73.92 | 73.29 | 81.18 | 73.76 | 66.52 |
19 | Qwen3-8B | 通义实验室 | 2025-09-01 | 开源 | 8B | 73.52 | 77.38 | 79.7 | 71.06 | 64.88 |
20 | GPT-4o | OpenAI | 2024-05-01 | 闭源 | - | 69.79 | 71.58 | 81.96 | 73.76 | 49.77 |
21 | MiniMax-M1 | MiniMax | 2025-06-01 | 开源 | 456B-A45.9B | 69.65 | 76.92 | 74.82 | 66.33 | 59.15 |
22 | Llama-3.3-70B-Instruct | Meta | 2024-12-01 | 开源 | 70B | 68.38 | 70.85 | 80.75 | 61.41 | 59.38 |
23 | Qwen3-30B-A3B | 通义实验室 | 2025-07-01 | 开源 | 30B-A3B | 61.07 | 69.49 | 72.51 | 52.5 | 48.03 |
24 | DeepSeek-R1-Distill-Llama-70B | 深度求索 | 2025-01-01 | 开源 | 70B | 57.54 | 56.04 | 71.72 | 50.77 | 50.82 |
25 | GPT-OSS-120B | OpenAI | 2025-08-01 | 开源 | 117B-A5.1B | 56.31 | 53.17 | 75.64 | 44.8 | 51.45 |
26 | Baichuan-M2-32B | 百川智能 | 2025-08-01 | 开源 | 32B | 55.63 | 70.14 | 64.8 | 45.71 | 39.66 |
27 | Llama-3.1-8B-Instruct | Meta | 2024-07-01 | 开源 | 8B | 48.66 | 46.35 | 58.73 | 43.51 | 45.68 |
28 | GPT-OSS-20B | OpenAI | 2025-08-01 | 开源 | 21B-A3.6B | 38.72 | 33.16 | 54.85 | 28.28 | 38.62 |
29 | DeepSeek-R1-Distill-Qwen-7B | 深度求索 | 2025-01-01 | 开源 | 7B | 31.25 | 29.8 | 36.65 | 25.82 | 32.89 |
30 | DeepSeek-R1-Distill-Llama-8B | 深度求索 | 2025-01-01 | 开源 | 8B | 28.74 | 26.31 | 35.46 | 24.95 | 28.2 |