大模型高考测评第一期:DeepSeek V4 vs 豆包 2.0,谁才是国产最强?

现在的模型评测榜单琳琅满目,但对于中文语境下的逻辑、知识和综合能力,没有什么比高考更具公信力。
我做了一个 大模型高考成绩榜 的项目,让大模型挑战全科 6 门最新的高考真题(总分 750)。这不仅是一场能力的较量,更是对模型性价比和 Token 效率的深度测试。
本期是系列测评的第一期,我们邀请了三位重量级选手:
- Claude 4.7 Opus:公认的地表最强,作为本次考试的“标杆”和“主观题阅卷老师”。
- DeepSeek V4:刚刚发布的国产之光,包括 Flash 和 Pro 两款。
- 豆包 2.0 系列:字节跳动旗下的全能选手,派出 Pro, Lite, Mini 三兄弟。
青衿AI

