Python and Java And - 搜索 News

ICLR 2026 | 北航开源Code2Bench：双扩展动态评测，代码大模型告别躺平刷分

在衡量大语言模型（LLM）代码生成能力的竞赛中，一个日益严峻的问题正浮出水面：当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时，我们究竟是在评估其真实的泛化推理能力，还是在检验其对训练语料库的「记忆力」？

一些您可能无法访问的结果已被隐去。