ARC-AGI-2提升的最恐怖,从前一代的31.1% 到这一代的77.1%。 这里稍微补充一下有关这个Benchmark, 它其实非常考验模型对于抽象知识的推理。每道题给模型若干个示例,模型要从这些示例里归纳找出隐含的规则,然后对新的测试输入,进行回答。 Terminal Bench 2.0的分数也从56.9%提升到了68.5% ,超过了Opus 4.6。 BrowseComp的提升幅度也十分吓人 ...
2月14日,字节正式发布豆包大模型2.0系列。据悉,豆包2.0(Doubao-Seed-2.0)围绕大规模生产环境下的使用需求做了系统性优化,重点加强高效推理、多模态理解与复杂指令执行能力,以更好地完成真实世界复杂任务。 报告指出,当前大模型行业正在迈入“Agent ...
这个春节,各家大模型都在密集的发布最新的版本。而这一次,字节拿出了自家最新的大模型豆包大模型 Seed-2.0(Doubao-Seed-2.0),它作为豆包系列自 2024 年以来首次的大版本跨代升级,在基础能力、多模态理解、Agent 执行力、推理与代码编写等多维度带来了显著的新功能和体验提升。从官网的介绍来看,Seed2.0 ...
在开始之前,我们先切换一下心态,不要把小龙虾当成一个类似 ChatGPT 或者 Claude Code 的 AI 助手,而是把它想象成你刚招的一个远程员工。 如果你想省钱,把 ChatGPT Team 计划的 GPT-5.3 Codex 接入到 ...
阿里巴巴正式推出全新一代开源大模型千问Qwen3.5-Plus,凭借多项技术创新在性能与性价比维度实现突破。该模型总参数规模达3970亿,但通过极致稀疏架构设计,实际激活参数仅170亿,在推理效率提升的同时,部署显存占用降低60%,最大推理吞吐量较前代提升19倍。官方数据显示,其API调用价格每百万token低至0.8元,仅为同类产品Gemini 3 ...