ARC-AGI-2提升的最恐怖,从前一代的31.1% 到这一代的77.1%。 这里稍微补充一下有关这个Benchmark, 它其实非常考验模型对于抽象知识的推理。每道题给模型若干个示例,模型要从这些示例里归纳找出隐含的规则,然后对新的测试输入,进行回答。 Terminal Bench 2.0的分数也从56.9%提升到了68.5% ,超过了Opus 4.6。 BrowseComp的提升幅度也十分吓人 ...
近期,AI圈有两款产品接连走红,引发了不少讨论。 一款是OpenClaw,一个能让大模型获得本地操作系统权限的开源智能体框架。简单说,它让AI可以自己执行Shell命令、操作文件系统,实现所谓的“本地代理主权”。GitHub星标短时间内破12万,技术圈反响热烈。 另一款是Moltbook,1月27日上线,定位是“硅基原生社交生态”——在这里,AI是发帖、互动的主体,人类只是观察者。它的Slogan ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果