ARC-AGI-2提升的最恐怖,从前一代的31.1% 到这一代的77.1%。 这里稍微补充一下有关这个Benchmark, 它其实非常考验模型对于抽象知识的推理。每道题给模型若干个示例,模型要从这些示例里归纳找出隐含的规则,然后对新的测试输入,进行回答。 Terminal Bench 2.0的分数也从56.9%提升到了68.5% ,超过了Opus 4.6。 BrowseComp的提升幅度也十分吓人 ...
此前Grok 4.2测试版就被曝出在Alpha Arena的大模型实时投资比赛中,成为唯一盈利的模型。该比赛的规则是,每个模型获得1万美元初始资金,在真实加密货币市场中进行无人工干预的自主交易决策。根据Alpha Arena最新排行榜,Grok ...
阿里巴巴正式推出全新一代开源大模型千问Qwen3.5-Plus,凭借多项技术创新在性能与性价比维度实现突破。该模型总参数规模达3970亿,但通过极致稀疏架构设计,实际激活参数仅170亿,在推理效率提升的同时,部署显存占用降低60%,最大推理吞吐量较前代提升19倍。官方数据显示,其API调用价格每百万token低至0.8元,仅为同类产品Gemini 3 ...
蛇年尾声,阿里更强大的千问模型登场。2月16日除夕当天,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus。千问3.5在文本和视觉的混合数据上预训练,实现了原生多模态的新突破,在推理、编程、Agent智能体等全方位基准评估中均表现优异,并在视觉理 ...
泰国曼谷 - Media OutReach Newswire - 2026年2月13日 - ...
InfoQ中国 on MSN
2025年的Web开发:AI的React偏见 vs 原生Web
随着越来越多的开发者寻求React生态系统之外的解决方案,像Astro和Svelte这样的前端框架越来越受欢迎,今年Web开发的复杂性进一步降低。与此同时,原生Web平台的特性证明了它们能够胜任构建复杂的Web应用程序的工作——尤其是CSS在2025 ...
数据不会撒谎,在 SWE-bench-Verified 和 Terminal Bench 2.0 这两个公认最难的编程榜单中,GLM-5 分别拿下了 77.8 和 56.2 的高分,在真实编程场景的体感上,已经无限逼近 Claude Opus 4.5 ...
几周前,开源社区曾流传一个名为Pony Alpha的模型。它能进行长程交互、拆解复杂任务、在多轮对话中保持稳定上下文,一度引发广泛猜测。如今答案揭晓,Pony Alpha正是GLM-5的匿名测试版本。
近期Kimi 2.5在Coding与复杂任务处理能力上的强化,以及Pony Alpha这类更偏工程化取向的AI编程工具, 释放出的信号并不在于“模型又升级了”,而在于产品逻辑的变化,从“能写代码”转向“能参与开发”。
每日经济新闻 on MSN
OpenClaw、Cowork引爆AI代理革命 桌面智能体入口之争悄然升温
2026年刚开年,Agent(智能体)赛道的竞争便趋于白热化,国外Anthropic发布Claude Cowork(以下简称Cowork),以及程序员彼得·斯坦伯格开发的OpenClaw(原Clawdbot/Moltbot)引爆AI社区。
索尼于近日面向PlayStation5主机推送了系统软件更新版本26.01-12.60.00,该版本被安全研究社区确认已对媒体类应用所依赖的用户空间漏洞实施关键修复。此次更新重点封禁了长期被用于越狱开发的YouTube与Netflix应用入 ...
香港 - Media OutReach Newswire - 2026年2月5日 - 香港科技大学(科大)与英特尔宣布成立「香港科技大学-英特尔联合实验室」(联合实验室)。此核心项目是一项为期三年的研究计划,重点探索高能效近记忆体运算架构,以应对人工智能应用在效能与能源效率方面的挑战。通过软硬件协同设计创新,双方旨在为智能设备与可持续人工智能系统的未来发展提供技术基础。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果