JavaScript HTML 5 - 搜索 News

Gemini 3.1 Pro深夜发布，终于有AI能数清手指了？！

ARC-AGI-2提升的最恐怖，从前一代的31.1% 到这一代的77.1%。这里稍微补充一下有关这个Benchmark，它其实非常考验模型对于抽象知识的推理。每道题给模型若干个示例，模型要从这些示例里归纳找出隐含的规则，然后对新的测试输入，进行回答。 Terminal Bench 2.0的分数也从56.9%提升到了68.5% ，超过了Opus 4.6。 BrowseComp的提升幅度也十分吓人 ...

2 天

马斯克把Grok 4.2放出来了！免费可玩，至尊版月费300刀，16个Agent组成 ...

此前Grok 4.2测试版就被曝出在Alpha Arena的大模型实时投资比赛中，成为唯一盈利的模型。该比赛的规则是，每个模型获得1万美元初始资金，在真实加密货币市场中进行无人工干预的自主交易决策。根据Alpha Arena最新排行榜，Grok ...

4 天on MSN

阿里千问Qwen3.5-Plus来袭：四大技术突破，性能强价格优，开启人机 ...

阿里巴巴正式推出全新一代开源大模型千问Qwen3.5-Plus，凭借多项技术创新在性能与性价比维度实现突破。该模型总参数规模达3970亿，但通过极致稀疏架构设计，实际激活参数仅170亿，在推理效率提升的同时，部署显存占用降低60%，最大推理吞吐量较前代提升19倍。官方数据显示，其API调用价格每百万token低至0.8元，仅为同类产品Gemini 3 ...

腾讯网

阿里发布千问3.5，性能媲美Gemini 3， Token价格仅为其1/18

蛇年尾声，阿里更强大的千问模型登场。2月16日除夕当天，阿里巴巴开源全新一代大模型千问Qwen3.5-Plus。千问3.5在文本和视觉的混合数据上预训练，实现了原生多模态的新突破，在推理、编程、Agent智能体等全方位基准评估中均表现优异，并在视觉理 ...

The Caledonian-Record

中国春节在泰国：全民庆典与区域旅游吸引力磁场

泰国曼谷 - Media OutReach Newswire - 2026年2月13日 - ...

InfoQ中国 on MSN

2025年的Web开发：AI的React偏见 vs 原生Web

随着越来越多的开发者寻求React生态系统之外的解决方案，像Astro和Svelte这样的前端框架越来越受欢迎，今年Web开发的复杂性进一步降低。与此同时，原生Web平台的特性证明了它们能够胜任构建复杂的Web应用程序的工作——尤其是CSS在2025 ...

爱范儿

体验完智谱刚刚发布的 GLM-5，我终于明白它为什么让硅谷猜破了头

数据不会撒谎，在 SWE-bench-Verified 和 Terminal Bench 2.0 这两个公认最难的编程榜单中，GLM-5 分别拿下了 77.8 和 56.2 的高分，在真实编程场景的体感上，已经无限逼近 Claude Opus 4.5 ...

9 天

“大模型第一股”加入“春节AI战”，交出最强旗舰模型GLM-5，从写 ...

几周前，开源社区曾流传一个名为Pony Alpha的模型。它能进行长程交互、拆解复杂任务、在多轮对话中保持稳定上下文，一度引发广泛猜测。如今答案揭晓，Pony Alpha正是GLM-5的匿名测试版本。

前瞻网

破案了，Pony Alpha中国制造，小龙逆袭AI Coding

近期Kimi 2.5在Coding与复杂任务处理能力上的强化，以及Pony Alpha这类更偏工程化取向的AI编程工具，释放出的信号并不在于“模型又升级了”，而在于产品逻辑的变化，从“能写代码”转向“能参与开发”。

每日经济新闻 on MSN

OpenClaw、Cowork引爆AI代理革命桌面智能体入口之争悄然升温

2026年刚开年，Agent（智能体）赛道的竞争便趋于白热化，国外Anthropic发布Claude Cowork（以下简称Cowork），以及程序员彼得·斯坦伯格开发的OpenClaw（原Clawdbot/Moltbot）引爆AI社区。

14 天

索尼PS5 12.60固件强制联网验证，封禁YouTube/Netflix越狱入口

索尼于近日面向PlayStation5主机推送了系统软件更新版本26.01-12.60.00，该版本被安全研究社区确认已对媒体类应用所依赖的用户空间漏洞实施关键修复。此次更新重点封禁了长期被用于越狱开发的YouTube与Netflix应用入 ...