Gartner 将生成式 AI 列为 2022 年五大影响力技术之一,MIT 科技评论也将 AI 合成数据列为 2022 年十大突破性技术之一,甚至将 Generative AI 称为是 AI 领域过去十年最具前景的进展。未来,兼具大模型和多模态模型的 AIGC 模型有望成为新的技术平台。 近来,腾讯发布的 ...
根据测试结果表明,AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点 AMD目前已经在其EPYC服务器处理器和部分消费级处理器产品线上采用了3D V-Cache技术。但根据来自海外工程师的最新测试结果发现,AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点,这 ...
今年的Intel Architecture Day上,更多有关Intel GPU的产品信息揭开面纱。这次Intel主要谈到了面向游戏玩家的Xe-HPG架构Alchemist GPU;以及面向数据中心的Xe-HPC架构GPU芯片Ponte Vecchio。后者被Intel形容为技术难度“堪比登月”的芯片,这也是我们第一次见到MCM(Multi-chip Module ...
当大语言模型(LLM)走向千行百业,推理效率与显存成本的矛盾日益尖锐。 KV Cache (Key-Value Cache)作为提升生成速度的核心技术,却像一个 “吞存巨兽”—— 每增加一个 token,就需要更多显存存储键(Key)和值(Value)向量,最终成为制约模型规模扩张、并发 ...
上期我们讲了现代计算机体系结构通过处理器(CPU/GPU)和内存的交互来执行计算程序,处理输入数据,并输出结果。实际上 ...
胡侠团队便针对这一目标提出了一项最新研究方案——“通过有损计算(Lossy Computation)来提高大语言模型的推理效率”。这项研究的基本思路是,利用大语言模型对来自低精度计算等“有损”操作产生的噪声具有极强鲁棒性这一特点,主动引入可控的、不损害性能的信息损失,以换取显著的效率提升。
随着人工智能特别是大模型的飞速发展,对计算能力的需求呈指数级增长,推动了计算架构从单GPU节点向大规模异构集群的演进。在此背景下,系统性能瓶颈已从GPU内部计算转向多处理器间的数据交互效率,即“通信墙”问题。传统的互连技术难以满足现代AI ...