首页 > 软件资讯 > 北大张牧涵团队依托腾突破推理效率瓶颈大模型推理百万tokens成本仅1 元

北大张牧涵团队依托腾突破推理效率瓶颈大模型推理百万tokens成本仅1 元

时间:2025-08-03 14:32:10

在人工智能领域,大语言模型的训练和推理一直受到高昂成本的困扰。近期,北京大学人工智能研究院助理教授张牧涵领导的研究团队,在鲲鹏腾科教创新卓越中心(简称“卓越中心”)的强大算力支持下,成功构建了一套高效的大模型训练与推理架构。该架构实现了百万tokens输入成本低至,为行业提供了一个高性能、低成本的新范式。

这项研究实现了三项关键技术突破。首先,当前主流的位置编码机制存在明显的稀疏问题。团队创新性地将注意力头中的位置信息与非位置信息进行分离处理,并实施低秩压缩,在仅保留位置信息的情况下仍能保持原有的表达能力。该方案结合了腾硬件优化的flash-attention算子,大幅提升了注意力头参数的利用效率。

其二,在传统模型中,非位置编码部分常常处于压抑状态。通过分离位置与非位置成分,该部分得以获得更大的压缩潜力。研究团队采用联合KV的低秩压缩策略,仅需保留的KVCache即可维持模型性能。这种方法有效释放了腾芯片的强大计算潜能,缓解了内存访问瓶颈,并显著提升了推理吞吐能力。

其三,凭借腾平台强大的并行计算能力,团队成功研发了RecurrentDecoding(RD)技术,取代了传统的LM头结构。这一创新方法不仅提升了训练数据的利用效率,还大幅缩短了推理过程的时间。在训练阶段,RD通过比较解码出的多个token与目标token,实现了更为高效的训练数据利用;而在推理阶段,则结合投机采样机制,显著提高了生成token的命中率,并进一步加速了输出速度。

近日,北京大学与华为宣布了一项重大研究成果,在学术界引起了广泛关注。这项成果不仅为后续研究提供了可复现、高效的架构模板,还显著降低了企业场景中大模型部署的门槛。自项目启动以来,两所高校持续在前沿技术领域进行深度合作攻关,此次突破性进展进一步证明了腾算力平台支持高水平科研能力。未来,卓越中心将继续推动大模型关键技术的创新探索,助力构建自主可控的技术生态体系。

以上就是北大张牧涵团队依托腾突破推理效率瓶颈大模型推理百万tokens成本仅1 元的详细内容,更多请关注其它相关文章!

热门推荐