首页 > 软件资讯 > 北大张牧涵团队依托腾突破推理效率瓶颈大模型推理百万tokens成本仅1 元

北大张牧涵团队依托腾突破推理效率瓶颈大模型推理百万tokens成本仅1 元

时间：2025-08-03 14:32:10

在人工智能领域，大语言模型的训练和推理一直受到高昂成本的困扰。近期，北京大学人工智能研究院助理教授张牧涵领导的研究团队，在鲲鹏腾科教创新卓越中心（简称“卓越中心”）的强大算力支持下，成功构建了一套高效的大模型训练与推理架构。该架构实现了百万tokens输入成本低至，为行业提供了一个高性能、低成本的新范式。

这项研究实现了三项关键技术突破。首先，当前主流的位置编码机制存在明显的稀疏问题。团队创新性地将注意力头中的位置信息与非位置信息进行分离处理，并实施低秩压缩，在仅保留位置信息的情况下仍能保持原有的表达能力。该方案结合了腾硬件优化的flash-attention算子，大幅提升了注意力头参数的利用效率。

其二，在传统模型中，非位置编码部分常常处于压抑状态。通过分离位置与非位置成分，该部分得以获得更大的压缩潜力。研究团队采用联合KV的低秩压缩策略，仅需保留的KVCache即可维持模型性能。这种方法有效释放了腾芯片的强大计算潜能，缓解了内存访问瓶颈，并显著提升了推理吞吐能力。

其三，凭借腾平台强大的并行计算能力，团队成功研发了RecurrentDecoding（RD）技术，取代了传统的LM头结构。这一创新方法不仅提升了训练数据的利用效率，还大幅缩短了推理过程的时间。在训练阶段，RD通过比较解码出的多个token与目标token，实现了更为高效的训练数据利用；而在推理阶段，则结合投机采样机制，显著提高了生成token的命中率，并进一步加速了输出速度。

近日，北京大学与华为宣布了一项重大研究成果，在学术界引起了广泛关注。这项成果不仅为后续研究提供了可复现、高效的架构模板，还显著降低了企业场景中大模型部署的门槛。自项目启动以来，两所高校持续在前沿技术领域进行深度合作攻关，此次突破性进展进一步证明了腾算力平台支持高水平科研能力。未来，卓越中心将继续推动大模型关键技术的创新探索，助力构建自主可控的技术生态体系。