AscendNPU IR和众智FlagOS新语言Triton-TLE深度适配,通过FlagTree编译器接入昇腾,为高性能算子开发提供新路径

张开发
2026/4/12 15:42:40 15 分钟阅读

分享文章

AscendNPU IR和众智FlagOS新语言Triton-TLE深度适配,通过FlagTree编译器接入昇腾,为高性能算子开发提供新路径
在人工智能技术指数级迭代的今天算力的边界正被不断突破而软件生态的开放与协同则成为了释放硬件潜力的关键钥匙。作为一种 Python DSL 形式的算子编程语言Triton 基于 Block 的编程理念屏蔽了复杂硬件细节并通过编译器优化实现高性能算子。这些优点吸引了大量开发者围绕 Triton 形成庞大的社区生态。然而 Triton 在细粒度控制存储层和并行粒度上缺少抽象导致算子性能难以进一步挖掘。众智 FlagOS 社区基于 FlagTree多芯片公共编译器提出了全新语言 Triton-TLETriton Language Extentions从三个层级扩展 Triton 能力满足开发者在算子开发上的不同需求。Triton-TLE 通过 FLIR针对DSA的公共中间表示层与 AscendNPU IR昇腾MLIR能力表达层的深度适配在昇腾上取得了里程碑式的落地成果。这不仅是一次技术层面的成功对接更是国内AI开源生态与底层硬件深度融合的重要一步。现在开发者可以下载 FlagTree 体验 Triton-TLE 的高效编程范式在昇腾平台上获得高性能算子开发体验。从“高效率”到“高性能”FlagTree推出三层渐近式编程语言Triton-TLETriton-TLETriton Language Extensions是 FlagTree 对 Triton 语言提供的扩展能力针对不同专业度开发者采用三层渐进式架构设计。TLE-Lite是对 Triton 的轻量级扩展所有特性兼容各类硬件后端仅需对原有 Triton kernels 少量修改即可拿到大幅性能提升。主要面向算法工程师和快速性能优化场景。TLE-Struct按硬件的架构聚类抽象分类如 GPGPU、DSA提供扩展满足进一步性能优化的需求。需要开发人员对目标硬件的特性和优化技巧有一定了解。TLE-Raw提供对硬件最直接的控制可以使用硬件厂商的原生编程语言获取最极致的性能。需要开发人员对目标硬件的深入了解主要面向性能优化专家。其中 TLE-Lite 和 TLE-Struct 会通过 FLIR 最终 Lowering 到 LLVM IR而 TLE-Raw 则通过语言对应的编译管线如厂商的私有编译器Lowering 到 LLVM IR。最后它们会被 Link 到一起共同生成一个完整的 kernel 供 Runtime 加载和执行。打通“任督二脉”AscendNPU IR扮演关键桥梁如果说 FlagTree 与 Triton-TLE 的结合是上层建筑的创新那么 AscendNPU IR 的底层支撑则是这一切得以在昇腾硬件上高效运行的地基。AscendNPU IRAscendNPU Intermediate Representation是基于 MLIRMulti-Level Intermediate Representation构建的面向昇腾亲和算子编译时使用的中间表示为生态框架提供面向昇腾的统一编译接入层和硬件完备表达优化能力释放硬件算力。 AscendNPU IR 提供了多级方言高层抽象 HFusion Dialect 屏蔽昇腾计算、搬运、同步指令细节具备 tensor 及表达能力。硬件抽象 HIVM Dialect 实现了昇腾硬件的抽象资源管理提供了细粒度的控制能力自动面向昇腾优化。FlagTree 中的 FLIR 则承担着 Triton-TLE 编译降级并对接到 AscendNPU IR 的工作同时注册了一批二元算数算子的转换规则将 tle.dsa.op 降级为 HIVM 方言的向量算子。例如 tle.dsa.copy 接口经过一系列的转换 pass将 GM 到 UB 的数据搬移降级为 memref::CopyOp将 GM-L1 的数据搬移降级为 hivm::ND2NZOp。Triton-TLE FlagTree 通过 AscendNPU IR 的接入是昇腾 CANN 生态 “分层解耦、开源开放、灵活扩展”的一次成功践行。通过该 IR 层的开放能力验证了其在快速接纳不同的AI编程框架上的灵活性与低适配成本。这种开放策略也使得 FlagOS 社区能够更高效地利用昇腾底层算力共同构建开放共赢的 AI 开发生态。基于兼具高性能与高效率、灵活可定制的接入方式开发者既能享受 Tensor 级别的高阶抽象带来的快速开发红利也能在性能瓶颈处调用细粒度指令集进行深度优化。这种分层机制使得 FlagTree 编译的算子既能快速落地又能通过定制化优化释放昇腾硬件的极致算力。Triton-TLE FlagTree 与 AscendNPU IR 的深度融合不是技术栈的简单连接而是构建繁荣 AI 生态的坚实一步。它展示了国内AI框架与底层硬件协同创新的巨大潜力。我们相信随着 AscendNPU IR 的进一步发展以及 FlagOS 社区与昇腾生态的持续共建开发者将获得更强大、更易用的工具链。未来我们将继续推动前沿技术创新降低AI应用门槛与广大开发者一起在昇腾算力平台上探索无限可能。AscendNPU IR开源仓地址https://gitcode.com/Ascend/AscendNPU-IR众智FlagOS社区地址https://github.com/flagos-ai/FlagTree/tree/triton_v3.5.x欢迎广大开发者前往体验共同参与这场开放与创新的技术变革关于众智FlagOS社区为解决不同 AI 芯片大规模落地应用北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。FlagOS 是一款专为异构 AI 芯片打造的开源、统一系统软件栈支持 AI 模型一次开发即可无缝移植至各类硬件平台大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目致力于构建「模型-系统-芯片」三层贯通的开放技术生态通过“一次开发跨芯迁移”释放硬件计算潜力打破不同芯片软件栈之间生态隔离。官网https://flagos.ioGitHub 项目地址https://github.com/flagos-aiGitCode 项目地址https://gitcode.com/flagos-ai

更多文章