AscendNPU IR和众智FlagOS新语言Triton-TLE深度适配，通过FlagTree编译器接入昇腾，为高性能算子开发提供新路径

张开发

• 2026/6/1 6:12:17 • 15 分钟阅读

分享文章

AscendNPU IR和众智FlagOS新语言Triton-TLE深度适配，通过FlagTree编译器接入昇腾，为高性能算子开发提供新路径

在人工智能技术指数级迭代的今天算力的边界正被不断突破而软件生态的开放与协同则成为了释放硬件潜力的关键钥匙。作为一种 Python DSL 形式的算子编程语言Triton 基于 Block 的编程理念屏蔽了复杂硬件细节并通过编译器优化实现高性能算子。这些优点吸引了大量开发者围绕 Triton 形成庞大的社区生态。然而 Triton 在细粒度控制存储层和并行粒度上缺少抽象导致算子性能难以进一步挖掘。众智 FlagOS 社区基于 FlagTree多芯片公共编译器提出了全新语言 Triton-TLETriton Language Extentions从三个层级扩展 Triton 能力满足开发者在算子开发上的不同需求。Triton-TLE 通过 FLIR针对DSA的公共中间表示层与 AscendNPU IR昇腾MLIR能力表达层的深度适配在昇腾上取得了里程碑式的落地成果。这不仅是一次技术层面的成功对接更是国内AI开源生态与底层硬件深度融合的重要一步。现在开发者可以下载 FlagTree 体验 Triton-TLE 的高效编程范式在昇腾平台上获得高性能算子开发体验。从“高效率”到“高性能”FlagTree推出三层渐近式编程语言Triton-TLETriton-TLETriton Language Extensions是 FlagTree 对 Triton 语言提供的扩展能力针对不同专业度开发者采用三层渐进式架构设计。TLE-Lite是对 Triton 的轻量级扩展所有特性兼容各类硬件后端仅需对原有 Triton kernels 少量修改即可拿到大幅性能提升。主要面向算法工程师和快速性能优化场景。TLE-Struct按硬件的架构聚类抽象分类如 GPGPU、DSA提供扩展满足进一步性能优化的需求。需要开发人员对目标硬件的特性和优化技巧有一定了解。TLE-Raw提供对硬件最直接的控制可以使用硬件厂商的原生编程语言获取最极致的性能。需要开发人员对目标硬件的深入了解主要面向性能优化专家。其中 TLE-Lite 和 TLE-Struct 会通过 FLIR 最终 Lowering 到 LLVM IR而 TLE-Raw 则通过语言对应的编译管线如厂商的私有编译器Lowering 到 LLVM IR。最后它们会被 Link 到一起共同生成一个完整的 kernel 供 Runtime 加载和执行。打通“任督二脉”AscendNPU IR扮演关键桥梁如果说 FlagTree 与 Triton-TLE 的结合是上层建筑的创新那么 AscendNPU IR 的底层支撑则是这一切得以在昇腾硬件上高效运行的地基。AscendNPU IRAscendNPU Intermediate Representation是基于 MLIRMulti-Level Intermediate Representation构建的面向昇腾亲和算子编译时使用的中间表示为生态框架提供面向昇腾的统一编译接入层和硬件完备表达优化能力释放硬件算力。 AscendNPU IR 提供了多级方言高层抽象 HFusion Dialect 屏蔽昇腾计算、搬运、同步指令细节具备 tensor 及表达能力。硬件抽象 HIVM Dialect 实现了昇腾硬件的抽象资源管理提供了细粒度的控制能力自动面向昇腾优化。FlagTree 中的 FLIR 则承担着 Triton-TLE 编译降级并对接到 AscendNPU IR 的工作同时注册了一批二元算数算子的转换规则将 tle.dsa.op 降级为 HIVM 方言的向量算子。例如 tle.dsa.copy 接口经过一系列的转换 pass将 GM 到 UB 的数据搬移降级为 memref::CopyOp将 GM-L1 的数据搬移降级为 hivm::ND2NZOp。Triton-TLE FlagTree 通过 AscendNPU IR 的接入是昇腾 CANN 生态 “分层解耦、开源开放、灵活扩展”的一次成功践行。通过该 IR 层的开放能力验证了其在快速接纳不同的AI编程框架上的灵活性与低适配成本。这种开放策略也使得 FlagOS 社区能够更高效地利用昇腾底层算力共同构建开放共赢的 AI 开发生态。基于兼具高性能与高效率、灵活可定制的接入方式开发者既能享受 Tensor 级别的高阶抽象带来的快速开发红利也能在性能瓶颈处调用细粒度指令集进行深度优化。这种分层机制使得 FlagTree 编译的算子既能快速落地又能通过定制化优化释放昇腾硬件的极致算力。Triton-TLE FlagTree 与 AscendNPU IR 的深度融合不是技术栈的简单连接而是构建繁荣 AI 生态的坚实一步。它展示了国内AI框架与底层硬件协同创新的巨大潜力。我们相信随着 AscendNPU IR 的进一步发展以及 FlagOS 社区与昇腾生态的持续共建开发者将获得更强大、更易用的工具链。未来我们将继续推动前沿技术创新降低AI应用门槛与广大开发者一起在昇腾算力平台上探索无限可能。AscendNPU IR开源仓地址https://gitcode.com/Ascend/AscendNPU-IR众智FlagOS社区地址https://github.com/flagos-ai/FlagTree/tree/triton_v3.5.x欢迎广大开发者前往体验共同参与这场开放与创新的技术变革关于众智FlagOS社区为解决不同 AI 芯片大规模落地应用北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。FlagOS 是一款专为异构 AI 芯片打造的开源、统一系统软件栈支持 AI 模型一次开发即可无缝移植至各类硬件平台大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目致力于构建「模型-系统-芯片」三层贯通的开放技术生态通过“一次开发跨芯迁移”释放硬件计算潜力打破不同芯片软件栈之间生态隔离。官网https://flagos.ioGitHub 项目地址https://github.com/flagos-aiGitCode 项目地址https://gitcode.com/flagos-ai

更多文章

前端开发 2026/6/1 6:10:07

PTN网络运维避坑指南：从OAM配置到故障定位，这5个常见错误别再犯了

PTN网络运维实战：5个高频错误解析与优化策略凌晨三点，运维中心的警报声划破寂静——核心环网的视频业务出现大面积卡顿。值班工程师快速检查了所有设备状态，却找不到明显故障点。这种场景在PTN网络运维中并不罕见，往往源于某些容…

如何快速掌握网页时光机：新手终极指南【免费下载链接】wayback-machine-webextension A web browser extension for Chrome, Firefox, Edge, and Safari 14. 项目地址: https://gitcode.com/gh_mirrors/wa/wayback-machine-webextension 你是否曾经遇到过重…

张开发

前端开发 2026/5/27 14:44:08

Qwen3字幕生成效果展示：毫秒级时间轴对齐，SRT文件完美适配剪辑软件

Qwen3字幕生成效果展示：毫秒级时间轴对齐，SRT文件完美适配剪辑软件 1. 效果亮点与核心价值想象一下，你刚完成一段精彩的视频录制，现在需要为它添加字幕。传统方法是什么？要么手动听打，一句一句暂停、打字…

张开发

AscendNPU IR和众智FlagOS新语言Triton-TLE深度适配，通过FlagTree编译器接入昇腾，为高性能算子开发提供新路径

最新文章

从芯片制造到电路设计：为什么CMOS工艺偏爱P型衬底？聊聊背后的历史与技术选择

【GraalVM静态镜像内存优化终极指南】：20年JVM专家亲授，从启动内存暴增300%到稳定＜25MB的7大实战压测技巧

TVA技术在洗煤车间检测中的场景适配与工艺优化

别只当数据搬运工了！深入STM32H7的DMA FIFO与突发传输，提升你的系统带宽（内存位宽不匹配怎么办）

大数据应用开发赛项备赛指南：从零开始掌握电商与工业互联网数据集处理

别再全局改MyBatis-Plus的maxLimit了！3.4版本后这样按需突破分页限制更安全

推荐文章

相关文章

分享文章

更多文章

PTN网络运维避坑指南：从OAM配置到故障定位，这5个常见错误别再犯了

Llama-3.2V-11B-cot 企业级知识库增强：结合本地文档的视觉问答系统

5分钟掌握vxe-table插件开发：从零构建你的自定义表格功能

深入Navicat的AES加密机制：手写Python代码还原其密钥生成与加解密流程

如何从零开始组装高性能Voron 2.4 CoreXY 3D打印机：新手完整指南

技术评测：基于 ARCADE 数据集对比 Grounding DINO、YOLO 与 DINO 在血管狭窄检测中的性能差异与适用场景

5分钟掌握Win11Debloat：Windows系统优化终极指南

高效日志分析利器：glogg跨平台日志查看器完整教程

Python实战：5分钟搞定动态WOFF字体反爬，以某采购网为例（附完整代码）

别再死记硬背微命令表了！手把手带你用Logisim仿真软件，从零搭建一个能跑起来的累加器

如何快速掌握网页时光机：新手终极指南

Qwen3字幕生成效果展示：毫秒级时间轴对齐，SRT文件完美适配剪辑软件