imgboxbg

凯发k8一触即发

凯发vip|女王信息|OpenAI久违发了篇「正经」论文:线性布局实现高效张量计

【概要描述】——凯发k8一触即发电气

凯发vip|女王信息|OpenAI久违发了篇「正经」论文:线性布局实现高效张量计

【概要描述】——凯发k8一触即发电气

详情

 

 

凯发vip|女王信息|OpenAI久违发了篇「正经」论文:线性布局实现高效张量计

 

                                                                                        

 

  如果你看到了一份来自 OpenAI 的新 PDF 文件★✿★,那多半也是新模型的系统卡或相关增补文件或基准测试★✿★,很少有新的研究论文★✿★。

  至于原因嘛★✿★,让该公司自家的 ChatGPT 来说吧★✿★:「截至目前★✿★,OpenAI 在 2025 年在 arXiv 上公开发布的论文数量相对较少★✿★,可能反映了其对研究成果公开策略的谨慎态度★✿★,可能出于商业保密或安全考虑★✿★。」

  不过近日★✿★,OpenAI 也确实发布了一份完全由自己人参与的凯发vip★✿★、实打实的研究论文★✿★,其中提出了一种用于高效张量映射的统一代数框架Linear Layouts凯发k8国际官网登录★✿★。这是一种使用二元线性代数而非比特表示(bit representation)的张量布局的通用代数形式★✿★,解决了 Triton 等深度学习编译器中长期存在的难题★✿★。

  简单来说★✿★:张量布局 = 逻辑张量与硬件资源(例如内存凯发k8国际首页登录★✿★。★✿★、线程★✿★、向量单元)之间的映射关系★✿★。下图给出了两个布局示例★✿★。

  需要根据实际需求设计★✿★,而且往往是硬编码的(需要手动编写规则)★✿★。不可扩展(每一对布局都需要二次组合)★✿★。容易出错★✿★,尤其是在像 Triton 这样的低层级的后端中 —— 截至目前★✿★,Triton 的 GitHub 库中提交的 12% 的 Bug 与布局有关★✿★。

  例如★✿★,为了实现高效的矩阵乘法★✿★,英伟达在 Ampere★✿★、Hopper 和 Blackwell 等不同代际的 GPU 上采用了不同的使用 Tensor Core 的布局★✿★,并且每种布局在使用不同数据类型时都有不同的变体★✿★。AMD 和英特尔等其它 GPU 供应商在利用其类似 Tensor Core 的技术进行加速时★✿★,也使用了不同的布局★✿★。因此★✿★,硬件架构的快速发展和多样化的深度学习模型需要一种新的张量布局建模方法★✿★。

  在将张量映射到硬件资源方面★✿★,需要一种通用且可组合的表示方法★✿★。布局转换应该用统一的形式来表达★✿★,甚至需要包含诸如数据交换(data swizzling)等复杂变换凯发vip凯发vip★✿★。这种表示必须与低级硬件优化无缝集成★✿★,以确保高效的数据访问和计算★✿★。

  其关键执行单元包括协作线程阵列 (CTA)★✿★、Warp 和线程★✿★。每个 GPU 线程都可以访问私有寄存器 —— 这些寄存器提供最低延迟的存储空间★✿★,但容量有限★✿★。常规指令可以由各个线程独立执行★✿★。然而★✿★,某些特殊功能单元必须在更高的粒度级别上执行★✿★。

  例如★✿★,英伟达的 mma(矩阵乘法累加)指令利用 Tensor Core 的方式是并行执行由各个 Warp 发出的多个乘加运算★✿★。而 wgmma(Warp 组矩阵乘法累加)等高级变体则是通过在多个 Warp 上同时执行矩阵乘法而对这些功能进行了扩展★✿★。AMD 也引入了类似的原语★✿★,例如 mfma(矩阵融合乘加)指令★✿★。

  请注意★✿★,这些指令要求数据分布在线程和 Warp 之间★✿★,或者以特殊布局驻留在共享内存或特殊内存单元(例如 Blackwell 上的 Tensor Memory)中★✿★,才能产生正确的结果★✿★。

  然而★✿★,这些布局通常不会为加载 / 存储等其他操作带来最佳性能★✿★,而且并非总是可以使用特定指令将数据直接从全局内存复制到特殊内存单元★✿★。

  Triton 是一种类似于 Python 的用于特定领域的语言★✿★,其设计目标是提供用于编写高性能深度学习原语的灵活接口★✿★。Triton 的编译器后端使用了 MLIR★✿★,支持多层次抽象表达★✿★。

  究其核心★✿★,Triton 内核遵循单程序多数据 (SPMD) 模型★✿★,其中计算被划分为多个抽象的 Triton 程序实例发电★✿★,★✿★。这种设计允许开发者主要关注 CTA 级别的并行性即可★✿★。在 Triton 中★✿★,「张量」一词指的是从原始 PyTorch 张量中提取的块★✿★,它们用作 GPU 核的输入和输出★✿★。

  在编译过程中★✿★,Triton 的 Python 代码首先被翻译成 Triton 方言 (tt)★✿★,然后进一步翻译成 TritonGPU 方言 (ttg)★✿★。在此过程中★✿★,每个张量都与特定的布局相关联★✿★,以充分利用现代 GPU 上可用的硬件功能单元★✿★。例如女王信息★✿★,当遇到 dot 类算子(例如 tt.dot 和 tt.dot_scaled)时★✿★,会采用 mma 布局并使用 Tensor Core 和类似的单元★✿★。

  在最高层级★✿★,布局分为分布式(Distributed)布局和内存((Memory)布局★✿★。前者是指张量元素分布在不同的执行单元中女王信息女王信息★✿★,而后者是指张量元素存储在特定的特殊内存中★✿★。

  Blocked 布局通常用于连续的内存访问★✿★。MMA 和 MMA 输入布局用于矩阵乘法运算(例如 tt.dot)的输出和输入★✿★。MMA 布局可以根据其映射到的硬件指令进一步分类凯发vip★✿★,例如英伟达 GPU 上的 mma 和 wgmma★✿★,或 AMD GPU 上的 mfma★✿★。Sliced 布局是从其父布局中提取一个维度★✿★,用作广播或某个归约运算的输出★✿★。

  传统 Triton 布局系统要求每个布局定义自己的接口方法★✿★,例如每个线程的元素数量和连续元素的数量★✿★。此外★✿★,必须为每个布局显式实现对张量元素的索引以及布局之间的转换★✿★。这种方法导致布局构造和转换常出现 bug★✿★。

  下面将简单介绍线性布局的定义★✿★、一些基本的线性布局算子★✿★、创建各种 Triton 布局以作为线性布局实例★✿★,以及应用于 Triton 的通用布局引擎★✿★。

  此外女王信息★✿★,在 Triton 的编程模型中★✿★,张量的维度以及与每个张量相关的布局子部分(例如每个线程的寄存器和线 中女王信息★✿★,布局 A 有一个 16 × 16 的张量★✿★,其使用了多个 2 × 2 的寄存器★✿★、4 × 8 的线 的 Warp★✿★。

  由于这些量都是 2 的幂★✿★,因此使用其坐标的比特表示★✿★,可以直观地可视化布局 A 中元素的分布(如图 1 所示)★✿★。所有线) 都位于坐标 (, )★✿★,其中 和 的最后几位(bit)均为 0★✿★。例如★✿★,线 元素的坐标中★✿★, 的最后一位始终为 0★✿★,而 的最后一位始终为 1★✿★。例如★✿★,_9 的 _1 位于 (2, 3) = (010, 011)★✿★。

  此外★✿★,对于任何偶数线程 _★✿★, 的最后一位与 _0 中 的倒数第二位匹配★✿★, 的倒数第二位与 _0 中 的倒数第三位匹配★✿★。例如★✿★,_10 = _01010 的 _0 位于 (2, 4) = (010, 0100)★✿★。这种系统性对齐持续存在★✿★,表明二次幂结构足以清晰地决定了每个线程元素的分布★✿★。

  综上所述★✿★,假设一个大小为 8 的向量 表示一个 Warp 中线程的一个元素★✿★,其中前 2 位表示寄存器 (Reg)★✿★,接下来的 5 位表示线程 (Thr)★✿★,最后一位则表示 Warp (Wrp)★✿★,则可以如此定义布局 ★✿★:

  对线性布局的更详细完备性说明请访问原论文凯发vip★✿★,其中涉及到说明分块布局★✿★、mma 和 wgmma 的输入和输出布局女王信息★✿★、线性布局的 slice★✿★、每个分布式布局★✿★、MMA swizzled 布局★✿★、内存布局都是线性布局★✿★。另外★✿★,OpenAI 也在 Triton 说明了如何实现布局转换以及形状操作★✿★。

  不仅如此★✿★,OpenAI 表示★✿★,线性布局为在语言前端和编译器后端开发算法提供了结构化的基础★✿★。他们也在论文中给出了一些关键示例★✿★,这里就不过多展开★✿★。接下来简单看看新提出的线性布局的实际表现凯发k8国际官网★✿★。★✿★。

  Triton 使用传统的数据布局★✿★,不支持任意分布式布局的实用程序或它们之间的转换★✿★,因此容易出现 bug★✿★。Triton 未采用论文中描述的优化代码生成★✿★。例如★✿★,布局转换始终通过共享内存进行★✿★,对高效硬件原语的使用有限★✿★。

  为了比较 Triton 和 Triton-Linear 的性能★✿★,该团队构建了一些合成微基准来进行测试★✿★,这方面的结果请访问原论文查看★✿★。这里仅看看它们在实际基准测试中表现★✿★。

  由于每个基准测试包含多个输入★✿★,总计 420 个案例★✿★,因此他们使用了误差线(error bars)来表示每个基准测试的最小和最大加速★✿★。

  需要注意的是★✿★,由于硬件限制★✿★,并非所有基准测试都适用于每个平台★✿★。例如★✿★,某些基准测试需要仅在 GH200 上才有的大型共享内存★✿★,而一些核使用的张量描述符依赖于 TMA 引擎★✿★,而 RTX4090 和 MI250 上均不支持 TMA 引擎★✿★。

  可以观察到★✿★,高效的硬件原语(例如 ldmatrix 和 stmatrix)在这些核中被广泛用于布局转换以及共享内存的加载和存储操作★✿★。值得注意的是★✿★,layer_norm 实现了从 0.99 倍到 1.57 倍的加速 —— 在不同形状之间表现出了显著差异★✿★。对于某些输入形状★✿★,Triton-Linear 能够检测「等效」布局之间的转换★✿★,从而将转换过程降低为 no-op(无操作)★✿★。这种优化在旧版布局系统中无法实现★✿★,因为它无法直接比较不同类型的布局(例如★✿★,Blocked 布局和 Sliced 布局)★✿★。

  在 RTX4090 上★✿★,新方法实现了 1.00 倍到 1.51 倍的加速★✿★。由于 mma (RTX4090) 和 wgmma (GH200) 指令之间的差异★✿★,他们在 template_attention 上实现了更高的加速★✿★。在本例中★✿★,tt.dot 运算的左操作数在循环外部定义★✿★,会重复从同一地址加载数据★✿★,因此 ldmatrix 和常规共享内存指令均可实现高吞吐量★✿★。虽然右操作数在每次迭代中都会更新★✿★,但 wgmma 会直接在共享内存中访问它★✿★,只有在 RTX4090 上凯发vip★✿★,经过优化后★✿★,它才会被降级到 ldmatrix 中★✿★。因此★✿★,在 GH200 上实现的加速相对较低凯发vip★✿★。在 MI250 上★✿★,新方法实现了 0.98 倍到 1.18 倍的加速★✿★。

  05月26日女王信息★✿★,银川铁路物流中心抢运过冬“暖心煤”满足地区用煤需求★✿★,龙8国际官方下载★✿★,大赢家旧版体育★✿★,富国天利★✿★,ag捕鱼王3d内部解密

  05月26日★✿★,网民反映宁夏吴忠一地自来水遭受污染 官方通报★✿★,海立方app★✿★,ca88怎么注册★✿★,e世博体育★✿★,最新的大发平台

  05月26日★✿★,山西忻州求新谋变 城乡融合绘高质量发展新画卷★✿★,od体育网页版★✿★,南拳棋牌★✿★,星速官网★✿★,十六浦线日内蒙古绿电交易总量创中国第一真钱彩网乐享彩票平台网址金沙澳门官网送20元kok官网

  05月26日菜市场“网红”之路★✿★:传统农贸市场如何转型?鸿博体育平台信誉乐橙国际线日粤港澳海关共同构建“粤港澳海关通关资讯平台”现金网址平台救世通天报彩票平台注册登录西部娱乐捕鱼游戏……

  05月26日★✿★,浙江★✿★:用历史文化让美丽城镇更具韵味★✿★,g22恒峰官网★✿★,开云注册彩金★✿★,10BET十博官网中文登录★✿★,安卓手机棋牌

  05月26日中粮集团大悦城控股集团股份有限公司党委书记★✿★、总经理曹荣根接受纪律审查和监察调查刺激战场国际服真人多电玩官网appbg大游视讯app下载旧版足球即时比分

  05月26日★✿★,“祥龙贺岁——颐和园藏龙纹题材文物特展”开幕凯发k8国际首页登录★✿★,★✿★,千亿竞彩官网★✿★,乐鱼彩票官网查询★✿★,白小姐特新刊A★✿★,365体育中文版

  05月26日★✿★,“农科院”食品有多少是真冠名?消费者如何辨别?★✿★,利发下载★✿★,为啥线上德州这么容易输★✿★,tom网站地址k8凯发★✿★,★✿★,bet篮球即时比分

  05月26日★✿★,国家气候中心★✿★:与常年相比★✿★,今年我国北方大部地区入冬时间偏晚1-10天★✿★,皇冠体育网站正规★✿★,冠军集团app下载★✿★,188国际平台怎么样★✿★,买球赛怎么玩

  05月26日辽宁省沈阳市原副市级干部沙波涛被开除党籍f88体育网页版必维体育官网正规好的返水棋牌开云在线%打鱼注册送28元升博体育官网老街华纳公司澳门线上网投平台怎么样

  05月26日【趣解廿四时】立夏“斗蛋” 你童年的夏日游戏是什么?古巴宣布对持普通护照中国公民实施入境免签必博免费试玩网上ag捕鱼有没破解方法博天堂在线买球美高梅mg娱乐

  胡塞武装称制定重要计划打击以色列★✿★,非专业医生为蹭流量胡乱科普时政Vlog丨五星红旗飘扬★✿★,法国开启欢迎模式沙巴体育官网纬来体育网址是多少?万博mantex登陆凯时国际娱乐网站

  大藤沙月4-2逆转张本美和夺冠★✿★,十个勤天推荐的家乡特产全是吃的看图学习丨把邓小平同志开创的事业继续推向前进 总书记提出明确要求fb体育app三亿体育怎么下载ca88开户通天特解图

  《胜利女神★✿★:妮姬》国服过审★✿★,俄罗斯将举行非战略核力量演习以引领伟大社会革命为根本目的凯发娱乐网址在哪找亚新网站是什么365官网体育贝博app体育

  牧神记★✿★, 全红婵陈芋汐10米台巅峰对决AI眼中的中国|春来植新绿★✿★,静待成荫时银河至尊网址皇冠现金网现金老虎机游戏下载杏彩客户端手机版

  银行支持房企白名单风声再起★✿★,樊振东3比1印度选手巴黎奥运会中国队首金获得者盛李豪等被记大功十大网上赌场排名pp电子APP平台下载最大的菠菜app在线电玩城

  分裂 第一季★✿★,天舟七号完成全区合练遇袭半个月后 韩最大在野党党首李在明今起重返党务菲律宾亚星官网注册最新线上平台BOB德甲体育必赢网页版

 

扫二维码用手机看

 Copyright  © 2019 凯发k8一触即发电气集团公司  版权所有      豫ICP备20002114号        郑州    凯发k8一触即发.网址   凯发k8一触即发电气.网址