CANN/asc-devkit矩阵乘法分块结构体-港品优选

TCubeTiling结构体

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言，原生支持C和C++标准规范，主要由类库和语言扩展层构成，提供多层级API，满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

TCubeTiling结构体包含Matmul Tiling切分算法的相关参数，被传递给Matmul Kernel侧，用于Matmul的切块、搬运和计算过程等。TCubeTiling结构体的参数说明见表1。

表1TCubeTiling结构说明

多数情况下，用户通过调用GetTiling接口获取TCubeTiling结构体，具体流程请参考使用说明。如果用户自定义TCubeTiling参数，各个参数的取值需要满足表1和表2中的对应参数的约束条件。如果用户通过调用GetTiling接口获取TCubeTiling结构体后，需要修改调整Tiling，请参考如下TCubeTiling参数约束和性能调优推荐取值，进行参数的设置。

TCubeTiling参数约束
一组合法的TCubeTiling参数需要同时满足表2中的所有约束条件。若Matmul对象的MatmulConfig模板为MDL模板，除表2外，还同时需要满足表3 MDL模板补充约束条件。
表2TCubeTiling约束条件
| 约束条件 | 说明 | | --- | --- | | usedCoreNum <= aiCoreCnt | 使用核数小于等于当前AI处理器的最大核数 | | baseM * baseK * sizeof(A_type) * dbL0A< l0a_size | A矩阵base块不超过l0a buffer大小 | | baseN * baseK * sizeof(B_type) * dbL0B < l0b_size | B矩阵base块不超过l0b buffer大小 | | baseM * baseN * sizeof(l0c_type) * dbL0C < l0c_size，其中l0c_type为int32_t或者float数据类型。 | C矩阵base块不超过l0c buffer大小 | | baseN * sizeof(Bias_type) < biasT_size | Bias的base块不超过BiasTable buffer大小 | | stepM * stepKa * db = depthA1

db这里表示为左矩阵MTE2是否开启double buffer，即L1是否开启double buffer，取值1（不开启double buffer）或2（开启double buffer） | depthA1的取值与stepM * stepKa * db相同 | | stepN * stepKb * db = depthB1

db这里表示为右矩阵MTE2是否开启double buffer，即L1是否开启double buffer，取值1（不开启double buffer）或2（开启double buffer） | depthB1的取值与stepN * stepKb * db相同 | | 对于A矩阵在L1上的缓存块大小AL1Size、B矩阵在L1上的缓存块大小BL1Size必须满足：
无bias场景：AL1Size + BL1Size <= L1_size

有bias场景：AL1Size + BL1Size + baseN * sizeof(Bias_type) <= L1_size

其中，AL1Size、BL1Size的计算方式如下：
转置场景：
AL1Size = CeilDiv(baseM, C0_size) * baseK * depthA1 * sizeof(A_type)
BL1Size = baseN * baseK * depthB1 * sizeof(B_type)

非转置场景：
AL1Size = baseM * baseK * depthA1 * sizeof(A_type)
BL1Size = CeilDiv(baseN, C0_size)* baseK * depthB1 * sizeof(B_type) | A矩阵、B矩阵和Bias在L1缓存块满足L1 buffer大小限制；

注意：float数据类型的C0_size为8，half/bfloat16_t数据类型的C0_size为16，int8_t/fp8_e4m3fn_t/fp8_e5m2_t/hifloat8_t数据类型的C0_size为32，int4b_t/fp4x2_e2m1_t/fp4x2_e1m2_t数据类型的C0_size为64。 | | baseM * baseK, baseK * baseN和baseM * baseN按照NZ格式的分形对齐 | A矩阵、B矩阵、C矩阵的base块需要满足对齐约束：
baseM和baseN需要以16个元素对齐；A矩阵非转置且B矩阵转置场景，baseK需要以C0_size对齐；其余场景（A矩阵转置或B矩阵非转置场景），baseK以16个元素对齐；

注意：float/int32_t数据类型的C0_size为8，half/bfloat16_t数据类型的C0_size为16，int8_t/fp8_e4m3fn_t/fp8_e5m2_t/hifloat8_t数据类型的C0_size为32，int4b_t/fp4x2_e2m1_t/fp4x2_e1m2_t数据类型的C0_size为64。 | | MxMatmul场景，如果A与B矩阵的位置同时为GM，对singleCoreK没有特殊限制，在这种情况下，若scaleA和scaleB的K方向大小（即Ceil(singleCoreK, 32)）为奇数，用户需自行在scaleA和scaleB的K方向补0至偶数；对于其它A、B矩阵逻辑位置的组合情况，即A与B矩阵的位置不同时为GM，singleCoreK以32个元素向上对齐后的数值必须是32的偶数倍；

输入数据类型为fp4x2_e2m1_t/fp4x2_e1m2_t时，内轴必须为偶数。 | scaleA/scaleB的数据类型是fp8_e8m0_t，K方向必须2字节连续，scaleA/scaleB的K方向是A/B矩阵K的1/32；A与B矩阵的位置不同时为GM时，singleCoreK以32个元素向上对齐后的数值，必须是32的偶数倍。

在MxMatmul场景，输入数据类型为fp4x2_e2m1_t/fp4x2_e1m2_t，计算时的最小单元为8字节，需要将2个4字节的元素拼成一个8字节进行计算，内轴必须为偶数。 |
表3MDL模板补充约束条件
| 约束条件 | 说明 | | --- | --- | | Ka不全载时，即Ka / baseK > stepKa，stepM = 1 | K方向非全载时，M方向只能逐块搬运 | | Kb不全载时，即Kb / baseK > stepKb，stepN = 1 | K方向非全载时，N方向只能逐块搬运 | | kaStepIter_ % kbStepIter_ = 0或者kbStepIter_ % kaStepIter_ = 0

kaStepIter_ = CeilDiv(tiling_->singleCoreK_, tiling_->baseK * tiling_->stepKa)

kbStepIter_ = CeilDiv(tiling_->singleCoreK_, tiling_->baseK * tiling_->stepKb) | MDL模板K方向循环搬运要求Ka和Kb方向迭代次数为倍数关系

kaStepIter_：Ka方向循环搬运迭代次数

kbStepIter_：Kb方向循环搬运迭代次数 |
性能调优推荐取值
根据Tiling调优经验，部分TCubeTiling参数值或取值方式推荐如下：

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析

TCubeTiling结构体

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

TCubeTiling结构体

热门文章

文章分类

标签云

相关文章

Perlite高亮功能：代码语法着色的实现原理

如何轻松备份微信聊天记录：WeChatMsg数据永久保存完整指南

Disnake开发常见问题与解决方案：从调试到性能优化的完整指南

需要专业的网站建设服务？