上篇讲了AI ISP为什么要在Bayer Raw域做降噪、为什么深度学习能解决传统算法无法逾越的噪声/信号分离问题。两条线索汇在一起,指向同一个命题:这些理论怎么变成一颗能跑在摄像头上、能在暗光下输出彩色画面、每帧不超过66毫秒的芯片。这篇我们从芯片工程的角度,把这颗GK7206V1拆开看。
一、一颗芯片的工程约束
学术论文里的降噪网络,GPU服务器上跑,单帧推理几百毫秒不是问题,参数量几百兆也不是事。但IPC芯片面对的,是完全不在一个维度上的约束体系。
算力池。 GK7206V1的NPU总算力1.0T@INT8,降噪和检测共享这一池。AI_NR如果吃掉0.8T,检测模型就无算力可用——降噪不能把AI检测的活路堵死。所以AI_NR的算力消耗是硬线:0.5T,不多不少[1]。
实时性。 视频流不是单帧照片。4M@15fps意味着每帧只有66ms。降噪只是Pipeline的一环——后面还有3DNR、WDR、Demosaic、编码。AI_NR的单帧推理必须控制在30-40ms以内,超了就堵死全链路[2]。
模型轻量化。 U-Net在端侧NPU上推理延迟破百毫秒,直接部署不现实。但小模型从头训练数据又不够。解法是"大模型蒸馏+小模型微调":Teacher在云端用海量数据学会噪声分布,将知识浓缩后教给Student,Student再用目标Sensor的少量数据微调,继承大模型能力但体积极小[2]。
Sensor适配。 不同Sensor噪声分布不同,换Sensor等于换噪声。如果AI_NR出厂固化,每次换Sensor就得回原厂重训——脱离实际供应链节奏。工具链必须开放可复现,让客户独立走完全流程[1]。
功耗。 GK7206V1在AOV模式下整板42mW@2Mp/1fps。关键不在芯片本身——传统方案夜间强制开红外补光灯,补光灯功耗往往数倍于芯片。AI_NR做到无补光灯彩色输出,夜间功耗不升反降[1]。
二、GK7206V1的AI ISP架构
搞清楚了工程约束,再看GK7206V1的芯片架构设计,每一步都是对上述约束的精准回应。
NPU分工:并行,不是分时。 1.0T的NPU被设计成两个并行通道:AI_NR固定占用约0.5T,支持4M@15fps实时降噪;剩余约0.5T并行运行人形检测、人脸识别等推理任务。两路任务同时跑,夜间彩色降噪和AI检测互不阻塞——这是NPU底层调度逻辑就设计好的,不是在应用层做时间片轮转[1][2]。
五档模型:画质与帧率的平衡。 AI_NR提供五档网络规格(2M_3g到8M_19g),按Sensor分辨率就近选择。模型越大降噪越强,但推理耗时也越高——不是选最大就行,而是在画质天花板和帧率地板之间找自己产品的平衡点[2]。
六阶段部署链路。 ①噪声标定:标定五个高-泊参数,采集全黑FPN,DPC必须关。②数据预处理:Teacher蒸馏生成Noisy-Clean训练对。③浮点微调:Student两阶段训练,60+ epoch。④INT8量化:量化后再微调10+ epoch,适应精度损失。⑤推理验证:量化输出与浮点不得有肉眼差异。⑥TVM编译:导出.xmm部署。六阶段每步有验证,让Sensor适配从"依赖原厂"变成"自己走完"[2]。
ISP Pipeline全貌。 芯片内部数据流:Sensor → AI_NR(Bayer Raw域深度降噪)→ 3DNR(时域降噪)→ WDR(双帧宽动态)→ LDC(畸变校正)→ Demosaic(色彩重建)→ 3A → 编码输出。AI_NR排在第一站——信号最干净的阶段上最强手段,后续硬件ISP模块面对的都是已被清理过的数据。传统ISP是Demosaic在前、降噪在后——先扩散噪声再收拾残局。GK7206V1反过来,而且不是用规则滤波,是用深度学习网络在NPU上跑实时推理[1]。
三、黑光全彩:AI_NR的实战数据
架构再好,最终要用数据说话。黑光全彩是检验AI ISP能力的最极端考场。
环境照度0.0001 Lux——比晴朗无月星空的"星光级"(约0.001 Lux)还暗一个数量级。在这个照度下,Sensor接收到的光子数已经逼近读出噪声的量级。传统ISP的输出基本上只剩下噪声,必须切换到红外模式、打开红外LED补光灯,才能勉强辨认画面内容——代价是失去色彩信息,输出变成黑白。
AI_NR在GK7206V1上的实测数据:0.5T算力驱动,4M分辨率@15fps实时处理。信噪比提升8dB以上。8dB是一个什么概念?每3dB意味着噪声功率减半,8dB换算过来,噪声能量被压到了原来的约六分之一。这不是"噪点少了一点"的微调,是噪声从"填满画面"到"几乎不可见"的量级跃迁。在0.0001 Lux的极暗环境下,AI_NR输出的是彩色画面——不需要红外补光灯[1][2]。
这是一个三重收益。第一层:省了红外LED灯珠的BOM成本。第二层:省了补光灯的持续功耗——前文说过,补光灯往往是夜间最大的暗耗。第三层:设备实现了真正的"隐蔽"——不发光、不亮红灯,对于需要隐蔽部署的场景来说,这是结构性的优势。
更重要的是,AI_NR只吃掉了0.5T的NPU算力。剩下的0.5T可以并行跑人形检测、车辆识别等AI推理——夜间彩色画面和AI检测同时在线。这不是"开了一个就得关另一个"的排班制,而是两条线并发。0.0001 Lux下,摄像头不仅"看到彩色",还能"认出是谁"——这在传统ISP架构下需要两颗芯片配合才能做到的事情,在GK7206V1上单芯片完成。
四、不止暗光:AI ISP作为画质操作系统
如果把AI_NR只理解成"暗光增强功能",就严重低估了它的架构意义。
2F-WDR处理逆光——隧道口、黄昏逆光、夜间车灯直射,长曝光+短曝光双帧合成,防止亮处过曝和暗处死黑。3DNR利用帧间时域信息做视频降噪——单帧降噪后偶尔残留的随机噪点,在多帧间趋于平滑。LDC校正广角镜头的桶形畸变——门铃和全景监控的刚需,图像几何校正后AI检测的准确率直接受益。这些模块和AI_NR共享同一个NPU计算引擎——它们不是各自独立的孤岛功能,而是同一套算力资源在不同场景下按需调度的不同功能面。AI ISP真正的定位不是"夜间增强",而是整条ISP管线的画质操作系统——它决定了每一帧画面在每一个像素级别上被如何处理[1][2]。
GK7206V1的这套AI ISP能力,最终通过ShiMetaPi Pico-G1开发板落地。这块72×21mm的板卡集成了芯片的全部核心能力——AI_NR黑光全彩、1.0T NPU并行计算、完整ISP管线、H.265硬编码。SDK内置sample程序和8个已训练的AI检测模型,面向安防厂商、方案商和个人开发者[1]。
AI ISP从一篇论文里"Bayer Raw域处理效果更好"的结论,到一片芯片上以0.5T跑通4M@15fps的工程实现——中间的算力约束、实时性约束、模型轻量化、Sensor适配、功耗控制,每一条都不是学术论文会讨论的问题,但每一条都是芯片必须解决、而且必须在硅片层面解决好的问题。
GK7206V1交出的答卷是:用0.5T留0.5T,用66毫秒的窗口跑通30-40毫秒的推理,用六阶段工具链让Sensor适配不再依赖原厂,用深度学习降噪让补光灯变成可选项。这不是"论文验证了一个方向",而是"这个方向做进了一颗量产芯片"。
-----
参考资料:
[1] ShiMeta-Pico-G1芯片与硬件平台介绍文档,ShiMeta官方产品文档
[2] AI降噪(AI_NR)技术文档,ShiMeta官方技术文档