第108章 晶片
沈一鸣入职的第三天,张磊把一份晶片调研报告甩在了左城桌上。
“城哥,调研报告出来了,情况不太乐观。“张磊拉了把椅子坐下来,“国產ai晶片主要就两家能看,寒武纪和地平线。寒武纪的mlu270算力不错,峰值算力达到128 tops,但功耗偏高,十五瓦往上走。地平线的旭日3功耗控制得好,只有两瓦,但算力只有5 tops,跑不了大模型。“
左城翻著报告,眉头越皱越紧。
“进口的呢?“
“英伟达的jetson nano,算力和功耗都比较均衡,但一颗晶片的採购价是国產的三倍。而且现在贸易摩擦升级,供应链不稳定,万一哪天被卡脖子就麻烦了。“张磊敲了敲桌面,“城哥,我的建议是短期用国產,长期想办法自研。“
“自研?“左城抬起头,“我们做ai晶片,你有把握?“
“不是现在做。“张磊说,“方泽和我討论过,ai晶片的核心是架构设计,不是製造。设计我们可以做,流片代工就行。关键是架构,这东西需要算法和硬体深度耦合,我们正好有算法团队和硬体团队。“
左城沉默了一会儿。自研ai晶片是一条漫长而烧钱的路,但如果不做,402的ai业务就永远受制於晶片供应商。
“先把短期的方案定下来。“左城说,“边缘ai推理场景用寒武纪的mlu270,功耗虽然高一点但算力够用。联邦学习场景用地平线的旭日3,功耗低適合大规模部署。高端训练场景先用英伟达,同时和寒武纪谈定製方案。“
“行,我去跟进採购。对了,寒武纪那边说可以提供一批工程样片先让我们测试,不收费。“张磊站起来,又想起什么,“方泽说寒武纪那边有个人想见你。他们正在找垂直场景的合作伙伴做晶片验证,听说我们物联网平台上跑著ai,很感兴趣。“
“约个时间。“左城说。
张磊走后,左城打开系统面板,翻到ai枝干的叶片列表。
模型压缩优化。这枚叶片的能力是將ai模型在保持精度的前提下大幅压缩体积,让大模型可以跑在资源受限的边缘设备上。如果模型压缩做到极致,寒武纪的mlu270就能跑本该需要英伟达高端晶片才能跑的模型,功耗还能降下来。
左城想到这里,叫来了沈一鸣。
“一鸣,你之前在论文里提到的自適应压缩率,和系统面板里这枚模型压缩优化的思路能不能结合?“
沈一鸣刚入职三天,还在熟悉402的技术栈,听到左城的问题愣了一下:“模型压缩优化?你是指通用的模型压缩技术?“
左城意识到自己差点说漏嘴,赶紧改口:“我的意思是,你的自適应压缩率算法,和业界主流的模型压缩技术能不能做更深度的结合?比如知识蒸馏加量化加你的自適应压缩,三管齐下。“
沈一鸣思考了一会儿,推了推眼镜,眼睛亮了:“理论上可以。知识蒸馏把大模型的知识转移到小模型,量化降低精度要求,自適应压缩动態调整通信和计算量。三条路径叠加,压缩比可能做到五十倍以上。但如果三条路径深度耦合,还能更进一步,因为量化和蒸馏的损失可以在自適应压缩中被补偿。“
“五十倍?“左城的心跳加速了。
“保守估计。“沈一鸣拿过左城桌上的白板笔,在旁边的小白板上画了一个流程图,“你看,传统的做法是三步串行,蒸馏完了再量化,量化完了再压缩,每一步的误差会累积。但如果把三步並行,让蒸馏的损失函数包含量化约束,量化的参数空间由自適应压缩来搜索,误差就不会累积,反而可以互相补偿。“
本章未完,点击下一页继续阅读。