联系人:余浩
所在地:广东深圳市
技术原理
该团队针对边缘智能(AlOT)芯片集成电路设计技术方向,开发在5G边缘端(基站)的下一代低功耗(<1w),高通量(>20fps)深度学习人工智能芯片。除了先进的3D储算融合架构,团队同时在算法上研发自动训练量化及张量压缩算法实现对静态(CNN)动态(RNN)数据具有检测,识别及分割功能的实时智能数据处理,最终可应用于消费类电子(手机,智慧城市,AR/VR,机器人等)实现边缘智能的落地。该团队与广东/深圳龙头企业紧密合作,现已建立了南科大-国际知名ICT下企业先进SoC芯片系统集成联合实验室,南科大-国际知名ICT企业边缘计算人工智能联合实验室。并与国际知名ICT企业深入开展新工科教学,参与教育部-国际知名ICT企业新工科培养计划,并共同建设南科大-国际知名ICT企业AI沃土产学研育人平台,这些都将为本实验室的新应用布局提供坚实的基础与发展潜力。
技术先进性
该团队通过深度学习神经网络的训练量化算法开发,训练量化技术将原始复杂深度学习神经网络(CNN)进行有精度约束的简化后得到轻量级深度学习网络,使得其既能提供有精度保障的图像识别功能,同时又能在硬件上进行高通量低功耗的实现。同时进行深度学习神经网络的张量压缩算法开发,张量压缩技术能显著减少时序深度学习神经网络(RNN)的计算量,得到轻量级深度学习网络,在权衡准确度的基础上使得处理动态图像的速度得到大幅提升。
储算融合芯片
该团队通过研究设计选择合适的FPGA开发板来搭建和数据采集、处理和显示于一体的视频数据处理系统;接下来根据训练好神经网络量化,张量压缩算法化网络实现的硬件,然后根据设计方案进行模块化设计,完成RTL级仿真及综合,实现流片及整个处理系统调试。然后进行CMOS及忆阻器ReRAM的储算融和芯片实现,同样根据设计方案进行模块化设计,实现流片及整个处理系统调试。此储算融合的边缘端人工智能芯片的能耗可以达到传统GPU芯片的万分之一(mW),其通量可以达到GPU(TFLOPS)级别,同时成本也在其百分之一。再者,我们将研究CMOS ReRAM芯片的三维集成。我们将进一步通过CMOS与ReRAM器件的三维集成来进一步实现高通量低功耗的边缘计算芯片。三维集成将进一步提高系统并行度,从而充分体现低值化深度神经网络的优势。
应用市场
该团队与广东/深圳龙头企业紧密合作,现已建立了南科大-国际知名ICT企业先进Soc芯片系统集成联合实验室,南科大-国际知名ICT企业边缘计算人工智能联合实验室。并与国际知名ICT企业深入开展新工科教学,参与教育部-国际知名ICT企业新工科培养计划,并共同建设南科大-国际知名ICT企业AI沃土产学研育人平台,这些都将为本实验室的新应用布局提供坚实的基础与发展潜力。