根据雷锋的一份报告。今年10月,由novumind自主研发的第一款asic芯片novutensor成功发布。这款ai推理芯片是专门为卷积神经网络设计的,计算能力为15个运算,功耗仅为5 W,可以以裸芯片或者pci-e短卡(174mm)的形式提供,配有兼容linux的开发软件工具,运行时支持和c++ api。
【/h/】同时,novumind自主搭建了大型分布式深度学习培训平台novustar,可以提供专业的人工智能培训模式。其定制的“模型+芯片”全栈解决方案可以将novutensor应用于从嵌入式到云的各种应用场景。
今年11月,novumind入选第19届ee时报 硅 60榜单。这份榜单被誉为全球新兴半导体公司的金榜,也被称为“全球最受关注的60家半导体公司”。其中,15家公司锁定在ai领域,比2017年的6家公司增长150%。这无疑表明,ai的全球浪潮不仅没有减弱,反而显示了市场和技术的发展趋势。
既然ai芯片公司这么多,那novumind和它的novutensor芯片有什么区别?雷锋。与novumind创始人兼首席执行官吴仁博士进行了详细的讨论。
真正的异构计算,不走寻常路
“AI的关键能力其实也就那么几个,比如看、听、感觉其他信号的能力。”在与我们的交流中,吴仁首先澄清了对ai计算的认识。“将其中一项功能融入解决方案已经成为可能。其实在通用性方面并没有降低太多。人脸识别,车辆识别等。虽然应用程序看起来不同,但它只是芯片的一个模型。”
他指出,在最终应用中,平台不是正确的想法。novumind追求终极优化和最高能耗比,平台意味着性能降低。在这种追求的驱使下,novumind选择了一种与其他芯片制造商完全不同的方法:放弃传统的二维矩阵运算。
矩阵乘法是目前大多数ai加速器最重要的目标算法,但novumind认为ai计算的重点是卷积,即三维张量的计算。如果我们不敢为了全局考虑而放弃二维甚至一维的计算方法,就会约束将计算性能推向极端的可能性。
“行业内有专业化,有些计算显然可以由cpu来完成。为什么要占用深度学习的计算能力?”
novutensor芯片架构支持原生3*3张量计算,只处理3D深度神经网络计算,可以最有效地进行局部逐层计算。由于该架构不需要一次取一个完整的张量,只需要取一个子张量,因此大大降低了内存访问负担,同时也提高了能耗比。它在神经网络等人工智能相关计算中的性能远远高于其他常见架构,包括传统的gpu架构。
【/h/】除了独特的架构设计,novutensor还创造了动态半精度浮点数计算,相比标准半精度浮点数精度损失小,但可以大大节省硬件成本。与传统的混合计算类似,novumind也认为人工智能计算对计算精度有一定的容忍度,所以在一些非关键的地方使用较低的精度不会造成最终精度的损失。
吴仁特别介绍,传统的混合计算是一种有些计算使用整数计算,有些计算使用浮点计算的方式。整数计算和浮点计算通常基于独立的计算单元,所以进行浮点计算时整数计算单元是空闲的。这种闲置不仅造成芯片面积的浪费,还会造成闲置晶体管的静态漏电,对功耗产生影响。
“Novutensor的动态半精度浮点数计算的优点是可以用同一个计算单元同时做不同精度的计算,是一个统一的计算,所以在硬件和功耗效率上更高效。”
【/h/】2018年10月,novutensor芯片的设计获得美国专利。该专利充分展示了novumind在芯片设计领域的独特架构设计。
计算能力的暴力美学
novutensor的主要市场是edge server/edge computing power,可以为自主驾驶、机器人、智能相机、消费电子、智能家居(如ar/vr应用等)提供计算能力支持。)通过提供嵌入式模块和边缘计算盒,具有强大的计算能力要求。
这样的边缘应用场景一方面对计算能力要求较高,需要接近云服务器的计算能力(>:10个点),另一方面对处理延迟和可靠性要求较高。目前市场上主流的解决方案是gpu。然而,由于其自然的体系结构,其在低延迟应用中的效率并不高,并且其在低延迟下的计算能力往往仅达到峰值计算能力的十分之一。
novutensor独特的架构在对延迟有严格要求的场景中具有独特的优势,例如边缘计算。雷锋。com了解到,在低延迟(批处理
由于很多应用需要使用深度较深的神经网络模型,novumind还训练了更适合硬件加速的resnet-70。其精度接近resnet-101,但硬件执行效率比resnet-101高很多。当novutensor进行半精度计算时,resnet-70的帧率也可以达到450fps。与gpu相比,帧率也达到了2倍(半精度)/1.5倍(int8),能耗比提高了4倍(半精度)/3倍(int8)。
在这一代28nm novutensor芯片成功之后,下一代芯片将能够利用架构的优势,通过设计迭代进入更多市场。据吴仁介绍,novumind已经在计划下一代芯片。16nm芯片的预期规格是26w功耗和240tops计算能力,能耗在9 TOPS/W左右;7nm芯片功耗0.15w,计算能力4倍,能耗比27tops左右..
据报道,由于半导体技术更加先进,能耗比大大提高,相应的应用也在架构上得到优化。240t芯片主要针对服务器等对计算能力要求较高的场景,因此相应优化了内存访问和计算流水线,而4t芯片主要针对超低功耗市场,针对超低功耗场景的算法也相应优化。
大到小的转换
novutensor目前定位于边缘计算视觉领域。据雷锋说。几乎没有公司同时关注云计算芯片和边缘计算芯片。我们已经习惯了这种市场现象,但还是很好奇。设计小芯片和大芯片的技术重点和难点有什么区别?
关于这一点,吴仁首先澄清了他对边缘计算的理解是指一系列必须在数据端附近计算,由于延迟、可靠性和安全性的要求而无法传输到云端的应用。其实这不仅仅包括终端(比如手机、智能音箱)的小芯片,还包括无人驾驶、智能零售等领域的高计算能力的大芯片。无论是大芯片还是小芯片,都要求在边缘计算中以极低的延迟实现高吞吐量。
“从大芯片和小芯片来看,技术差距并不是不可逾越的。更大的区别在于商业模式。”他说因为小芯片对成本比较敏感,希望整个系统的芯片越少越好。所以芯片通常做成soc,包含很多模块,ai只是其中一个特点。所以最合理的商业模式是ai芯片公司给soc厂商提供ip,soc厂商自己集成到soc中。
然而,大芯片市场可以接受独立的ai芯片,因为对性能的需求超过了对成本的关注。对于大芯片市场来说,卖芯片或者芯片模块是一种合理的商业模式。因此,我们很少看到同时销售大芯片和小芯片的公司,因为更合理的模式是在小芯片市场销售大芯片并提供知识产权许可服务。
吴仁向我们揭示了novutensor可以有多种形式。未来,novumind可以提供集成多个novutensor芯片的加速卡,以满足数据中心服务器的计算能力要求。在移动通信、物联网等对功耗要求较高的市场,novumind还提供了novu张量核心ip授权的“轻量版”,从而为智能物联网提供人工智能计算加速。
Postscript:芯片背后的物理世界
长期以来,作者对芯片计算的具体物理过程非常好奇。按照作者的理解,芯片计算的本质是将信息由无序变为有序,这是一个消耗能量的非自发熵减过程。
对话结束,作者问了吴仁博士以下几个略超的问题:
1。芯片以纯电阻电路的形式浪费了多少能量,在信息处理过程中实际使用了多少有效能量?
2。多少能量相当于最终处理的信息,在处理过程中损失了多少能量?
3。芯片处理信息的能量利用率和大脑有什么差距,未来的神经模拟芯片会是什么样的?
【/h/】吴仁和身边的牛人商量后快速回复,详细说明了在芯片计算方面的具体情况。
【/h/】他首先说目前基于晶体管的计算实际上离信息熵降低的能量下限还很远。理论上,传输/计算1比特信息所需的能量为ktln2,在常温下约为10-21焦耳,而实际芯片晶体管中一次加法计算(归一化为1比特)所需的能量约为10-14焦耳,比下限高7个数量级。存储器访问数据传输所需的能量被归一化为1比特,约为10-11焦耳,比下限高10个数量级。
这样,即使简单的加法计算也能得到结果,目前需要的能量比理论下限高7~10个数量级。如果是复杂的算法,能耗会比理论下限高很多。
“特别是目前基于神经网络的人工智能的特点是计算复杂(比如一个基本的resnet-18需要1010次左右的计算操作),所以我们估计计算消耗的能量比熵增需要的能量高20个数量级左右。”对于novumind涉及的ai芯片领域,他并没有回避缺点。“从另一个角度来看,在整个计算系统中,内存访问消耗的能量大约是计算的1000倍,这就是我们想要优化硬件架构的原因。将尽可能多的数据留在芯片上,以减少内存访问。”
总之,它远远没有达到信息熵降低的能耗下限,而人类芯片技术取得了巨大的进步空,这并不奇怪。
然后,吴仁解释了神经模拟芯片的问题。由于非冯诺依曼架构,神经模拟芯片可以减少内存访问,提高能耗率。然而,人脑的工作机制在科学界仍知之甚少,神经模拟芯片仍处于相对初级的阶段。目前,复杂神经模拟网络的训练仍然非常困难,只能做一些简单的任务。
“预计未来5~10年,传统ai芯片和神经模拟芯片将是互补关系。神经模拟芯片可以在超低功耗终端中实现相对简单和快速响应的计算处理,而更复杂的计算仍将放入传统的人工智能芯片中。”吴仁最后总结道。
标题:[商业信息]专访吴韧:一发入魂的AI芯片是如何炼成的
地址:http://www.baoduan3.com.cn/sy/4801.html