AI性能超骁龙855+及麒麟810!紫光展锐虎贲T710如何做到的?
2019年8月27日,紫光展锐在北京召开媒体沟通会,在介绍了此前发布的虎贲t310的一些成果之后,正式发布了新一代的移动平台虎贲t618。与此同时,展锐还正式公布了在ai benchmark排行榜上排名第一的手机芯片——虎贲t710。
虎贲t310从流片到手机量产仅用了3.5个月
今年4月9日,展锐发布了全球首款基于arm dynamiq架构、面向智能手机的四核lte芯片平台——虎贲t310,首次在四核芯片中采用了arm cortex-a75大核,提供了超越普通八核的性能,同时保持了四核的低功耗优势。随后这款芯片也受到了不少手机品牌厂商的青睐。
作为首发虎贲t310的手机品牌厂商,海信在当天活动的现场也展示了基于虎贲t310的手机——海信f30s。同时海信通信公司首席科学家隋立涛也在现场分享了,海信与展锐在f30s项目上的合作。
隋立涛指出,千元机市场竞争激烈,提升产业化竞争力成为关键。展锐虎贲t310首次千元机四核处理器当中引入了cortex-a75大核心,兼顾优异的运算性能和优秀的续航能力,提升了千元机产品用户体验,助力了市场升级。这也是海信看好虎贲t310的关键,因此海信与展锐进行alpha级合作。
“海信是今年2月底拿到的t310的样片,芯片本身的量产时间计划是7月15日。但是当海信与展锐确定alpha级合作后,根据市场需求提出了6月15日手机量产的挑战性目标,这意味着从拿到样片到手机量产只有3个半月的时间。全新平台、展锐首次全网通设计,难度无疑是非常大的。而且这期间还要完成芯片调优、系统稳定、入网认证、运营商认证、批量上市等艰巨任务。但是双方研发团队在f30s项目上无缝配合、快速响应、集中攻关,最终顺利的完成了目标。”隋立涛高兴的表示:“这个开发进度比原计划提前了1个月,并且海信 f30s 手机自上市后表现也非常稳定,这意味着新展锐在质量方面确实进步很大。”
“如果放在以往,一款新的展锐手机芯片从流片到终端手机的量产,经常要比预计的时间要delay一段时间。”紫光展锐市场高级副总裁周晨透露:“虎贲t310之所以能够如此快速的推向市场,主要是自去年以来,展锐内部建立了完整的集成产品开发流程体系(ipd),以及cmmi质量管理体系(这是原先用于软件质量的体系,现状把它引入到整个芯片和解决方案的研发中)。”
此外,为了提升产品的品质,展锐去年底还启动了“火凤凰项目”,即对过去的产品关键架构代码全部重构。“这就好比,原来我们的打的地基只能盖三四层楼的楼房,现在我们想要把楼盖的更高,如果继续用原来的地基,那可能就会有倒塌的危险,所以必须要推倒重来,重新打地基。”周晨形象的比喻到。
周晨坦言:“之前展锐的一些产品确实存在一些质量上的问题,所以这也迫使我们下决心去推倒重来。因为只有这样做,才有长期的质量大幅度提升。而我们将高质量融入展锐的血液中,这也为我们未来能够走的更高更远打下了坚实的基础。”
虎贲t618:影像性能大幅升级
作为比虎贲t310更高一级的全新手机平台,虽然虎贲t618沿用了12nm工艺、arm dynamiq架构,不过其核心数提高到了八核,采用了两个主频2.0ghz的cortex-a75大核,以及六个主频1.8ghz的cortex-a55小核。
根据展锐公布的数据显示,虎贲t618的单核性能相比虎贲t310提高了7%(毕竟虎贲t310也有一个cortex-a75大核),多核性能则大幅提升了98%。
而在gpu方面,虎贲t618采用了性能更强的arm mali g52 mp2。展锐公布的数据也显示,虎贲t618的图形处理能力相比虎贲t310(gpu是imagination powervr g8xxx系列)提升了350%。
不过,cpu和gpu性能方面的提升并不是虎贲t618的最大亮点。在展锐看来,随着智能手机的发展到今天,同质化已经非常的严重,但是用户的需求仍在发展,特别是在“智能化”方面。而智能化需要有足够强的信息获取能力,所以在手机上sensor越来越多,特别是摄像头越来越多,现在三摄已经比较常见了,还有四摄和五摄,这个探索目前看起来是合理的。 而这也对处理器的快速及时的处理器能力提出了更高的要求。
一方面,需要兼顾对于多种不同类型的摄像头sensor的支持,比如广角、超广角、微距、tof、结构光之类的各种组合。同时,为了保证用户的体验,还需要做到零时延拍照。另外,在预览的同时,在多个照相机同时工作的时候,是不是需要重新拼合?摄像头切换的时候,能否平滑过渡?这些都会影响用户体贴。
对此,展锐虎贲t618在提升cpu和gpu性能的同时,大幅加强了拍照方面的能力,引入了一套全新的影像引擎vivimagic 5.0,这是展锐自研的第五代的isp整体解决方案。包含一个全新的3核的isp,全新的图像算法升级的版本,还有创新的ai调试工具,可以为直接客户或者最终用户都能产生价值。
vivimagic 5.0的引入,使得虎贲t618可以支持四摄,包括结构光、tof等各种sensor,还可支持各种各样出图的方式。从硬件角度来讲,三核的isp,加上vision dsp和相关硬件检测单元和降噪单元,已经是非常高的配置。
另外,对于目前多摄方案上存在的固有问题,比如超广角镜头的几何畸变问题,广角镜头存在数码变焦图像不清晰的问题,长焦镜头在变焦时容易出现卡顿、亮度和色彩不一致、视角抖动等问题,三颗摄像头同时工作和切换时还会有延时等问题。
展锐虎贲t618配备了三个独立的isp,也就是说,三个摄像头sensor可以分别有一个独立的isp对接,在拍照时可以三个同时工作,无需硬件切换,可以实现超广角、广角和长焦镜头三路图像数据可实现无延时切换,无缝变焦;利用3a同步,还实现了sensor切换时亮度和颜色的无跳变;利用标定技术,消除了视角抖动。
展锐还利用新一代的多摄图像融合技术大幅提升了拍摄远距离物体的画面清晰度。周晨表示,“这里面的核心难点在于算法,要匹配好,大家知道图像融合有难度,因为fov不同,图片上的点很难完全匹配的,这完全看算法,这是算法团队在这个领域已经做了很多的工作,这是我们的能力和进展。”
此外,展锐还利用超广角镜头去畸变算法,对超广角镜头拍摄的图像进行畸变较正,使得图像更真实,还原度更高;利用动态增强技术,在高动态场景下,保留高亮区域细节,提升按处亮度、对比度及颜色复原。
在利用ai技术提升拍照性能方面,展锐也做了很多的优化。比如在夜景拍摄方面,展锐利用ai自动识别夜景场景,通过3dnr技术,可实现优秀的夜景拍摄。在ai人脸检测、ai人脸解锁、ai人脸美颜、ai单摄人像虚化等方面,对于体验进行了提升。
另外值得一提的是,展锐还首次加入了ai 4d追焦的能力,即在快速移动场景下,准确检测并跟踪拍摄目标,实现持续追踪对焦,拍摄图像更清晰。
除了三核的isp之外,虎贲t618还配备了专用的vision dsp,进一步强化了对于图像的处理器能力,不仅可以减少拍照延迟,降低功耗,同时还能够提供约0.5tops的ai算力,可以更快更好的处理人像分割、智能修图、场景检测等任务。此外,vision dsp还支持ar和slam。
周晨表示:“这颗vision dsp在ai能力上,基本上相当于4个大核cpu的四倍,效率很高。我们会将这颗vision dsp的能力开放给我们的客户,比如海信在摄像上会持续的增加新的能力,有了vision dsp和我们的支持,就会变为可能。”
另外,要想获得最佳的成像效果,摄像头调试通常是手机开发过程中耗时最长的一项工作,经常是手机马上要上市了还在调试,甚至产品上市之后,还在继续调试,推出升级版。这也意味着,一旦摄像头调试效果不佳,那么会直接影响产品的上市时间。而这项工作也给手机厂商带来了较高的成本。
过去手机厂商调试摄像头,通常会拿着样机,拍一系列的场景,不同的物体、亮度、环境、背景,拍一套回去然后再进行参数调整,参数调整一轮之后,再继续出去拍一套。显然,这种方式非常的麻烦,效率并不高。而且,这个调较的结果会因为不同的工程师、不同的时间点、不同的场景,会使得调试可能出现反复,“经常是按下葫芦起了瓢”。
为了帮助客户大幅提升图像调试效率,展锐首度向客户提供了pitt工具套件。周晨表示:“我们在给客户提供足够好的质量的同时,也会帮助客户调图,快速调出好的图,这次我们还提供了pitt工具套件,这个套件首次把ai的能力用了进去,客户只需要一次性把一套场景图拍回来,剩下的事情只需通过调试工具,自动把原始的图反复的放进去,以后做相应的调试。它的优势在于:1、完全的硬件仿真,可以实时查看调整参数后的效果;2、raw数据可以重复用。图片什么地方调的不好,调整参数再迭代进来的时候,不会因为样张本身输入的变化,导致对新调试参数额外的影响;3、自适应调试。工程师想要什么效果,可以那一张最佳的图作为参照,pitt工具可针对目标图片自动生成一套最接近这个效果的最优参数。显然,这将极大的缩短迭代的时间,提升效率。”
根据展锐公布的数据显示,利用pitt工具套件可以使得调试周期从8轮下降到3轮(每轮2人一周时间),效率大幅提升了63%。
虎贲t710:最强手机ai芯片
早在今年7月底的时候,苏黎世联邦理工学院ai benchmark公布了最新的主流ai芯片的测试榜单,令人意外的是,紫光展锐尚未发布的虎贲t710赫然跃居榜首,总分达到了28097分,远远超过了高通新发布的骁龙855 plus(高出了逾3544分)和华为麒麟810。
根据ai-benchmark的数据显示,展锐虎贲t710基于四颗主频2ghz的cortex-a75核心+四颗1.8ghz的cortex-a55核心,gpu未知,在ai方面则是集成了独立的npu内核,支持运行fp16、int8、int4等多种数据位宽的ai算法。
那么虎贲t710的ai性能为何如此之强呢?关键还是在于其首次搭载了展锐自研的异构双核npu。
从手机soc对于ai运算的演进来看,从最开始的利用cpu/gpu来进行ai计算,到后面同时利用cpu/gpu/dsp来进行ai计算,dsp的ai计算效率要远高于cpu/gpu。2017年,华为的麒麟970和苹果a11首次在手机soc当中加入了专用的人工智能计算内核——单核的npu。2018年,华为的麒麟980和苹果的a12又都开始集成了双核的npu内核,主要是大小核搭配的双核npu,但是它还是同构的,小核是大核的“裁减版”,小核的频率低一点或者性能低一点,当然功耗也低一些,类似现在的cpu的大小核组合。
不过周晨认为,在目前ai领域,同构双核npu并不太合适。为什么这么说呢?
从ai近几年的快速发展来看,目前在图像类(比如人脸识别)的应用上,已经有了相对成熟的神经网络模型,可以采用8bit定点量化的方式大幅的减少计算代价。但是,在其他一些应用领域,神经网络模型仍在快速的演进,比如语音对精度的要求更高,仍没有确定下来什么样的精度模式最适合,因此需要浮点能力,需要采用更为灵活的量化方式(int4、fp16)。除此之外,还有还有很多类似的应用。
而目前的同构的双核npu,更多针对的是已经相对成熟的神经网络模型来进行固化,以实现更高效的计算。但是,在灵活性上就要相对较差。
对此,展锐选择了在npu架构上进行创新,首次采用了异构双核npu架构。其中一个npu是针对已经相对成熟的图像类的神经网络,采用了固化的方式来做更高效的实现。而另一个npu则采用了完全不同的架构,更适合于浮点运算,在灵活性和兼容性上更高,可以适应更多不同类型的应用场景。也就是说,这个异构双核npu会根据不同的模型选择最适合的npu内核来进行计算,可以实现“择善而用、动态调度、高效协同”。
那么展锐t710的异构双核npu到底有多强呢?其实前面的ai benchmark的跑分就已经说明了一定的问题。不过,在此次媒体沟通会上,展锐公布的更多的相关数据。
根据展锐公布的数据显示,虎贲t710集成的异构双核npu的算力达到了4tops,能效比 ≥ 2.5tops/w。
从展锐公布的srcnn去模糊测试数据来看,展锐虎贲t710的srcnn fp16表现与竞品相近,但是在srcnn int8的表现上要比其他三个竞品要更为出色。而在vgg-19超分测试数据上,虎贲t710的vgg-19 fpf16表现优于竞品一和竞品二,略低于竞品三,但是在vgg-19 int8的表现上要远高于其他竞品。
为了释放虎贲t710在ai方面的能力,其不仅完整的支持目前最主流的android nn以及后续版本,同时还针对开发者提供了展锐自研的api——uniai,以及自研的sdk,如果客户想做原生应用,可以基于uniai研发,可以非常高效的跑,不用考虑兼容性的问题。此外,虎贲t710还支持多种ai训练框架, 如tensorflow、tensorflow lite、caffe等。支持多种ai模型量化方式,包括int4、int8、int16和fp16等。
其他配置方面,虎贲t710基于12nm工艺,4颗2.0ghz的arm cortex-a75及4颗1.8ghz的arm cortex-a55,搭载主频800mhz 的img powervr gm 9446 图形处理器。除了cpu、gpu、异构双核npu之外,虎贲t710包含了isp、vdsp等处理单元,整合了4k@30fps编解码,802.11ac,bt 5.0等功能。
需要指出的是,虎贲t710目前只是一款ap,并没有集成4g基带,因为其定位就是“高性能边缘计算平台”。据展锐透露,“t710已经被一些重要的客户采用,研发相应的高性能边缘计算产品平台,它的能力完完全全可以支撑这样的计算,比如针对医疗行业的应用,在仪器上拍完图片,图片传输到t710,t710快速给出诊断结果,此类行业应用会非常多。”另外,后续展锐会推出虎贲t710+5g基带的产品。