2018-09-14

Kneron發布新一代終端人工智慧處理器NPU IP-KDP Series

運算效能大幅提升3倍,最高可達5.8 TOPS

終端人工智慧解決方案領導廠商耐能智慧(Kneron)今日參與在上海舉行的Arm人工智慧開發者全球峰會,以「可重組算法在AI晶片中的應用」為主題發表演說,會中同時發布Kneron新一代終端人工智慧處理器系列NPU IP - KDP Series。Kneron第二代NPU IP包括三大產品,分別為超低功耗版KDP 320、標準版KDP 520、以及高效能版KDP 720。全系列產品的功耗小於0.5瓦(W),採用新的架構設計讓運算更具彈性,整體運算效能相較上一代產品大幅提升達3倍,運算能力(peak throughput)最高可達5.8 TOPS(每秒萬億次運算)(註一)

Kneron創辦人暨執行長劉峻誠表示:「Kneron推出為終端裝置所設計的人工智慧處理器NPU IP後,其超低功耗的優勢受到市場高度關注。Kneron新一代NPU產品在諸多方面都有顯著的突破,基於第一代產品的優勢,我們改善資料運算流程、提升整體運算效能與儲存資源使用率,同時針對不同神經網路模型進行優化,讓NPU可以更廣泛地應用在各種終端裝置,並滿足更複雜的運算需求。」

Kneron NPU IP可應用在智慧手機、智慧家居、智慧安防、以及各種物聯網設備上,讓終端裝置在離線環境下就能運行各種神經網路。Kneron第二代NPU IP採用新的交錯式運算架構(Interleaving computation architecture)設計,縮短運算流程和提升效率;深度壓縮(Deep compression)技術讓壓縮功能從模型層級深入至資料和參數層級,使壓縮率再提升。動態儲存資源配置功能提升儲存資源利用率,卻不影響運算效能。此外,支援更廣泛的卷積神經網路(Convolutional Neural Networks,CNN)模型,並針對各種CNN模型分別進行優化,在不同神經網路模型下,可提升1.5倍~3倍不等的效能。

第二代NPU IP-KDP Series重點技術說明:

交錯式運算架構:交錯式架構讓神經網路架構中主要的卷積(convolution)與池化(pooling)運算可平行進行,以提升整體運算效率。在新的卷積層中,還可同時支援8bits與16bits的定點運算(fixed point),讓運算更有彈性。

深度壓縮技術:不僅能執行模型壓縮,還能對運行中的資料和參數(coefficient)進行壓縮,減少記憶體使用。模型大小可壓縮至50分之一以下,準確度的影響率小於1%。

動態儲存資源配置:讓共享記憶體(Shared memory)和運作記憶體(Operating memory)之間可以進行更有效的資源配置,提升儲存資源利用率的同時卻不影響運算效能。

CNN模型支援優化:支援更廣泛的CNN模型,包括Vgg16、Resnet、GoogleNet、YOLO、Tiny YOLO、Lenet、MobileNet、Densenet等,而且針對不同CNN模型分別進行優化,在不同神經網路模型下,相較上一代產品提升1.5倍~3倍效能。


註一:運算效能會因奈米製程不同而異。5.8 TOPS為KDP720在28奈米製程、600 MHz、8bit fixed points下的效能表現,預測運行功耗在300-500mW (估計每瓦效能為13.17 TOPS/W)。

分享文章