近日,在2017人工智能計算大會(AICC)上,香港浸會大學副教授褚曉文發表了目前主流深度學習框架評測的主題報告,報告顯示由浪潮牽頭開發的開源項目Caffe-MPI,與其他主流框架相比取得了最佳的加速比,并在GoogLeNet網絡模型中取得最佳性能。
根據報告顯示數據,由浪潮開發的Caffe-MPI 2.0,在4節點16塊P40 GPU的計算集群上,采用Imagenet數據集。采用GoogLeNet模型(Batchsize=128)時,16卡的訓練性能為5886張圖片/秒,較單卡提升14.2倍;采用ResNet模型(Batchsize=32)時16卡訓練性能為1372張圖片/秒,較單卡提升15.34倍,擴展效率高達96%。Caffe-MPI超越了CNTK和MXNet,成為加速比最好的深度學習框架,也是在GoogLeNet模型下性能最好的深度學習框架。
香港浸會大學副教授褚曉文表示,目前在測的所有深度學習框架中,浪潮Caffe-MPI展現出最好的加速比性能,相信對于所有需要將Caffe擴展到多機環境的用戶,浪潮Caffe-MPI將是最好的選擇。
Caffe-MPI 2.0出色的加速比得益于在并行算法設計上的創新突破。Caffe-MPI設計了兩層通信模式:節點內的GPU卡間通信及節點間的RDMA全局通信,通過調用NCCL 2.0實現。這種設計極大降低了網絡通信的壓力,并克服了傳統通信模式中PCIE與網絡之間帶寬不均衡的影響,非常適合現在的高密度GPU服務器。
同時,Caffe-MPI 2.0還設計實現了深層神經網絡模型各層計算和通訊的異步,合并了多層待通信數據然后在到達一定量級時進行通信,有效避免了層內部數據量較小時的通信延遲。此外,Caffe-MPI 2.0還提供了更好的cuDNN兼容性,用戶可以無縫調用最新的cuDNN版本實現更大的性能提升。這些設計細節使得Caffe-MPI 2.0能夠在當前流行的深度學習框架下的集群訓練中,實現近似線性的擴展。
Caffe-MPI是首個集群并行版的Caffe深度學習計算框架,基于伯克利Caffe框架,由浪潮主導開發并已在Github上開源公布所有代碼,其采用成熟的MPI技術對Caffe予以數據并行的優化,目標是解決深度學習計算模型訓練的效率問題。
2017人工智能計算大會(AI Computing Conference簡稱AICC)由中國工程院信息與電子工程學部主辦、浪潮集團承辦,旨是圍繞AI當下需求及未來發展,從計算創新著眼,聯合從事AI計算及應用的公司、用戶、專家、開發者共同打造探討促進AI計算的交流合作平臺,推動AI產業的可持續發展。本次有海內外數十位知名專家圍繞AI計算創新主題進行研討報告,吸引了來自各行業的數千名專業人士參與。