课题名称
分布式机器学习加速技术与实验验证
课题编号
2020YFB1805505
经费预算
412.00 万元
课题简介
课题针对激增的分布式机器学习需求和计算节点的异构性导致的效率低下问题,
研究面向 CPU、GPU、FPGA 等异构计算节点的网络优化调度,提出基于流优先级
调度的网络级分布式机器学习加速技术,重点攻克面向新型网络拓扑的 FPGA 加
速器技术,提升分布式机器学习效率,并面向典型应用展开实验验证。
课题负责人
阚宏伟
承担单位
广东浪潮智慧计算技术有限公司
参与单位
数字广东网络建设有限公司 (邓颂清)
课题进展
基于重点研发计划的研究内容,阚宏伟、王尚广提出下一代分布式异构加速研究方向和技术路线,
包括软硬件全栈云编程平台、 xPU/FPGA over Ethernet、自主iRDMA、分布式xPU计算架构,
目标是实现以传统CPU为中心向xPU+CPU双擎计算架构转变,构建异构加速新生态。
课题组召开学术研讨会,开展北邮网络与交换技术国家重点实验室大讲堂做专题学术报告交流活动,
会后受邀与多家GPU公司交流,并与清华国际创新中心、沐曦,成立《 先进计算架构联合实验室》,
致力于下一代颠覆性分布式GPGPU计算架构研究。
论文发表
Hongwei Kan, Rui Hao, Jiangwei Wang, Guoqiang Mei, Dongdong Su, Songqing Deng, HLS based ultra-low latency FAST protocol decoder,
Proceedings of the 5th International Conference on Computer Science and Application Engineering(CSAE2021)
Yanwei Wang, Cheng Huang, Jiaheng Fan, Le Yang, Hongwei Kan, Gaoming Cao, Research on High Performance Transmission Technology of DC Based on Network Awareness,
Proceedings of the 5th International Conference on Computer Science and Application Engineering (CSAE2021)
Cheng Huang, Yanwei Wang, Jiaheng Fan, Le Yang, Junkai Liu, Hongwei Kan, Research on DC Network Transmission Handover Technology Based on User Mode Sharing,
Proceedings of the 5th International Conference on Computer Science and Application Engineering (CSAE2021)
专利申请
樊嘉恒,王彦伟,阚宏伟.一种数据传输方法、装置、设备及存储介质.
申请(专利)号:202110866023.0
张静东,王媛丽,王江为,阚宏伟.数据处理方法、FPGA加速卡及计算机可读存储介质.
申请(专利)号:202111112236.0