菜单

项目简介 分布式内容方案实施会01-29北京 课题整体启动会04-23北京 项目启动会05-18北京 项目季度会06-30线上 项目例会07-30线上 项目季度会10-24惠州 项目负责人会议11-13线上 项目例会11-30线上 项目年度会01-14线上 课题三进展讨论会01-20线上 课题间接口对接协调会01-30 线上 项目中期检查预备会03-19 线上 项目中期检查会05-06 线上 项目例会06-30 线上 项目例会07-31 线上 项目中期接口对接会09-04 线上 项目例会09-30 线上 项目例会10-31 线上 项目例会11-30 线上 项目例会暨年度会议12-30 线上 项目例会03-02线上 项目测试方案研讨会04-04深圳 课题一 课题二 课题三 课题四 课题五 成果展示 国际影响 开放交流

面向大规模分布式人工智能应用的关键网络技术研究

国家重点研发计划项目

科技部重点项目

执行期限:2020年11月至2023年10月

项目编号: 2020YFB1805500

项目牵头承担单位:北京邮电大学深圳研究院

  项目针对大规模分布式人工智能系统海量数据和模型同步等为网络带来的压力, 拟通过面向大规模分布式人工智能应用的关键网络技术研究,解决分布式机器学 习中数据隐私与通信效率难兼顾、跨域计算资源与网络资源难协同、数据处理能 力与网络传输效率难提升等关键技术问题,在分布式机器学习技术的国际标准制定、 国产自主知识产权的 RDMA 智能网卡、面向新型网络拓扑的 FPGA 池化技术等 方面取得突破,摆脱卡脖子隐忧,服务于国家自主创新战略。

项目主要研究内容、技术路线及课题设置如下:

  课题一、面向网络感知的大规模分布式机器学习机理:针对网络中日益增长的人 工智能应用导致分布式机器学习带来的网络吞吐率下降和隐私保护需求,以联邦 学习为切入点,首先研究支持大规模分布式机器学习的网络互联拓扑,然后构建 面向参数分发网络优化的数据并行与模型并行机器学习架构,最后设计支持数据 与模型混合计算的机器学习算法,从而提升典型机器学习任务的整体吞吐率。 课题二、面向分布式机器学习的边缘网络协同技术:针对边缘网络能力有限、协 同不足导致的分布式机器学习效率低下问题,对跨广域网分布式边缘智能网络展 开研究,提出面向分布式机器学习的计算/网络资源联合优化调度方法,并进行边 缘网络可靠性分析,以实现大规模分布式人工智能应用所需算力的协同供应。 课题三、跨域网络的低时延传输技术:针对分布式机器学习应用导致的边缘网络 数据爆炸以及传输时延过长等问题,以新一代智能网卡加速架构和低延时传输技 术为突破点,重点攻克面向广域/局域的不依赖链路层 PFC 机制的无损高效 RDMA 传送技术,并结合数据分级、流量灵活调度等技术,实现分布式机器学习流量传 输时延的大幅度降低。 课题四、意图驱动的路由控制与负载均衡:针对分布式机器学习呈现的泛在性、 移动性需求,首先研究基于可编程控制技术的数据采集方法,然后基于意图驱动 的网络演进思想,研究意图驱动的分布式机器学习数据接入控制和路由控制,最 后设计大规模分布式机器学习网络的负载均衡机制,提升控制器的识别精度和控 第4页/共88页 制能力,进而提高分布式机器学习的网络吞吐率。 课题五、分布式机器学习加速技术与实验验证:针对激增的分布式机器学习需求 和计算节点的异构性导致的效率低下问题,研究面向 CPU、GPU、FPGA 等异构计算 节点的网络优化调度,提出基于流优先级调度的网络级分布式机器学习加速技术, 重点攻克面向新型网络拓扑的 FPGA 加速器技术,提升分布式机器学习效率,并面 向典型应用展开实验验证。

预期成果与指标完全覆盖指南要求,主要包括:

  提出面向分布式机器学习优化的 新型网络拓扑,相比传统的 Fat-Tree 网络拓扑,在支持相同数量计算节点和不增 加网络成本的前提下,分布式机器学习的网络吞吐率提升 100%以上;提出支持全 网优先级流调度以及数据与模型混合并行的分布式机器学习网络同步算法,相比 TensorFlow 2.0 版本,在相同硬件环境下,典型机器学习任务的整体吞吐率提升 100%以上;提出支持分布式机器学习的不依赖链路层 PFC 机制的无损高效 RDMA 传送技术,80%负载下相比现有传输协议,分布式机器学习的平均流完成时间减少 50%以上,95%尾部流完成时间减少 80%以上;在 100G 网络的相同硬件环境下,相 对传统传送协议,典型机器学习任务的整体吞吐率提升 200%以上;提出基于数据 隐私保护的联合学习框架,跨广域网的流量开销减少 50%以上;提交标准 10 项、 发表论文 24 篇、申请专利 30 项。 项目汇聚了北邮、粤通院、浪潮、烽火、微众银行等十家优势单位,拥有 3 个国 家重点实验室,在联邦学习、网络智能化、智能网卡、AI 服务器等方向拥有深厚 研究基础,部分领域在国内处于领先地位。

联系人

 北京邮电大学深圳研究院 李书滇

 邮箱:821533071@qq.com

版权所有

© 面向大规模分布式人工智能应用的网络关键技术研究项目组