微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文表示:「微软亚洲研究院在人工智能基础研究方面有着 20 年的积累,此次携手国内顶级高校共建新一代人工智能开放科研教育平台,我们的愿景在于进一步将微软的技术优势付诸平台实践,提升中国新一代人工智能领域的研发创新、人才培养、科学研究、社会服务能力。我们希望此次平台成立翻开产学研各界开放共赢的新开篇,并期待更多后续合作高校的加入」
到 2020 年,平台计划开展超过 100 个联合科研项目,开设超过 200 个人工智能课程,帮助 2000 位以上的教师提升专业技能,并为超过 2 万名学生提供实践实训的机会。
四大核心资源&服务
新一代人工智能开放科研教育平台将深度聚焦科研、教学与生态,面向中国高校提供技术支撑平台、工具、数据和课程四大核心资源和服务。支撑平台:在新一代人工智能开放科研教育平台的合作框架下,微软将推出 Open Platform for AI(Open PAI)人工智能管理和调度平台,这是国内首个针对深度学习领域由多方共同开发的开源平台解决方案。合作各方将利用 Open PAI 开放、开源、兼容的特性,以及微软强大的计算能力和资源,建立属于自己的人工智能基础支撑平台,并享有自主产权和创新成果,为各自学校内部提供人工智能领域的创新和教育服务支持工作。
工具:为了帮助平台合作高校更轻松地享受到人工智能领域中间技术层和深入业务的上层应用这两层关键技术能力带来的益处,微软将提供业界第一款针对人工智能全生命周期集成开发的环境——Tools For AI,以及微软在语音、语言、视觉等核心技术范畴内的开源工具。同时,平台还将集成高校在各自领域里的优质开源工具。
数据:在平台合作框架下,微软将开放自身人工智能领域的数据集供合作高校科研和教育使用,各高校也将通过平台贡献各自在多个领域的数据集,如中国科学技术大学国家类脑实验室的海量类脑数据等。
课程:微软将积极整合自身人工智能的技术和专家积累,兼顾实战和知识,开发并开放一套人工智能模块化课程,同时平台还将联合高校专家,共同合作开发一系列具有推广和示范性意义的、符合高校教学理念的人工智能系列课程。平台合作高校也将根据自身学校学科建设和人才培养方案,定制出具有国际化水平的人工智能专业和实践课程。
OpenPAI
微软亚洲研究院为新一代人工智能开放科研教育平台提供的三大关键技术之一,Open Platform for AI(OpenPAI)备受瞩目。OpenPAI 是由微软亚洲研究院和微软(亚洲)互联网工程院联合研发的,支持多种深度学习、机器学习及大数据任务,可提供大规模 GPU 集群调度、集群监控、任务监控、分布式存储等功能。
OpenPAI 的架构如下图所示,用户通过 Web Portal 调用 REST Server 的 API 提交作业(Job)和监控集群,其他第三方工具也可通过该 API 进行任务管理。随后 REST Server 与 Launcher 交互,以执行各种作业,再由 Launcher Server 处理作业请求并将其提交至 Hadoop YARN 进行资源分配与调度。可以看到,OpenPAI 给 YARN 添加了 GPU 支持,使其能将 GPU 作为可计算资源调度,助力深度学习。其中,YARN 负责作业的管理,其他静态资源(下图蓝色方框所示)则由 Kubernetes 进行管理。
OpenPAI 完全基于微服务架构,所有的 OpenPAI 服务和 AI Job 均在容器中运行,这样的设计让 OpenPAI 的部署更加简单,无论是在 Ubuntu 裸机集群还是在云服务器上,仅需运行几个脚本即可完成部署。这同时也使其能够支持多种不同类型的 AI 任务,如 CNTK、TensorFlow、PyTorch 等不同的深度学习框架。此外,用户通过自定义 Job 容器即可支持新的深度学习框架和其他机器学习、大数据等 AI 任务,具有很强的扩展性。
在运维方面,OpenPAI 提供了 AI 任务在线调试、错误报警、日志管理、性能检测等功能,显著降低了 AI 平台的日常运维难度。同时,它还支持 MPI、RDMA 网络,可满足企业对大规模深度学习任务的性能要求。
不仅如此,OpenPAI 还实现了与 Visual Studio 的集成。Visual Studio Tools for AI 是微软 Visual Studio 2017 IDE 的扩展,用户在 Visual Studio 中就可以开发、调试和部署深度学习和 AI 解决方案。集成后,用户在 Visual Studio 中调试好的模型可便捷地部署到 OpenPAI 集群中。
OpenPAI 五大优势
由上文可见 OpenPAI 具有如下五大优势。为深度学习量身定做,可扩展支撑更多 AI 和大数据框架通过创新的 PAI 运行环境支持,几乎所有深度学习框架如 CNTK,TensorFlow, PyTorch 等无需修改即可运行;其基于 Docker 的架构则让用户可以方便地扩展更多 AI 与大数据框架。
容器与微服务化,让 AI 流水线实现 DevOpsOpenPAI 100% 基于微服务架构,让 AI 平台以及开发便于实现 DevOps 的开发运维模式。
支持 GPU 多租,可统筹集群资源调度与服务管理能力在深度学习负载下,GPU 逐渐成为资源调度的一等公民,OpenPAI 提供了针对 GPU 优化的调度算法,丰富的端口管理,支持 Virtual Cluster 多租机制,可通过 Launcher Server 为服务作业的运行保驾护航。
提供丰富的运营、监控、调试功能,降低运维复杂度OpenPAI 为运营人员提供了硬件、服务、作业的多级监控,同时开发者还可以通过日志,ssh 等方便调试作业。
兼容AI开发工具生态平台实现了与 Visual Studio Tools for AI 等开发工具的深度集成,用户可以一站式进行 AI 开发。
入门 OpenPAI
本次会议微软亚洲研究院还为大家提供了 OpenPAI 的入门教程。首先是平台部署:
- 编译支持 GPU 调度的 Hadoop AI 容器,详见https://github.com/Microsoft/pai/blob/master/hadoop-ai/README.md
- 部署 Kubernetes 以及系统服务(如 drivers、zookeeper、REST Server 等)。详见https://github.com/Microsoft/pai/blob/master/pai-management/README.md
- 访问 Web Portal 进行任务提交和集群管理。
- 将你的数据和代码上传至 HDFS:如用 hdfs 命令行将数据上传至hdfs://host:port/path/tensorflow-distributed-jobguid/data
- 准备 Job 配置文件:详见https://github.com/Microsoft/pai/tree/master/job-tutorial
- 浏览 Web Portal,点击"Submit Job"上传配置文件,即可提交你的 Job。
以上就是雷锋网 AI 科技评论对本次 MSRA 承办的新一代人工智能开放科研教育平台启动仪式的全部报道。