3 月 17 日,机器之心联合微众银行开设的公开课《联邦学习 FATE 入门与应用实战》第三讲结课,微众银行人工智能部算法研究员谭明超为我们分享了《联邦学习 FATE 算法模块梳理及建模演示》。
3 月 19 日(本周四),我们将迎来本系列公开课的第 4 讲,详情如下:
公开课第4讲(附 Live Demo)
课程主题:使用 KubeFATE 部署生产环境的联邦学习 Kubernetes 集群
课程时间:3 月 19 日 20:00 主题讲解+在线答疑+Live Demo
讲师简介:彭麟,Layne Peng,现任 VMware CTO 办公室资深研究员。之前在 Dell EMC CTO 办公室工作超过 7 年,负责云计算相关领域前沿研究,也曾在某互联网金融公司负责基础设施部门,有丰富的一线实践经验。热爱开源技术,参与了 OpenStack, Kubenetes, Docker 等开源项目,并在 OpenStack Summit, Apache Big Data Conference, LinuxCon 等会议发表过相关演讲。
课程摘要:Kubernetes 是目前最流行的机器学习调度平台,我们推荐基于 Kubernetes 构建 FATE 的联邦学习生产环境。KubeFATE 是我们推出的 FATE 部署工具,可以通过一行命令在 Kubernetes 上从 0 部署一个生产级别的 FATE 集群,支持 FATE 的按模块部署,多 FATE 集群管理,实现重启、删除、升级等功能。另外,KubeFATE 还提供了 RestAPI,可以进行集群管理的二次开发,以及跨网络的多方部署等高级需求。
Live demo:使用 KubeFATE 在 Kubernetes 上从 0 部署一个多方 FATE 集群,并且进行集群的简单管理。
课前准备:请预先了解 Kubernetes 的基本概念及操作,提前熟悉 MiniKube 及 KubeFATE。
第2课精选问答
在每期课程的 QA 环节中,有一些问题被广泛提到并且很有价值,所以我们进行了精选与编辑,供大家参考。以下为第2课问答精选(第2课主题为快速部署FATE开发环境):
1)「toy_example」跑不通原因是什么?
因为 FATE 的架构比较复杂,加上系统和网络不稳定性等客观原因,一遍下来某些步骤有不可控的小问题。这些问题可以逐步去排除,但是我们推荐比较简单的方法是可以重新跑一遍或几遍。如果还是不行那就定位是否是指令集不支持的问题,详情请参考我们 kubeFATE 在 github 上的 wiki。
2)Exchange 也负责模型聚合吗,还是只负责建立底层通信?
它是不负责模型聚合的,只负责通讯。
3)目标机和部署机有什么区别?
我们前面说 KubeFATE 的使用其实分为两个部分,一个部分是生成启动集群的配置文件。另外一个部分就是运行的 FATE 集群。部署机就是生成配置文件的机器,目标机是运行集群的机器。部署机和目标机只是一个逻辑上的划分,他们实际上可以是同一台服务器。
4)每个 party 都是有自己的 k8s 集群么?
其实取决于你是哪种部署方式,如果是 docker-compose 的话,你就不需要有 k8s 集群了。
5)这些 party 里有分中心机构和参与机构吗?
没有严格的区分,一个 party 即可以做分享数据的中心机构,也可以做参与机构,这取决于训练的具体内容。
6)如何实现分布式训练?
分布式训练由 EggRoll 模块提供支持,它向上提供了一个 MapReduce 的功能。
7)kubefate 支持容灾吗,节点挂了怎办?
如果是使用 k8s 部署的话,那么容灾其实是依赖于 k8s。节点挂也没关系,k8s 会帮你重新起一个。
8)一个 party 有多个用户吗?
一个 party 可以有多服务多个用户,这是没问题。
暂无评论内容