报名 | 联邦学习入门第4课:基于Kubernetes构建FATE联邦学习环境

3 月 17 日,机器之心联合微众银行开设的公开课《联邦学习 FATE 入门与应用实战》第三讲结课,微众银行人工智能部算法研究员谭明超为我们分享了《联邦学习 FATE 算法模块梳理及建模演示》。

3 月 19 日(本周四),我们将迎来本系列公开课的第 4 讲,详情如下:

公开课第4讲(附 Live Demo)

课程主题:使用 KubeFATE 部署生产环境的联邦学习 Kubernetes 集群

课程时间:3 月 19 日 20:00 主题讲解+在线答疑+Live Demo

讲师简介:彭麟,Layne Peng,现任 VMware CTO 办公室资深研究员。之前在 Dell EMC CTO 办公室工作超过 7 年,负责云计算相关领域前沿研究,也曾在某互联网金融公司负责基础设施部门,有丰富的一线实践经验。热爱开源技术,参与了 OpenStack, Kubenetes, Docker 等开源项目,并在 OpenStack Summit, Apache Big Data Conference, LinuxCon 等会议发表过相关演讲。

课程摘要:Kubernetes 是目前最流行的机器学习调度平台,我们推荐基于 Kubernetes 构建 FATE 的联邦学习生产环境。KubeFATE 是我们推出的 FATE 部署工具,可以通过一行命令在 Kubernetes 上从 0 部署一个生产级别的 FATE 集群,支持 FATE 的按模块部署,多 FATE 集群管理,实现重启、删除、升级等功能。另外,KubeFATE 还提供了 RestAPI,可以进行集群管理的二次开发,以及跨网络的多方部署等高级需求。

Live demo:使用 KubeFATE 在 Kubernetes 上从 0 部署一个多方 FATE 集群,并且进行集群的简单管理。

课前准备:请预先了解 Kubernetes 的基本概念及操作,提前熟悉 MiniKube 及 KubeFATE。

第2课精选问答

在每期课程的 QA 环节中,有一些问题被广泛提到并且很有价值,所以我们进行了精选与编辑,供大家参考。以下为第2课问答精选(第2课主题为快速部署FATE开发环境):

1)「toy_example」跑不通原因是什么?

因为 FATE 的架构比较复杂,加上系统和网络不稳定性等客观原因,一遍下来某些步骤有不可控的小问题。这些问题可以逐步去排除,但是我们推荐比较简单的方法是可以重新跑一遍或几遍。如果还是不行那就定位是否是指令集不支持的问题,详情请参考我们 kubeFATE 在 github 上的 wiki。

2)Exchange 也负责模型聚合吗,还是只负责建立底层通信?

它是不负责模型聚合的,只负责通讯。

3)目标机和部署机有什么区别?

我们前面说 KubeFATE 的使用其实分为两个部分,一个部分是生成启动集群的配置文件。另外一个部分就是运行的 FATE 集群。部署机就是生成配置文件的机器,目标机是运行集群的机器。部署机和目标机只是一个逻辑上的划分,他们实际上可以是同一台服务器。

4)每个 party 都是有自己的 k8s 集群么?

其实取决于你是哪种部署方式,如果是 docker-compose 的话,你就不需要有 k8s 集群了。

5)这些 party 里有分中心机构和参与机构吗?

没有严格的区分,一个 party 即可以做分享数据的中心机构,也可以做参与机构,这取决于训练的具体内容。

6)如何实现分布式训练?

分布式训练由 EggRoll 模块提供支持,它向上提供了一个 MapReduce 的功能。

7)kubefate 支持容灾吗,节点挂了怎办?

如果是使用 k8s 部署的话,那么容灾其实是依赖于 k8s。节点挂也没关系,k8s 会帮你重新起一个。

8)一个 party 有多个用户吗?

一个 party 可以有多服务多个用户,这是没问题。

    THE END
    喜欢就支持一下吧
    点赞11 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容