王联辉:Spark在腾讯TDW的实战

原标题:王联辉:Spark在腾讯TDW的实战

2015年4月16-18日,由CSDN主办、CSDN专家顾问团支持的 OpenCloud 2015大会将在北京国家会议中心拉开帷幕。为期三天的大会,以推进行业应用中的云计算核心技术发展为主旨,聚焦技术创新与应用实践,设置了“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会”三大技术峰会及多场深度行业实战培训。

本次大会将邀请近40位国内外云计算技术领域顶尖专家与一线实践者,深入讨论OpenStack、Spark、Docker、Kubernetes等开源技术的最新进展,各个核心项目/组件的演进趋势,以及它们的最新业界应用。

在“2015 Spark技术峰会”,我们请到了腾讯高级工程师王联辉担任演讲嘉宾, 他将带来的分享主题为《腾讯在Spark上的应用与实践优化》,主要将会介绍TDW-Spark平台的实践情况,以及平台上部分典型的Spark应用案例及其效果,然后分享腾讯在Spark大规模实践应用过程中遇到的一些问题,以及如何解决和优化这些问题,使得Spark在腾讯的应用实践中取得显著的效果。

王联辉表示,早在2013年腾讯就开始使用Spark实现了广告模型的实时训练和更新,并在广告推荐业务上取得显著的效果。而在2014年,更将原有涉及迭代计算、图计算、DAG-MapReduce和HiveSql等多种计算任务利用Spark来实现,并且取得了良好的性能和应用效果。

王联辉

腾讯高级工程师

目前就职于腾讯数据平台部,担任高级工程师,主要负责腾讯TDW-Spark平台的研发和运营工作。从2009年开始从事Hadoop和大数据生态系统相关的工作,经历过Hadoop集群大规模的演变和扩张,对Hadoop、Hive、HBase、Yarn、Spark等开源项目有丰富的实践经验。2013年开始从事Spark平台的研究和使用运营实践,多年以来一直专注于分布式存储和计算等领域。

以下为CSDN针对王联辉的会前采访实录:CSDN:首先请介绍下您自己,以及您在Spark 技术方面所做的工作。

王联辉:目前就职于腾讯数据平台部,担任高级工程师,主要负责腾讯TDW-Spark平台的研发和运营工作。

CSDN:您所在的企业是如何使用Spark 技术的?带来了哪些好处?

王联辉:我们的Spark平台是部署在Gaia(基于YARN进行了大量的优化)资源管理系统之上。在我们的实际应用案例中,发现Spark在性能上比传统的MapReduce计算有较大的提升,特别是迭代计算和DAG的计算任务。

CSDN:您认为Spark 技术最适用于哪些应用场景?

王联辉:具有迭代计算的数据挖掘和图计算应用,以及具有DAG的ETL/SQL计算应用。

CSDN:企业在应用Spark 技术时,需要做哪些改变吗?企业如果想快速应用Spark 应该如何去做?

王联辉:企业需要有了解Spark的工程师,如果想做一些Spark任务的调优工作,还需要对Spark内核有一定了解的工程师。如果想快速应用Spark,企业一方面需要培养或者招聘懂Spark的工程师,另一方面需要在实际应用中去使用和实践Spark。

CSDN:您所在的企业在应用Spark 技术时遇到了哪些问题?是如何解决的?

王联辉:前期我们的业务工程师在Spark的使用和调优上遇到了一些困难,以及Scala的学习上花了一些时间。我们通过实际应用实例给业务工程师指导编写Spark计算任务,使得业务工程师通过一个应用实例学会使用Spark,后续他们可以独立地完成编写Spark业务计算任务的工作。

CSDN:作为当前流行的大数据处理技术,您认为Spark 还有哪些方面需要改进?

王联辉:目前Core部分相对来说已经较稳定和成熟,但是其上面的几个组件如MLlib、SparkSQL、GraphX、Streaming在稳定性或性能上还有优化和改进的空间。另外Spark方面的参考资料比较少以及熟练使用Scala语言的程序员也比较少。

CSDN:您在本次演讲中将分享哪些话题?

王联辉:我会介绍TDW-Spark平台的实践情况,以及平台上部分典型的Spark应用案例及其效果,然后分享我们在Spark大规模实践应用过程中遇到的一些问题,以及我们是如何解决和优化这些问题。

CSDN:哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?

王联辉:想要大规模实践和应用Spark的人,这些话题一方面帮助大家了解目前我们Spark平台上的部分典型应用案例,另一方面帮助大家了解我们在Spark大规模实践应用过程中遇到的一些问题及其解决和优化方法。

除了王联辉,2015 Spark技术峰会已经邀请Spark Streaming负责人Tathagata Das来华,和国内用户分享Spark的技术细节,探讨Spark未来的发展方向,此外还有Databricks、IBM、Intel、微软、百度、阿里、腾讯、亚信等公司的Spark技术实践者,也将同台分享Spark及其相关项目的实战经验。

附:2015 Spark技术峰会全日程(Updating)

“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会”4月17-18日在北京召开。日程全部公开!OpenCloud 2015,懂行的人都在这里!更多讲师和日程信息请关注OpenCloud 2015介绍和官网。返回搜狐,查看更多

责任编辑:

    THE END
    喜欢就支持一下吧
    点赞11 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容