阿里发布NLP和MT自学习平台,还剖析了小蜜平台的NLP技术实践

随着BERT、XLNET等新技术的涌现,深度NLP在语言分析、理解和处理等问题上继续取得突飞猛进的发

随着BERT、XLNET等新技术的涌现,深度NLP在语言分析、理解和处理等问题上继续取得突飞猛进的发展,并为更多行业赋予了智能化能力。阿里云智能NLP平台提供了完整的NLP处理能力,并通过与场景的深度结合,在智能司法、智能医疗、智能客服等领域落地。

9月26日,在云栖大会的NLP专场,围绕阿里小蜜平台的技术布局、典型场景应用,阿里巴巴智能服务事业部资深算法专家陈海青介绍了阿里NLP核心技术及人机交互技术实践,技术挑战及未来。

值得一提的是,阿里达摩院还在此次专题上发布了NLP与MT自学习平台。

阿里小蜜的NLP技术实践

淘宝传统的服务模式是人找人的方式,去年平台平均每天的客服服务是5000万人次,所以自然需要通过机器智能方式解决问题。为此,阿里逐步搭建了小蜜智能交互平台以服务商家及其背后的用户。

陈海青介绍了阿里小蜜平台的三大模式升级:其一是服务模式的升级,从纯人力密集型向智能+人力混合型升级;其二是着力点的升级,从以服务为基础的智能人机交互领域额着力点向平台与多领域升级;其三是生态圈的升级,从阿里巴巴自身领域到二环商家再到企业平台领域的升级。

打开凤凰新闻,查看更多高清图片

随后他展示了阿里小蜜平台的一些应用案例。以店小蜜为例,它可以构建物流场景的通用本体模,也可以构建手机、服饰类目等行业本体模型,此外还有QA匹配模型。

而对企业小蜜,有面向第三方企业、ISV等的智能解决方案,并以智能知识库的方式进行知识收集与积累。

拓展到电话的案例,还有热线小蜜,主要应用于呼入场景的电话客服还有呼出场景的电话回访机器人,陈海青在现场展示了菜鸟语音的交互效果。

NLP技术是这些应用背后的核心支撑技术。他介绍了自然语言处理板块的分层梳理流程,主要包括分层领域的框架设计,基于不同业务场景的意图和模型设计与积累,以及通过模型沉淀框架并进行平台化积累。这一板块做到了四种能力,QA Bot,task bot,predictbot,chit chat。

围绕数据、算法、服务、应用四个层面,他介绍了核心的NLU架构体系。其中包括数据的沉淀以及业务标注的训练平台体系构建;还有基于平台化算法框架的意图识别和实体识别能力搭建;基于规则,降级模型以及深度模型的NLU工程能力平台搭建。

他指出,当前NLU还是以意图识别和实体识别为核心能力。面临的核心挑战是意图的平台化扩展效率和小样本场景的冷启动,就NLU的效率和效果而言,主要涉及的问题是如何构建数据、算法和服务。

他重点简述了NLU的意图识别问题,主要分为文本分类和语义匹配任务。这需要做到迁移性好/扩展性好,新增类别或新增语料,无需重训模型;借助迁移能力,提升小样本场景效果。其次,鲁棒性要高,不容易受噪声样本影响,如类别向量,端到端学习。最后效果要好,统一距离度量空间,如:list-wiseloss, Softmax & Cross Entropy。为此,他们提出了LabelEmbedding的方法,以增强意图识别的鲁棒性。

他还介绍了提出了DeepQA平台,该平台的目标是提效+规模,帮助前台业务先赢,完成中台算法能力沉淀。中台提供各类场景的知识定位能力,支持了小蜜全系列产品,中台为业务运营人员提供业务分析方法论和运营平台,让零算法基础的运营人员可以完成也无需求分析、算法能力选择、算法模型定制和迭代优化。

该平台内置了面向各种场景、各类任务的性能和效果,兼具的算法模型。比如RE2-短文本匹配模型,相比相同效果的模型(CSRAN),在线推理的速度提升8倍。此外,中台通过bert+MTL+distill的流程,盘活各类数据,让bert对线上真实业务产生价值。

演讲最后,陈海清指出,智能服务机器人将以多模态的方式,不仅提供自动服务模式,同时提供更好的人机协同模式,为用户和客服人员提供更复杂问题的解决能力和决策支持能力。而持续探索的技术方向有生成模型、强化模型、迁移学习、机器阅读理解、情感分析等。

阿里发布 NLP与MT自学习平台

NLP自学习平台

大量低算法基础的客户,对文本实体抽取、文本分类、关键短语抽取等算法有定制化需求,需要一个可以低成本、易操作,可私有化输出及持续优化的NLP应用平台。

面向算法基础用户的NLP行业自适应标注、训练和服务平台,用户无需算法背景,仅需标注或上传适量文档数据,即可通过平台获得优质的NLP算法模型。

机器翻译自学习平台

传统的云端AI服务是由算法专家基于多种场景的需求和目标开发,有时不能完全匹配用户需要,但基于自身真实场景优化AI模型对用户的算法能力提出了很高要求。

机器翻译自学习平台为算法“小白”提供了直观、易用、可视化的 AI 优化工具,用户无需拥有丰富的算法背景,仅需上传适量双语文档数据,即可通过平台快速创建算法模型并使用。

目前,已支持中英和英中两个语向的机器翻译定制化算法能力,未来还将上线更多的语向能力支持,让人人都可轻松创建属于自身场景的专属模型。

    THE END
    喜欢就支持一下吧
    点赞11 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容