自然语言对话是网络大数据语义理解的主要挑战之一,被誉为人工智能皇冠上的宝石,而文本数据标注就是这一系列工作中最基础、最重要的环节。自然语言对话系统的研究是希望机器人能够理解人类的自然语言,同时实现个性化的情感表达、知识推理和信息汇总等功能。
文本标注的目标则是帮助机器理解人类的自然语言,通过标注数据中的标签,例如关键字、符号、短语或句子,甚至是隐含的各种情绪,教会机器识别文本中的人类意图或者情感,并促使机器人对人类的情感做出精准定位。
什么是文本数据标注
作为常见数据标注类型之一,文本标注指将文字、符号在内的文本进行标注,让计算机能够读懂识别,从而应用于人类的生产生活领域!
文本数据标注的重要性
在人工智能的三要素数据、算力和算法中,数据相当于AI算法的燃料。简单理解,文本数据标注相当于为“投喂”AI准备“饲料”。机器学习中的监督学习和半监督学习都需要人工标注好的数据进行学习,其训练集、验证集和测试集都是标注过的数据。
当前,虽然有很多公开的语料库可供使用,但对于垂直领域来说,还是需要构建自己的专业语料库后训练模型效果比较理想,也经常会出现自己根据实际业务需求而进行数据标注的情况。
实际上,与图片、语音、视频等其他模态的数据标注相比,文本标注更具有其自身的特点,这也就产生了后续一些十分经典的标注故事。
文本数据标注的类型
文本是最常用的数据类型。70%的公司均离不开文本。文本的数据标注包括各种标注,如情绪、意图、属性、关系、实体、类别和搜索等类型
01命名实体标注实体标注; 实体标注需要将一句话中的实体提取出来,如电视,足球,门等。有时候还需要将划分这句话的类别如音乐,百科,新闻等或者是标注出文本中的动作指令(开门,播放等),许多企业都会在各种应用场景中应用命名实体标注功能。
02情感标注情感标注∶此类标注通常需要判定一句话包含的情感,如三级情感标注(正向,中性,负向),要求高的会分成六级甚至十二级情感标注。为了获得这些数据,经常要用到人工标注者,因为他们可以评估所有网络平台(包括社交媒体和电商网站)上的情绪和评论内容,并能够标记和报告中辱骂、敏感的关键字或新词。
03关系标注关系标注是对复句的句法关联和语义关联做出重要标示的一种任务,是复句自动分析的形式标记。下面对涉及关系标注的知识图谱做简要介绍。
知识图谱,也叫知识库,客户用来做查询和推理用。知识图谱的结构包括实体、属性和关系。例如,用户提问“北纬38”56,东经116”20的城市在哪个国家”,机器回答“这个城市是北京,且在中国”
04意图标注随着人们越来越多地使用人机交互进行交流,机器必须能够理解自然语言和用户意图。多意向数据收集和分类可将意向划分为若干关键类别,包括请求、命令、预订、推荐和确认。
如客户要明确查询天气,里面有“查询天气”“查询气象-雨”“查询气象-雾”“查询气象-气温”等意图
05语义标注语义标注既可以改进产品列表,又可以确保客户能够找到想要的产品。这有助于把浏览者转化为买家。语义标注服务通过标记产品标题和搜索查询中的各个组件,帮助训练算法,以识别各组成部分,提高总体搜索相关性
不同文本数据标注示例
文本数据标注的流程介绍
数据标注一般都分为采集、清洗、标注、质检等几个步骤,文本数据标注也不例外,大致流程为处理、标注(线上标注、线下标注)、质检、验收,数据处理和数据交付。
具体到各个步骤,操作细节如下:
(1)预处理:根据数据的规范要求,对数据进行算法的初步处理
(2)标注:根据项目要求,可以将标注分为线上标注(数据+平台)和线下标注
①线上标注:将源数据上传到“数据+平台”,通过互联网进行操作
②线下标注:通过线下小工具或线下文本(TXT、Excel等)进行操作
(3)质检:根据数据合格率要求,由理解定义规范的人员对已标注数据进行抽查
(4)验收:由数据质量中心对质检合格数据进行再次验证
(5)数据处理:利用技术处理成客户需要的格式(如JSON、UTF-8文本或Excel等)
(6)数据交付:数据加密后交付客户
文本数据标注的应用场景
文本标注应用范围很广泛,具体来说,文本数据标注应用比较多的场景包括新零售行业、客服行业、广告行业、金融行业和医疗行业等:应用类型主要有数据清洗、语义识别、实体识别、场景识别、情绪识别以及应答识别等。
01客服行业在客服行业文本标注主要集中在场景识别和应答识别,客服基本可分为人工客服和电子客服,其中人工客服又可细分为文字客服、视频客服和语音客服三类
以不少电商平台的智能客服机器为例,当用户在购物遇到问题,需要与机器人沟通交流时人工智能将根据用户的咨询内容且对应的场景,然后让用户选择更细分的应答模式,再定位到用户的实际场景中,根据用户的具体问题给出对应的回答,整个过程就好比是把用户的问题的用漏斗状的筛子过一遍
在初期建立应答体系的时候,需要对海量用户咨询语言所产生的文字材料进行分类,把应对的用户咨询的问题事先标记好,然后放进对应的模型中,例如我看到的这台电视电脑CPU是什么型号
在这一步中,数据标注的具体工作就是给句子的场景打标,将用户问题细分应对的场景中,在进行这种标注时需要人工智能非常熟悉本行业的业务逻辑数,其实这就是建立机器人的应答知识库,机器人在收到用户发出的指令时,需要识别这些指令和哪个细分问题的,你额度最高,然后选取哪个问题的答案作为给用户的答案
02新零售行业新零售是指个人、企业以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式。
在此过程中,需要对客户的问题进行精准定位,既需要对客户的问题进行量身定制,又需要考虑多数客户的共性要求,这就需要借助文本数据标注的方法,将顾客的相应问题做出标记。
03金融行业线上平台标注和线下表格标注是金融行业文本标注主要的标注形式。以现代商业的企业签约举例:在企业的商务合同中,对关键信息的读取就显得尤为重要
例如,合同中提到的公司名称,合同编号、发票编号、相关金额,到期日期和风险提示等,这些内容囊括了甲乙双方公司的核心信息。对于一个规模较大的公司来说,每天的签约合同非常之多,如果采用一个或几个人对这些合同中的相关信息加以提收乃至核对,这项任务就显得十分繁重而且意义不大。
在人工智能时代,可以考虑建立一个企业合同分析模型,对合同中的相关信息进行提取,从而可以减少劳动量,降低人力成本,提高工作效率。
04广告行业广告行业是在市场经济充分发展的条件下逐步形成的,从单一的广告活动发展成为独立的广告行业经历了漫长的过程。广告制作作为广告行业的重点工作之一,都需要广告设计工作者的辛勤劳动
考虑到未来商品市场的发展趋势。以及单个商品的文案设计与广告其他工作,类别相近且销量较高的商品文案可相互借鉴,将已有的单个商品文案进行综合,取其精华、去其根粕,通过文本数据标注将文案中的“精华”与“糟粕”标记出来,让文案设计工作者可以在案例中进行提取综合,这无疑将提高工作效率
05医疗行业在医疗行业对自然语言进行标注处理,对专业度要求比较高,需要专门的医学人才才能进行标注,往往本行业的标注的对象是从病列中抽取出来的一些字段,病例里面的体查项和既往病史是有模板的,直接识别可以,替换项的结果就可以,这往往比较容易的。但是主诉和医生对患者的描述通常每次都会有所差异
我们在做标注的时候可以这样处理,首先明确每个词的属性,记每个词在这种语境下面具备怎样的属性,然后标注每个词在句子中的作用,举个例子患者主诉为腰痛2年,伴左下肢放射痛10日余
写在最后的话
训练数据是模型实现效果的关键,一名优秀的人工智能训练师,从职业技能来看,不仅要掌握基础的文本数据标注能力,这对于提升自己对业务的理解,解决问题的能力有重大帮助。
现在,很多公司都在开发自己的文本标注平台,尤其是事件标注、事件关系标注任务,基于不同的业务场景,该如何标注,这些都涉及到标注策略、规范和标注平台的工具逻辑
总结来看,文本标注是一个大工程,也是当前深度学习模型时代的基础之基础,我们需要也必须关注这些底层的数据能力。
暂无评论内容