一个有效的聊天机器人需要大量的训练数据,这样才能在无需人工干预的情况下快速解决用户查询问题。但是,聊天机器人开发的主要瓶颈是获取现实、面向任务的对话数据来训练这些基于机器学习的系统。
为此,我整理了国内外数据质量都很好的对话数据集,用来帮助大家训练聊天机器人,主要分为问答数据、客户支持数据、对话数据和多语言数据几个类型。
聊天机器人训练的问答数据集
1.问答数据集:这个语料库包括维基百科文章、手动生成的问题及其人工生成的答案,也可以用于学术研究。
2.WikiQA语料库:一组公开的问题和句子对话集,收集和注释,用于研究开放领域的问答。为了反映一般用户真实的信息需求,他们使用必应查询日志作为问题来源。每个问题都链接到一个可能有答案的维基百科页面。
3.Yahoo语言数据:来自Yahoo Answers的人工管理的QA数据集。
4.TREC QA 集合:TREC 从 1999 年开始就有一个问答系统。在每个系统中,任务被定义为这样系统可以检索包含开放域、封闭类问题答案的文本片段。
用于聊天机器人训练的客户支持数据集
5.Ubuntu 对话语料库:包含从 Ubuntu 的聊天日志中提取的近 100 万次两人对话,用于获取 Ubuntu 相关问题的技术支持。完整数据集包含 93万个对话和字数总和超过 1 亿。
6.关系策略中的客户服务数据集:四个旅行相关的客户服务数据集合。2016 年 8 月,三个商业客户服务 IVAs 和航空公司 http://TripAdvisor.com 的对话日志。
7.Twitter 上的客户支持数据集: Kaggle上的这个数据集包括超过300万条推文和Twitter上最大品牌的回复。
聊天机器人训练对话数据集
8.语义 Web 兴趣组 IRC 聊天日志:这个自动生成的IRC聊天日志可以在RDF中找到,可以追溯到2004年,每天都可以使用,包括时间戳和昵称。
9.Cornell电影对话语料库:这个语料库包含一个从原始电影剧本中提取的大量丰富的虚构对话集合:10292对电影角色之间的220579次对话,涉及617部电影中的9035个角色。
10.ConvAI2数据集:该数据集包含了2000多个用于personchat竞赛的对话,其中人类评价者通过众包平台招募Yandex,托洛卡与团队提交的机器人聊天。
11.圣巴巴拉美国英语口语语料库:这个数据集包括大约249000个单词的转录、音频、时间戳,每个音调单位都在水平上。
12.NPS聊天语料库:根据服务条款,从各种在线聊天服务收集的约500000个帖子中,有10567个帖子组成。
13.Maluuba面向目标的对话:开放的对话数据集,对话的目的是完成一项任务或作出决定,特别是寻找航班和酒店。该数据集包含涉及250多家酒店、航班和目的地的复杂对话和决策。
14.Oz数据集的多域向导(MultiWOZ):跨越多个域和主题的完整标记的书面对话集合。该数据集包含10k个对话,并且至少比以前所有带注释的面向任务的语料库大一个数量级。
多语种聊天机器人训练数据集
15.NUS语料库:这个语料库是为社交媒体文本规范化和翻译而创建的。它是从新加坡国立大学英语短信语料库中随机抽取2000条短信,然后翻译成正式的中文。
16.EXCITEMENT 数据集:这些数据集有英语和意大利语两种版本,其中包含了来自客户的负面反馈,在这些反馈中,他们陈述了对某家公司不满的原因。
–END–
最近有些忙,很久没更新文章啦~
后面还会继续给大家带来一些好玩、有用的人工智能方面的学习内容,大家请多多关注、点赞哈~
暂无评论内容