基于人机交互的数据清洗方法、回复方法、装置及介质制造方法及图纸

技术编号:22055456 阅读:58 留言:0更新日期:2019-09-07 15:19
本发明专利技术提供的基于人机交互的数据清洗方法,获取人机交互数据;对所述人机交互数据依次进行非中文字符去除、分词筛选、匹配性筛选和句子通顺性筛选后,以获得清洗数据。该方法可以自主地获取人‑人或人‑机的人机交互数据,并对该人机交互数据进行预处理和清洗,实现对人机交互数据进行准确清洗。从而也实现了后期将优质的清洗数据增加到对话库中,起到扩充对话库数据、丰富对话话题等作用。

Data cleaning method, recovery method, device and medium based on human-computer interaction

【技术实现步骤摘要】
基于人机交互的数据清洗方法、回复方法、装置及介质
本专利技术属于人机交互
,具体涉及基于人机交互的数据清洗方法、回复方法、装置及介质。
技术介绍
目前,用于人机交互的产品层出不穷,用户也对相关产品的要求越来越高,用户期望产品的回复更加流畅、更加拟人,人机互动的话题可以更灵活地转换。想要更好地满足这些需求,就需要从最基础的对话库内容提升和丰富入手,因为无论是基于生成的回复生成技术还是基于检索的回复生成技术,回复的质量都依赖于优质的对话库。大部分人机交互过程中形成的问答数据都存在噪音,例如特殊文字、表情等,这些噪音的存在会影响对话库的准确建立,而现有方法中缺乏对这些噪音的准确清洗方法。
技术实现思路
针对现有技术中的缺陷,本专利技术提供基于人机交互的数据清洗方法、回复方法、装置及介质,实现对人机交互数据进行准确清洗。第一方面,一种基于人机交互的数据清洗方法,包括以下步骤:获取人机交互数据;对所述人机交互数据依次进行非中文字符去除、分词筛选、匹配性筛选和句子通顺性筛选后,以获得清洗数据。优选地,所述获取人机交互数据具体包括:利用爬虫爬取网络或设备上的人机交互数据;所述人机交互数据包括人机本文档来自技高网...

【技术保护点】
1.一种基于人机交互的数据清洗方法,其特征在于,包括以下步骤:获取人机交互数据;对所述人机交互数据依次进行非中文字符去除、分词筛选、匹配性筛选和句子通顺性筛选后,以获得清洗数据。

【技术特征摘要】
1.一种基于人机交互的数据清洗方法,其特征在于,包括以下步骤:获取人机交互数据;对所述人机交互数据依次进行非中文字符去除、分词筛选、匹配性筛选和句子通顺性筛选后,以获得清洗数据。2.根据权利要求1所述基于人机交互的数据清洗方法,其特征在于,所述获取人机交互数据具体包括:利用爬虫爬取网络或设备上的人机交互数据;所述人机交互数据包括人机交互对话和/或影视剧的影视对话。3.根据权利要求1所述基于人机交互的数据清洗方法,其特征在于,所述对所述人机交互数据进行非中文字符去除具体包括:去除人机交互数据中不符合预设的编码范围内的数据,以获得中文字符数据;所述编码范围包括Unicode编码范围。4.根据权利要求3所述基于人机交互的数据清洗方法,其特征在于,所述分词筛选具体包括:读取所述中文字符数据;对所述中文字符数据进行分词;将所述分词后的数据分别与预设的词向量词组库进行对比,剔除掉不在所述词向量词组库中的数据,以得到分词对话。5.根据权利要求4所述基于人机交互的数据清洗方法,其特征在于,所述匹配性筛选具体包括:读取所述分词对话;按照预设比例从所述分词对话中筛选出若干个对话;对筛选出的对话进行拆分,分为问句和答句;将所述问句和答句进行随机配对,获得错误对话和正确对话;以所述错误对话和正确对话作为输入对话,构建训练模型;通过所述训练模型获得输入对话的匹配程度,剔除匹配程度低于预设的匹配阈值的对话,以获得匹...

【专利技术属性】
技术研发人员:邱楠宋亚楠梁剑华邵浩程谦丁玉龙刘海峡孙铭浩刘振岩
申请(专利权)人:苏州狗尾草智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1