一种聊天语料自清洗方法、装置和用户终端制造方法及图纸

技术编号：18237880 阅读：23 留言：0更新日期：2018-06-17 01:10

本发明专利技术提供了一种聊天语料自清洗方法、装置和用户终端，其中所述方法包括：根据问答对语料的词单元及其词向量构建神经网络模型；根据所述神经网络模型对所述问答对语料进行评估预测，得到预测评估结果；根据所述预测评估结果对所述问答对语料进行语料清洗，得到目标对话语料。本发明专利技术所提供方法实现人机交互过程中，对聊天语料的非人工的智能自清洗，可通过语料智能自清洗对海量语料进行筛选，语料清洗效率高、速度快，省去了大量人工参与进行语料筛选清洗的步骤，大大降低了开发成本，为人工智能开发人员的工作带来了极大的方便。 1

Self cleaning method, device and user terminal for chatting corpus

The invention provides a chat language self cleaning method, device and user terminal. The method comprises the following steps: constructing a neural network model for the word unit and the word vector of the corpus according to the question and answer. The results of the evaluation are used to clean the corpus of the Q & a corpus and get the target dialogue corpus. In the process of human-computer interaction, the method realizes the non artificial self cleaning of the chatting language, and can screen the mass corpus through the self cleaning of the language material intelligence. The language material cleaning efficiency is high and the speed is fast. It saves a lot of manual participation in the step of the language material screening and cleaning, which greatly reduces the development cost and is a human being. The work of intelligent engineers brings great convenience. One

全部详细技术资料下载

【技术实现步骤摘要】
一种聊天语料自清洗方法、装置和用户终端
本专利技术涉及人工智能
，更具体地说，涉及一种聊天语料自清洗方法、装置和用户终端。
技术介绍
在现有机器人人工智能交互中，聊天(闲聊)依然占据着重要的位置。而工业界中聊天的主流技术依然是通过构建高质量的聊天语料(即问答对)，通过类检索的方式来匹配用户的闲聊语句。但是高质量的聊天语料的获取依然是很困难的。而业界的做法大抵是通过网络爬取(如微博、BBS等)，获取一定质量的问答对。但是这种爬取下来的数据难以直接应用上线，只能通过语料清洗后才可进行使用。目前，聊天问答对的清洗主要为通过人工标注大量的问答对，进而通过有监督的机器学习方法进行分类使用；或者完全人工逐条筛选实现人工语料清洗。总之，现有的语料清洗方法均需要有大量的人工参与，无法实现智能自清洗，并且由于待清洗的语料规模庞大，所涉及到的人工标注工作量随之增大，语料清洗效率低，耗时长，成本高，为人工智能开发人员的工作带来极大的不便。
技术实现思路
有鉴于此，本专利技术提供一种聊天语料自清洗方法、装置和用户终端以解决现有技术的不足。为解决上述问题，本专利技术提供一种聊天语料自清洗方法，包括：根据问答对语料的词单元及其词向量构建神经网络模型；根据所述神经网络模型对所述问答对语料进行评估预测，得到预测评估结果；根据所述预测评估结果对所述问答对语料进行语料清洗，得到目标对话语料。优选地，所述“根据问答对语料的词单元及其词向量构建神经网络模型”包括：对所述问答对语料中的每个问语料和答语料设置第一语料标签；抽取所述问答对语料中的所述问语料和所述答语料进行随机对应，并设置第二语料标签...
一种聊天语料自清洗方法、装置和用户终端

【技术保护点】
1.一种聊天语料自清洗方法，其特征在于，包括：

【技术特征摘要】
1.一种聊天语料自清洗方法，其特征在于，包括：根据问答对语料的词单元及其词向量构建神经网络模型；根据所述神经网络模型对所述问答对语料进行评估预测，得到预测评估结果；根据所述预测评估结果对所述问答对语料进行语料清洗，得到目标对话语料。2.如权利要求1所述聊天语料自清洗方法，其特征在于，所述“根据问答对语料的词单元及其词向量构建神经网络模型”包括：对所述问答对语料中的每个问语料和答语料设置第一语料标签；抽取所述问答对语料中的所述问语料和所述答语料进行随机对应，并设置第二语料标签；对随机对应的所述问答对语料中的所述问语料和所述答语料进行分词处理，并构建词单元向量化矩阵；根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值；基于所述词单元向量化矩阵，根据所述第一语料标签和所述第二语料标签所述匹配值进行参数学习，构建神经网络模型。3.如权利要求2所述聊天语料自清洗方法，其特征在于，所述“根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值”包括：基于所述词单元向量化矩阵，获取所述问语料和所述答语料中的每个词单元的词向量；构建随机问答对矩阵，并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值。4.如权利要求3所述聊天语料自清洗方法，其特征在于，所述“构建随机问答对矩阵，并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值”包括：对所述问语料中每个所述词单元的所述词向量进行求和平均，得到问语料向量均值；对所述答语料中每个所述词单元的所述词向量进行求和平均，得到答语料向量均值；构建随机问答对矩阵；根据所述随机问答对矩阵对所述问语料向量均值和所述答语料向量均值进行求sigmoid函数计算，得到所述问语料和所述答语料的匹配值。5.如权利要求1所述聊天语料自清洗方法，其特征在于，所述“根据所...

【专利技术属性】
技术研发人员：姚佳，
申请(专利权)人：广东惠禾科技发展有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人