一种聊天语料自清洗方法、装置和用户终端制造方法及图纸

技术编号:18237880 阅读:23 留言:0更新日期:2018-06-17 01:10
本发明专利技术提供了一种聊天语料自清洗方法、装置和用户终端,其中所述方法包括:根据问答对语料的词单元及其词向量构建神经网络模型;根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。本发明专利技术所提供方法实现人机交互过程中,对聊天语料的非人工的智能自清洗,可通过语料智能自清洗对海量语料进行筛选,语料清洗效率高、速度快,省去了大量人工参与进行语料筛选清洗的步骤,大大降低了开发成本,为人工智能开发人员的工作带来了极大的方便。 1

Self cleaning method, device and user terminal for chatting corpus

The invention provides a chat language self cleaning method, device and user terminal. The method comprises the following steps: constructing a neural network model for the word unit and the word vector of the corpus according to the question and answer. The results of the evaluation are used to clean the corpus of the Q & a corpus and get the target dialogue corpus. In the process of human-computer interaction, the method realizes the non artificial self cleaning of the chatting language, and can screen the mass corpus through the self cleaning of the language material intelligence. The language material cleaning efficiency is high and the speed is fast. It saves a lot of manual participation in the step of the language material screening and cleaning, which greatly reduces the development cost and is a human being. The work of intelligent engineers brings great convenience. One

【技术实现步骤摘要】
一种聊天语料自清洗方法、装置和用户终端
本专利技术涉及人工智能
,更具体地说,涉及一种聊天语料自清洗方法、装置和用户终端。
技术介绍
在现有机器人人工智能交互中,聊天(闲聊)依然占据着重要的位置。而工业界中聊天的主流技术依然是通过构建高质量的聊天语料(即问答对),通过类检索的方式来匹配用户的闲聊语句。但是高质量的聊天语料的获取依然是很困难的。而业界的做法大抵是通过网络爬取(如微博、BBS等),获取一定质量的问答对。但是这种爬取下来的数据难以直接应用上线,只能通过语料清洗后才可进行使用。目前,聊天问答对的清洗主要为通过人工标注大量的问答对,进而通过有监督的机器学习方法进行分类使用;或者完全人工逐条筛选实现人工语料清洗。总之,现有的语料清洗方法均需要有大量的人工参与,无法实现智能自清洗,并且由于待清洗的语料规模庞大,所涉及到的人工标注工作量随之增大,语料清洗效率低,耗时长,成本高,为人工智能开发人员的工作带来极大的不便。
技术实现思路
有鉴于此,本专利技术提供一种聊天语料自清洗方法、装置和用户终端以解决现有技术的不足。为解决上述问题,本专利技术提供一种聊天语料自清洗方法,包括:根据问答对语料的词单元及其词向量构建神经网络模型;根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。优选地,所述“根据问答对语料的词单元及其词向量构建神经网络模型”包括:对所述问答对语料中的每个问语料和答语料设置第一语料标签;抽取所述问答对语料中的所述问语料和所述答语料进行随机对应,并设置第二语料标签;对随机对应的所述问答对语料中的所述问语料和所述答语料进行分词处理,并构建词单元向量化矩阵;根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值;基于所述词单元向量化矩阵,根据所述第一语料标签和所述第二语料标签对所述匹配值进行参数学习,构建神经网络模型。优选地,所述“根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值”包括:基于所述词单元向量化矩阵,获取所述问语料和所述答语料中的每个词单元的词向量;构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值。优选地,所述“构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值”包括:对所述问语料中每个所述词单元的所述词向量进行求和平均,得到问语料向量均值;对所述答语料中每个所述词单元的所述词向量进行求和平均,得到答语料向量均值;构建随机问答对矩阵;根据所述随机问答对矩阵对所述问语料向量均值和所述答语料向量均值进行求sigmoid函数计算,得到所述问语料和所述答语料的匹配值。优选地,所述“根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料”包括:删除所述预测评估结果中低评分的所述问答对语料,得到清洗后语料,并将所述清洗后语料对应的预测评估结果与预设语料质量值进行匹配;若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值匹配,则输出目标对话语料;若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值不匹配,则返回所述“根据问答对语料的词单元及其词向量构建神经网络模型”。优选地,所述“根据问答对语料的词单元及其词向量构建神经网络模型”之前,还包括:获取文本语料,并建立与所述文本语料对应的文本语料库;构建所述文本语料库中所有词的所述词向量;提取所述文本语料库中的所述问答对语料,并进行分词处理,得到所述词单元。优选地,所述“构建所述文本语料库中所有词的所述词向量”包括:利用word2vec技术对所述文本语料库进行训练,构建所述文本语料库中所有词的所述词向量。此外,为解决上述问题,本专利技术还提供一种聊天语料自清洗装置,包括:构建模块、预测模块和清洗模块;所述构建模块,用于根据问答对语料的词单元及其词向量构建神经网络模型;所述预测模块,用于根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;所述清洗模块,用于根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。此外,为解决上述问题,本专利技术还提供一种用户终端,包括存储器以及处理器,所述存储器用于存储聊天语料自清洗程序,所述处理器运行所述聊天语料自清洗程序以使所述用户终端执行如上述所述聊天语料自清洗方法。此外,为解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有聊天语料自清洗程序,所述聊天语料自清洗程序被处理器执行时实现如上述所述聊天语料自清洗方法。本专利技术提供的一种聊天语料自清洗方法、装置和用户终端。其中,本专利技术所提供的方法通过构建神经网络模型对问答对语料进行预测,并根据预测结果对问答对语料进行清洗,从而得到目标对话语料。本专利技术所提供方法实现人机交互过程中,对聊天语料的非人工的智能自清洗,可通过语料智能自清洗对海量语料进行筛选,语料清洗效率高、速度快,省去了大量人工参与进行语料筛选清洗的步骤,大大降低了开发成本,为人工智能开发人员的工作带来了极大的方便。附图说明图1为本专利技术聊天语料自清洗方法实施例方案涉及的硬件运行环境的结构示意图;图2为本专利技术聊天语料自清洗方法第一实施例的流程示意图;图3为本专利技术聊天语料自清洗方法第二实施例的流程示意图;图4为本专利技术聊天语料自清洗方法第三实施例的流程示意图;图5为本专利技术聊天语料自清洗方法第四实施例的流程示意图;图6为本专利技术聊天语料自清洗方法第四实施例的计算匹配值的运算流程示意图;图7为本专利技术聊天语料自清洗方法第五实施例的流程示意图;图8为本专利技术聊天语料自清洗方法第六实施例的流程示意图;图9为本专利技术聊天语料自清洗方法第六实施例的步骤S5000的细化流程示意图;图10为本专利技术聊天语料自清洗装置的功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式下面详细描述本专利技术的实施例,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本专利技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,图1是本专利技术实施例方案涉及的终端的硬件运行环境的结构示意图。本专利技术实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、便携计算机等具有显示功能的可移动式终端设备。如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口本文档来自技高网...
一种聊天语料自清洗方法、装置和用户终端

【技术保护点】
1.一种聊天语料自清洗方法,其特征在于,包括:

【技术特征摘要】
1.一种聊天语料自清洗方法,其特征在于,包括:根据问答对语料的词单元及其词向量构建神经网络模型;根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。2.如权利要求1所述聊天语料自清洗方法,其特征在于,所述“根据问答对语料的词单元及其词向量构建神经网络模型”包括:对所述问答对语料中的每个问语料和答语料设置第一语料标签;抽取所述问答对语料中的所述问语料和所述答语料进行随机对应,并设置第二语料标签;对随机对应的所述问答对语料中的所述问语料和所述答语料进行分词处理,并构建词单元向量化矩阵;根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值;基于所述词单元向量化矩阵,根据所述第一语料标签和所述第二语料标签所述匹配值进行参数学习,构建神经网络模型。3.如权利要求2所述聊天语料自清洗方法,其特征在于,所述“根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值”包括:基于所述词单元向量化矩阵,获取所述问语料和所述答语料中的每个词单元的词向量;构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值。4.如权利要求3所述聊天语料自清洗方法,其特征在于,所述“构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值”包括:对所述问语料中每个所述词单元的所述词向量进行求和平均,得到问语料向量均值;对所述答语料中每个所述词单元的所述词向量进行求和平均,得到答语料向量均值;构建随机问答对矩阵;根据所述随机问答对矩阵对所述问语料向量均值和所述答语料向量均值进行求sigmoid函数计算,得到所述问语料和所述答语料的匹配值。5.如权利要求1所述聊天语料自清洗方法,其特征在于,所述“根据所...

【专利技术属性】
技术研发人员:姚佳
申请(专利权)人:广东惠禾科技发展有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1