文本数据处理方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号:24091420 阅读:15 留言:0更新日期:2020-05-09 08:14
本公开涉及一种文本数据处理方法、装置、电子设备及计算机可读介质。该方法包括:获取待处理文本数据,并对所述待处理文本数据进行处理,获得至少一个词向量序列;根据所述至少一个词向量序列与至少一个词典库确定目标权重矩阵,所述至少一个词典库包括情感词典库;通过神经网络模型对所述目标权重矩阵进行处理,获得解码信息;对所述解码信息进行集束搜索,获得所述待处理文本数据的回复文本数据。本公开涉及的文本数据处理方法、装置、电子设备及计算机可读介质,根据包含建立包含情感词典库对应权重的目标权重矩阵,能够根据目标权重矩阵获得包含正确情感的回复文本数据。

Text data processing methods, devices, electronic equipment and computer-readable media

【技术实现步骤摘要】
文本数据处理方法、装置、电子设备及计算机可读介质
本公开涉及自然语言
,具体而言,涉及一种文本数据处理方法、装置、电子设备及计算机可读介质。
技术介绍
在当前的智能客服机器人系统中,通常关注生成对话的语法语义是否合理。为满足语法语义的合理性,通常包括如下三种方法:考虑上下文,结合主题以及生成长句子等等。然而在聊天中,当一个人表示难过的时候,另一方的回答应该包括适当的安慰性语句;当一方感到开心时,另一方也会为其感到快乐。例如,当A说:“我的宠物狗去世了”,B很自然应该回复:“我为你感到难过”等类似的语句。这种带有情感交互的例子在日常对话中数不胜数。而上述的三种方式均没有考虑情感因素,然而,只有真正的模拟人类的交谈才是好的对话机器人。因此,需要一种新的文本数据处理方法、装置、电子设备及计算机可读介质。在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的相关技术的信息。
技术实现思路
有鉴于此,本公开实施例提供一种文本数据处理方法、装置、电子设备及计算机可读介质,能够克服相关技术中的回复文本缺乏情感因素的缺陷。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一方面,提出一种文本数据处理方法,该方法包括:获取待处理文本数据,并对所述待处理文本数据进行处理,获得至少一个词向量序列;根据所述至少一个词向量序列与至少一个词典库确定目标权重矩阵,所述至少一个词典库包括情感词典库;通过神经网络模型对所述目标权重矩阵进行处理,获得解码信息;对所述解码信息进行集束搜索,获得所述待处理文本数据的回复文本数据。在本公开的一种示例性实施例中,所述神经网络模型包括依次连接的编码模块、卷积层和解码模块;其中,所述方法还包括:通过所述编码模块和所述卷积层对所述目标权重矩阵进行处理,获得编码信息;根据所述解码模块对所述编码信息进行处理,获得解码信息;根据所述编码信息、所述解码信息和所述情感词典库确定目标损失函数;根据所述目标损失函数调节所述神经网络模型的参数,获得训练完成的所述神经网络模型。在本公开的一种示例性实施例中,根据所述编码信息、所述解码信息和所述情感词典库确定目标损失函数,包括:根据所述编码信息与所述解码信息确定交叉熵损失函数;根据所述编码信息在所述情感词典库中进行匹配,获得编码情感信息;根据所述解码信息在所述情感词典库中进行匹配,获得解码情感信息;根据所述交叉熵损失函数、所述编码情感信息、所述解码情感信息确定第一损失函数、第二损失函数和第三损失函数;对所述第一损失函数、所述第二损失函数和所述第三损失函数进行加权求和,获得所述目标损失函数。在本公开的一种示例性实施例中,所述编码模块包括第一循环门单元和第二循环门单元,所述解码模块包括第三循环门单元和第四循环门单元。在本公开的一种示例性实施例中,通过所述编码模块和所述卷积层对所述目标权重矩阵进行处理,获得编码信息,包括:通过所述第一循环门单元对所述目标权重矩阵进行处理,获得第一初始编码信息;通过所述第二循环门单元对所述目标权重矩阵的左右翻转矩阵进行处理,获得第二初始编码信息;通过所述卷积层对所述第一初始编码信息和所述第二初始编码信息的拼接结果进行处理,获得编码信息。在本公开的一种示例性实施例中,所述方法还包括:对所述待处理文本数据进行处理,获得至少一个词向量序列包括:根据所述待处理文本数据进行分词处理,获得分词结果;通过词向量模型对所述分词结果进行处理,获得所述至少一个词向量序列。在本公开的一种示例性实施例中,根据所述至少一个词向量序列与至少一个词典库确定目标权重矩阵包括:根据所述至少一个词向量序列中每个词的词向量在每个词典库中进行匹配,获得与所述至少一个词典库对应的至少一个第一权重矩阵;对所述至少一个第一权重矩阵进行求和,获得所述目标权重矩阵。根据本公开的一方面,提出一种文本数据处理装置,该装置包括:词向量序列模块,用于获取待处理文本数据,并对所述待处理文本数据进行处理,获得至少一个词向量序列;权重生成模块,用于根据所述至少一个词向量序列与至少一个词典库确定目标权重矩阵,所述至少一个词典库包括情感词典库;模型处理模块,用于通过神经网络模型对所述目标权重矩阵进行处理,获得解码信息;集束搜索模块,用于对所述解码信息进行集束搜索,获得所述待处理文本数据的回复文本数据。根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文中所述的方法。根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中所述的方法。根据本公开一些实施例提供的文本数据处理方法、装置、电子设备及计算机可读介质,对待处理文本数据进行处理获得词向量序列,并根据包含情感词典库的至少一个词典库确定词向量序列的目标权重矩阵,能够使目标权重矩阵包含待处理文本数据的情感信息。并通过神经网络模型对目标权重矩阵进行处理,获得解码信息,对解码信息进行技术搜索,能够获得与待处理文本数据具有相应的情感信息的回复文本数据。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据一示例性实施例示出的一种文本数据处理方法的流程图。图2是根据另一示例性实施例示出的一种文本数据处理方法的流程图。图3是根据另一示例性实施例示出的一种文本数据处理方法的流程图。图4是根据另一示例性实施例示出的一种文本数据处理方法的流程图。图5是根据另一示例性实施例示出的一种文本数据处理方法的流程图。图6是根据另一示例性实施例示出的一种文本数据处理方法的流程图。图7是根据另一示例性实施例示出的一种文本数据处理方法的流程图。图8是根据一示例性实施例示出的一种文本数据处理装置的框图。图9是根据一示例性实施例示出的一种电子设备的框图。图10是根据一示例性实施例示出一种计算机可读存储介质示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员本文档来自技高网...

【技术保护点】
1.一种文本数据处理方法,其特征在于,包括:/n获取待处理文本数据,并对所述待处理文本数据进行处理,获得至少一个词向量序列;/n根据所述至少一个词向量序列与至少一个词典库确定目标权重矩阵,所述至少一个词典库包括情感词典库;/n通过神经网络模型对所述目标权重矩阵进行处理,获得解码信息;/n对所述解码信息进行集束搜索,获得所述待处理文本数据的回复文本数据。/n

【技术特征摘要】
1.一种文本数据处理方法,其特征在于,包括:
获取待处理文本数据,并对所述待处理文本数据进行处理,获得至少一个词向量序列;
根据所述至少一个词向量序列与至少一个词典库确定目标权重矩阵,所述至少一个词典库包括情感词典库;
通过神经网络模型对所述目标权重矩阵进行处理,获得解码信息;
对所述解码信息进行集束搜索,获得所述待处理文本数据的回复文本数据。


2.如权利要求1所述的方法,其特征在于,所述神经网络模型包括依次连接的编码模块、卷积层和解码模块;其中,还包括:
通过所述编码模块和所述卷积层对所述目标权重矩阵进行处理,获得编码信息;
根据所述解码模块对所述编码信息进行处理,获得解码信息;
根据所述编码信息、所述解码信息和所述情感词典库确定目标损失函数;
根据所述目标损失函数调节所述神经网络模型的参数,获得训练完成的所述神经网络模型。


3.如权利要求2所述的方法,其特征在于,根据所述编码信息、所述解码信息和所述情感词典库确定目标损失函数,包括:
根据所述编码信息与所述解码信息确定交叉熵损失函数;
根据所述编码信息在所述情感词典库中进行匹配,获得编码情感信息;
根据所述解码信息在所述情感词典库中进行匹配,获得解码情感信息;
根据所述交叉熵损失函数、所述编码情感信息、所述解码情感信息确定第一损失函数、第二损失函数和第三损失函数;
对所述第一损失函数、所述第二损失函数和所述第三损失函数进行加权求和,获得所述目标损失函数。


4.如权利要求2所述的方法,其特征在于,所述编码模块包括第一循环门单元和第二循环门单元,所述解码模块包括第三循环门单元和第四循环门单元。


5.如权利要求4所述的方法,其特征在于,通过所述编码模块和所述卷积层对所述目标权重矩阵进行处理,获得编码信息,包括:
通过所述第一循环门单...

【专利技术属性】
技术研发人员:杨正良刘设伟杜维
申请(专利权)人:泰康保险集团股份有限公司泰康在线财产保险股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1