编码方法、装置、设备及存储介质制造方法及图纸

技术编号:21914203 阅读:17 留言:0更新日期:2019-08-21 12:30
本发明专利技术实施例公开了一种编码方法、装置、设备及存储介质,属于自然语言处理领域。方法包括:获取目标段落和预设数据库,将目标段落和预设数据库输入至记忆编码模型;在输入层中获取目标段落的原始向量集合和预设数据库的知识向量集合;在第一记忆层中根据原始向量集合和知识向量集合,获取第一目标语句矩阵;在输出层中根据第一目标语句矩阵,获取目标段落的段落向量,基于段落向量进行处理。以目标段落为单位,应用记忆编码模型对目标段落进行编码,因此提高了编码速度。并且编码过程中不仅考虑目标段落本身,还考虑到预设数据库中的知识数据,提高了编码准确率。

Coding method, device, equipment and storage medium

【技术实现步骤摘要】
编码方法、装置、设备及存储介质
本专利技术涉及自然语言处理领域,特别涉及一种编码方法、装置、设备及存储介质。
技术介绍
编码是将文字转换成编码值,从而得到能够准确描述该文本含义的向量的过程。通过进行编码,可以将文字转换为便于运算处理的向量形式,现已广泛应用于语句选取、语句生成等多种领域。目前提出了一种分级编码的方案,当要对包括多个语句的目标段落进行编码时,获取目标段落中每个语句中每个词语的词向量。对于目标段落中的每个语句,应用基于词语层面的第一编码模型,将该语句中每个词语的词向量编码成一个向量,得到该语句的语句向量,进而得到目标段落中多个语句的语句向量。再应用基于语句层面的第二编码模型,将该多个语句的语句向量编码成一个向量,得到目标段落的段落向量。上述方案仅能够采用串行的方式,依次对目标段落中每个语句的词向量分别进行编码,再采用串行的方式,对多个语句向量进行编码,编码速度较慢,且编码过程中未考虑除目标段落以外的其他数据,准确率较低。
技术实现思路
本专利技术实施例提供了一种编码方法、装置、设备及存储介质,解决了相关技术存在的编码速度较慢以及准确率较低的问题。所述技术方案如下:一方面,提供了一种编码方法,所述方法包括:获取目标段落和预设数据库,将所述目标段落和所述预设数据库输入至记忆编码模型,所述目标段落包括至少一个语句,所述记忆编码模型至少包括输入层、第一记忆层和输出层;在所述输入层中,获取所述目标段落的原始向量集合和所述预设数据库的知识向量集合,所述原始向量集合包括所述目标段落中每个语句的语句向量;所述知识向量集合包括所述预设数据库中多条知识数据的知识向量;在所述第一记忆层中,根据所述原始向量集合和所述知识向量集合,获取所述原始向量集合的第一目标语句矩阵,所述第一目标语句矩阵用于根据所述原始向量集合与所述知识向量集合之间的关联关系,对所述目标段落进行描述;在所述输出层中,根据所述第一目标语句矩阵,获取所述目标段落的段落向量;基于所述段落向量进行处理。另一方面,提供了一种编码装置,所述装置包括:获取模块,用于获取目标段落和预设数据库,将所述目标段落和所述预设数据库输入至记忆编码模型,所述目标段落包括至少一个语句;输入层模块,用于获取所述目标段落的原始向量集合和所述预设数据库的知识向量集合,所述原始向量集合包括所述目标段落中每个语句的语句向量;所述知识向量集合包括所述预设数据库中多条知识数据的知识向量;第一记忆层模块,用于根据所述原始向量集合和所述知识向量集合,获取所述原始向量集合的第一目标语句矩阵,所述第一目标语句矩阵用于根据所述原始向量集合与所述知识向量集合之间的关联关系,对所述目标段落进行描述;输出层模块,用于根据所述第一目标语句矩阵,获取所述目标段落的段落向量;处理模块,用于基于所述段落向量进行处理。再一方面,提供了一种编码设备,所述编码设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述一个或多个处理器加载并执行以实现如所述的编码方法中所执行的操作。再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由一个或多个处理器加载并执行以实现如所述的编码方法中所执行的操作。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施提供的编码方法、装置、设备及存储介质,提供了一种记忆编码模型,记忆编码模型包括输入层、第一记忆层和输出层,获取目标段落和预设数据库,将目标段落和预设数据库输入至记忆编码模型,输入层获取目标段落的原始向量集合和预设数据库的知识向量集合;第一记忆层根据原始向量集合和知识向量集合,获取原始向量集合的第一目标语句矩阵;输出层根据第一目标语句矩阵,获取目标段落的段落向量,基于段落向量进行处理。本专利技术实施例无需采用串行的方式对每个语句分别进行编码,而是以目标段落为单位,应用记忆编码模型对目标段落进行编码,因此提高了编码速度。并且,编码过程中不仅考虑目标段落本身,还考虑到预设数据库中的知识数据,从而使获取到的段落向量不仅能够表达目标段落的含义,还能够从外部知识数据中抽取相关的知识数据,提高了编码准确率。本专利技术实施例提供的记忆编码模型具有自注意力性,将自注意力机制应用于段落的语句层面上,根据目标段落、上下文语句和预设数据库中的知识数据进行综合处理,可以保证目标段落的段落向量表达更为丰富,更能准确地描述目标段落的含义。且本专利技术实施例可以应用于多种场景下,应用范围广泛。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种记忆编码模型的结构示意图;图2是本专利技术实施例提供的另一种记忆编码模型的结构示意图;图3是本专利技术实施例提供的另一种记忆编码模型的结构示意图;图4是本专利技术实施例提供的另一种记忆编码模型的结构示意图;图5是本专利技术实施例提供的另一种记忆编码模型的结构示意图;图6是本专利技术实施例提供的另一种记忆编码模型的结构示意图;图7是本专利技术实施例提供的一种编码方法的流程图;图8是本专利技术实施例提供的一种语句编码模型的结构示意图;图9是本专利技术实施例提供的一种语句编码模型的流程示意图;图10是本专利技术实施例提供的一种记忆编码模型的结构示意图;图11是本专利技术实施例提供的一种获取知识向量的流程示意图;图12是本专利技术实施例提供的一种记忆层的结构示意图;图13是本专利技术实施例提供的一种门控层的结构示意图;图14是本专利技术实施例提供的一种记忆编码模型的结构示意图;图15是本专利技术实施例提供的一种记忆编码模型的结构示意图;图16是本专利技术实施例提供的一种记忆编码模型的结构示意图;图17是本专利技术实施例提供的一种编码装置的结构示意图;图18是本专利技术实施例提供的一种终端的结构框图;图19是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。本专利技术实施例提供了一种记忆编码模型,获取目标段落和预设数据库,输入至记忆编码模型,应用该记忆编码模型可以对该目标段落进行编码,得到该目标段落的段落向量,从而能够基于段落向量进行处理。编码过程中,可以目标段落为单位,一次性地应用该记忆编码模型对目标段落进行编码,无需采用串行的方式分别对目标段落中每个语句进行编码。而且,不仅考虑到目标段落中每个语句的含义,还考虑到预设数据库中的知识数据,从而使获取到的段落向量不仅能够表达目标段落的含义,还能够从外部知识数据中抽取相关的知识数据,使得获取到的段落向量更能准确表达目标段落的含义,基于段落向量进行处理时能够提高精确度。参见图1,该记忆编码模型包括输入层101、第一记忆层102和输出层103,输入层101与第一记忆层102连接,第一记忆层102与输出层103连接。其中,输入层101根据目标段落中的每个语句,提取代表语句含义的语句向量,得到该目标段本文档来自技高网...

【技术保护点】
1.一种编码方法,其特征在于,所述方法包括:获取目标段落和预设数据库,将所述目标段落和所述预设数据库输入至记忆编码模型,所述目标段落包括至少一个语句,所述记忆编码模型至少包括输入层、第一记忆层和输出层;在所述输入层中,获取所述目标段落的原始向量集合和所述预设数据库的知识向量集合,所述原始向量集合包括所述目标段落中每个语句的语句向量;所述知识向量集合包括所述预设数据库中多条知识数据的知识向量;在所述第一记忆层中,根据所述原始向量集合和所述知识向量集合,获取所述原始向量集合的第一目标语句矩阵,所述第一目标语句矩阵用于根据所述原始向量集合与所述知识向量集合之间的关联关系,对所述目标段落进行描述;在所述输出层中,根据所述第一目标语句矩阵,获取所述目标段落的段落向量;基于所述段落向量进行处理。

【技术特征摘要】
1.一种编码方法,其特征在于,所述方法包括:获取目标段落和预设数据库,将所述目标段落和所述预设数据库输入至记忆编码模型,所述目标段落包括至少一个语句,所述记忆编码模型至少包括输入层、第一记忆层和输出层;在所述输入层中,获取所述目标段落的原始向量集合和所述预设数据库的知识向量集合,所述原始向量集合包括所述目标段落中每个语句的语句向量;所述知识向量集合包括所述预设数据库中多条知识数据的知识向量;在所述第一记忆层中,根据所述原始向量集合和所述知识向量集合,获取所述原始向量集合的第一目标语句矩阵,所述第一目标语句矩阵用于根据所述原始向量集合与所述知识向量集合之间的关联关系,对所述目标段落进行描述;在所述输出层中,根据所述第一目标语句矩阵,获取所述目标段落的段落向量;基于所述段落向量进行处理。2.根据权利要求1所述的方法,其特征在于,所述输入层包括语句编码模型,所述在所述输入层中,获取所述目标段落的原始向量集合和所述预设数据库的知识向量集合,包括:根据所述目标段落中每个语句中每个词语的词向量,应用所述语句编码模型,获取所述每个语句的语句向量,得到所述原始向量集合;根据所述预设数据库中每条知识数据的知识向量,获取所述知识向量集合。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述预设数据库中的每条知识数据;对于每条知识数据,对所述知识数据进行词语划分,得到至少一个词语,获取所述至少一个词语的词向量,根据所述至少一个词语的词向量,获取所述知识数据的知识向量,将所述知识向量与所述知识数据对应存储于所述预设数据库中。4.根据权利要求1所述的方法,其特征在于,所述第一记忆层包括第一记忆模型,所述在所述第一记忆层中,根据所述原始向量集合和所述知识向量集合,获取所述原始向量集合的第一目标语句矩阵,包括:应用所述第一记忆模型,获取所述知识向量集合对应的第一知识矩阵和第二知识矩阵;根据所述原始向量集合、所述第一知识矩阵和所述第二知识矩阵,获取所述原始向量集合的第一目标语句矩阵。5.根据权利要求1所述的方法,其特征在于,所述记忆编码模型还包括第一门控层,所述在所述输出层中,根据所述第一目标语句矩阵,获取所述目标段落的段落向量,包括:在所述第一门控层中,对所述原始向量集合与所述第一目标语句矩阵进行加权求和,得到第二目标语句矩阵,使所述第二目标语句矩阵中的每个数值属于预设数值范围;在所述输出层中,根据所述第二目标语句矩阵,获取所述目标段落的段落向量。6.根据权利要求5所述的方法,其特征在于,所述第一门控层包括线性网络模型,所述在所述第一门控层中,对所述第一目标语句矩阵与所述原始向量集合进行加权求和,得到第二目标语句矩阵,包括:应用所述线性网络模型,获取所述原始向量集合对应的线性数值,采用预设函数对所述线性数值进行处理,得到所述原始向量集合的第一权重,以使所述第一权重属于所述预设数值范围;计算1与所述第一权重的差值,得到所述第一目标语句矩阵的第二权重;按照所述第一权重和所述第二权重,对所述原始向量集合与所述第一目标语句矩阵进行加权求和,得到所述第二目标语句矩阵。7.根据权利要求1所述的方法,其特征在于,所述在所述输出层中,根据所述第一目标语句矩阵,获取所述目标段落的段落向量,包括:对所述第一目标语句矩阵进行列向求和,得到所述段落向量。8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:将所述第一目标语句矩阵作为更新后的原始向量集合和知识向量集合,在所述第一记忆层中,重复执行根据更新后的原始向量集合和知识向量集合获取目标语句矩阵的步骤,直至重复次数达到预设次数时,在所述输出层中,根据当前的目标语句矩阵,获取所述目标段落的段落向量。9.根据权利要求1-7任一项所述的方法,其特征在于,所述记忆编码模型还包括位于所述第一记忆层之前的第二记忆层,所述方法还包括:在所述输入层中,获取目标段落...

【专利技术属性】
技术研发人员:谭翊章孙硕曹杰田乐牛成周杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1