编码方法、装置、设备及存储介质制造方法及图纸

技术编号：21914203 阅读：17 留言：0更新日期：2019-08-21 12:30

本发明专利技术实施例公开了一种编码方法、装置、设备及存储介质，属于自然语言处理领域。方法包括：获取目标段落和预设数据库，将目标段落和预设数据库输入至记忆编码模型；在输入层中获取目标段落的原始向量集合和预设数据库的知识向量集合；在第一记忆层中根据原始向量集合和知识向量集合，获取第一目标语句矩阵；在输出层中根据第一目标语句矩阵，获取目标段落的段落向量，基于段落向量进行处理。以目标段落为单位，应用记忆编码模型对目标段落进行编码，因此提高了编码速度。并且编码过程中不仅考虑目标段落本身，还考虑到预设数据库中的知识数据，提高了编码准确率。

Coding method, device, equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
编码方法、装置、设备及存储介质
本专利技术涉及自然语言处理领域，特别涉及一种编码方法、装置、设备及存储介质。
技术介绍
编码是将文字转换成编码值，从而得到能够准确描述该文本含义的向量的过程。通过进行编码，可以将文字转换为便于运算处理的向量形式，现已广泛应用于语句选取、语句生成等多种领域。目前提出了一种分级编码的方案，当要对包括多个语句的目标段落进行编码时，获取目标段落中每个语句中每个词语的词向量。对于目标段落中的每个语句，应用基于词语层面的第一编码模型，将该语句中每个词语的词向量编码成一个向量，得到该语句的语句向量，进而得到目标段落中多个语句的语句向量。再应用基于语句层面的第二编码模型，将该多个语句的语句向量编码成一个向量，得到目标段落的段落向量。上述方案仅能够采用串行的方式，依次对目标段落中每个语句的词向量分别进行编码，再采用串行的方式，对多个语句向量进行编码，编码速度较慢，且编码过程中未考虑除目标段落以外的其他数据，准确率较低。
技术实现思路
本专利技术实施例提供了一种编码方法、装置、设备及存储介质，解决了相关技术存在的编码速度较慢以及准确率较低的问题。所述技术方案如下：一方面，提供了一种编码方法，所述方法包括：获取目标段落和预设数据库，将所述目标段落和所述预设数据库输入至记忆编码模型，所述目标段落包括至少一个语句，所述记忆编码模型至少包括输入层、第一记忆层和输出层；在所述输入层中，获取所述目标段落的原始向量集合和所述预设数据库的知识向量集合，所述原始向量集合包括所述目标段落中每个语句的语句向量；所述知识向量集合包括所述预设数据库中多条知识数据的知识向量；...

【技术保护点】
1.一种编码方法，其特征在于，所述方法包括：获取目标段落和预设数据库，将所述目标段落和所述预设数据库输入至记忆编码模型，所述目标段落包括至少一个语句，所述记忆编码模型至少包括输入层、第一记忆层和输出层；在所述输入层中，获取所述目标段落的原始向量集合和所述预设数据库的知识向量集合，所述原始向量集合包括所述目标段落中每个语句的语句向量；所述知识向量集合包括所述预设数据库中多条知识数据的知识向量；在所述第一记忆层中，根据所述原始向量集合和所述知识向量集合，获取所述原始向量集合的第一目标语句矩阵，所述第一目标语句矩阵用于根据所述原始向量集合与所述知识向量集合之间的关联关系，对所述目标段落进行描述；在所述输出层中，根据所述第一目标语句矩阵，获取所述目标段落的段落向量；基于所述段落向量进行处理。

【技术特征摘要】
1.一种编码方法，其特征在于，所述方法包括：获取目标段落和预设数据库，将所述目标段落和所述预设数据库输入至记忆编码模型，所述目标段落包括至少一个语句，所述记忆编码模型至少包括输入层、第一记忆层和输出层；在所述输入层中，获取所述目标段落的原始向量集合和所述预设数据库的知识向量集合，所述原始向量集合包括所述目标段落中每个语句的语句向量；所述知识向量集合包括所述预设数据库中多条知识数据的知识向量；在所述第一记忆层中，根据所述原始向量集合和所述知识向量集合，获取所述原始向量集合的第一目标语句矩阵，所述第一目标语句矩阵用于根据所述原始向量集合与所述知识向量集合之间的关联关系，对所述目标段落进行描述；在所述输出层中，根据所述第一目标语句矩阵，获取所述目标段落的段落向量；基于所述段落向量进行处理。2.根据权利要求1所述的方法，其特征在于，所述输入层包括语句编码模型，所述在所述输入层中，获取所述目标段落的原始向量集合和所述预设数据库的知识向量集合，包括：根据所述目标段落中每个语句中每个词语的词向量，应用所述语句编码模型，获取所述每个语句的语句向量，得到所述原始向量集合；根据所述预设数据库中每条知识数据的知识向量，获取所述知识向量集合。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述预设数据库中的每条知识数据；对于每条知识数据，对所述知识数据进行词语划分，得到至少一个词语，获取所述至少一个词语的词向量，根据所述至少一个词语的词向量，获取所述知识数据的知识向量，将所述知识向量与所述知识数据对应存储于所述预设数据库中。4.根据权利要求1所述的方法，其特征在于，所述第一记忆层包括第一记忆模型，所述在所述第一记忆层中，根据所述原始向量集合和所述知识向量集合，获取所述原始向量集合的第一目标语句矩阵，包括：应用所述第一记忆模型，获取所述知识向量集合对应的第一知识矩阵和第二知识矩阵；根据所述原始向量集合、所述第一知识矩阵和所述第二知识矩阵，获取所述原始向量集合的第一目标语句矩阵。5.根据权利要求1所述的方法，其特征在于，所述记忆编码模型还包括第一门控层，所述在所述输出层中，根据所述第一目标语句矩阵，获取所述目标段落的段落向量，包括：在所述第一门控层中，对所述原始向量集合与所述第一目标语句矩阵进行加权求和，得到第二目标语句矩阵，使所述第二目标语句矩阵中的每个数值属于预设数值范围；在所述输出层中，根据所述第二目标语句矩阵，获取所述目标段落的段落向量。6.根据权利要求5所述的方法，其特征在于，所述第一门控层包括线性网络模型，所述在所述第一门控层中，对所述第一目标语句矩阵与所述原始向量集合进行加权求和，得到第二目标语句矩阵，包括：应用所述线性网络模型，获取所述原始向量集合对应的线性数值，采用预设函数对所述线性数值进行处理，得到所述原始向量集合的第一权重，以使所述第一权重属于所述预设数值范围；计算1与所述第一权重的差值，得到所述第一目标语句矩阵的第二权重；按照所述第一权重和所述第二权重，对所述原始向量集合与所述第一目标语句矩阵进行加权求和，得到所述第二目标语句矩阵。7.根据权利要求1所述的方法，其特征在于，所述在所述输出层中，根据所述第一目标语句矩阵，获取所述目标段落的段落向量，包括：对所述第一目标语句矩阵进行列向求和，得到所述段落向量。8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：将所述第一目标语句矩阵作为更新后的原始向量集合和知识向量集合，在所述第一记忆层中，重复执行根据更新后的原始向量集合和知识向量集合获取目标语句矩阵的步骤，直至重复次数达到预设次数时，在所述输出层中，根据当前的目标语句矩阵，获取所述目标段落的段落向量。9.根据权利要求1-7任一项所述的方法，其特征在于，所述记忆编码模型还包括位于所述第一记忆层之前的第二记忆层，所述方法还包括：在所述输入层中，获取目标段落...

【专利技术属性】
技术研发人员：谭翊章，孙硕，曹杰，田乐，牛成，周杰，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人