语句释义方法、装置、计算机设备制造方法及图纸

技术编号：21361671 阅读：22 留言：0更新日期：2019-06-15 09:23

本申请涉及一种语句释义方法、装置、计算机设备和存储介质。所述方法包括：获取目标源句子，对所述目标源句子进行预处理得到目标源句子序列；将所述目标源句子序列输入到预设的释义模型，得到与所述目标源句子对应的候选词的概率分布；所述释义模型是根据样本源句子和样本释义句进行模型训练得到的；根据所述候选词的概率分布对所述候选词进行随机采样，得到目标词；根据所述目标词生成与所述目标源句子对应的至少一个目标释义句子。采用本方法能够根据目标源句子生成至少一个目标释义句，提高识别准确性。

Sentence Interpretation Method, Device, Computer Equipment

This application relates to a sentence interpretation method, device, computer equipment and storage medium. The method includes: acquiring target source sentences and preprocessing the target source sentences to obtain target source sentence sequences; inputting the target source sentence sequences into the preset interpretation model to obtain the probability distribution of candidate words corresponding to the target source sentences; the interpretation model is trained according to the model of sample source sentences and sample interpretation sentences; The probability distribution of the selected words is randomly sampled to obtain the target words, and at least one target interpretation sentence corresponding to the target source sentence is generated according to the target words. This method can generate at least one target interpretation sentence according to the target source sentence, and improve the recognition accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
语句释义方法、装置、计算机设备
本申请涉及自然语言处理
，特别是涉及一种语句释义方法、装置、计算机设备和存储介质。
技术介绍
随着自然语言处理领域(NaturalLanguageProcessing，NLP)的发展，出现了释义自动生成技术，该技术被广泛应用于信息检索、语义解析、信息抽取、对话系统中的数据增强以及机器翻译等。例如，较多交互平台都需要将同一种意图的不同句子结构的语句填充到系统中，用于训练意图识别模型，使得当用户同时使用这些不同句子结构的语句的时候，系统都能够准确识别出用户的话语意图。然而，目前的释义自动生成方法，因输入源句子结构复杂、以及不同用户语言习惯的差异性，存在根据目标源句子识别生成的目标释义句的准确性低的问题。
技术实现思路
基于此，有必要针对上述技术问题，提供一种能够提高识别准确性的语句释义方法、装置、计算机设备和存储介质。一种语句释义方法，所述方法包括：获取目标源句子，对所述目标源句子进行预处理得到目标源句子序列；将所述目标源句子序列输入到预设的释义模型，得到与所述目标源句子对应的候选词的概率分布；所述释义模型是根据样本源句子和样本释义句进行模型训练得到的；根据所述候选词的概率分布对所述候选词进行随机采样，得到目标词；根据所述目标词生成与所述目标源句子对应的至少一个目标释义句子。在其中一个实施例中，所述释义模型的生成方式包括：获取中文释义对，根据所述中文释义对构建中文语料库，其中，每个中文释义对包括一个样本源句子和至少一个样本释义句；将所述中文释义对中的样本源句子和样本释义句进行数据预处理得到样本源句子序列和样本释义句序列；根据所...

【技术保护点】
1.一种语句释义方法，所述方法包括：获取目标源句子，对所述目标源句子进行预处理得到目标源句子序列；将所述目标源句子序列输入到预设的释义模型，得到与所述目标源句子对应的候选词的概率分布；所述释义模型是根据样本源句子和样本释义句进行模型训练得到的；根据所述候选词的概率分布对所述候选词进行随机采样，得到目标词；根据所述目标词生成与所述目标源句子对应的至少一个目标释义句子。

【技术特征摘要】
1.一种语句释义方法，所述方法包括：获取目标源句子，对所述目标源句子进行预处理得到目标源句子序列；将所述目标源句子序列输入到预设的释义模型，得到与所述目标源句子对应的候选词的概率分布；所述释义模型是根据样本源句子和样本释义句进行模型训练得到的；根据所述候选词的概率分布对所述候选词进行随机采样，得到目标词；根据所述目标词生成与所述目标源句子对应的至少一个目标释义句子。2.根据权利要求1所述的方法，其特征在于，所述释义模型的生成方式包括：获取中文释义对，根据所述中文释义对构建中文语料库，其中，每个中文释义对包括一个样本源句子和至少一个样本释义句；将所述中文释义对中的样本源句子和样本释义句进行数据预处理得到样本源句子序列和样本释义句序列；根据所述样本源句子序列和样本释义句序列进行模型训练得到释义模型。3.根据权利要求2所述的方法，其特征在于，所述获取中文释义对，根据所述中文释义对构建中文语料库，包括：对包含英文源句子和英文释义句的英文释义对，进行翻译处理，得到包含中文源句子和中文释义句的中文释义对，统计所述中文源句子和所述中文释义句长度，选取所述中文源句子和所述中文释义句长度均不大于预设的长度阈值的中文释义对，得到第一语料库；对预配置的特定场景的中文源句子进行同义词和句子结构变换处理，得到所述特定场景的中文释义句，根据所述特定场景的中文源句子和所述特定场景的中文释义句构成第二语料库；根据所述第一语料库和所述第二语料库构建中文语料库。4.根据权利要求2所述的方法，其特征在于，所述将所述中文释义对中的样本源句子和样本释义句进行数据预处理得到样本源句子序列和样本释义句序列，包括：获取中文释义对中的样本源句子和样本释义句；根据所述样本源句子和样本释义句进行分词处理得到各自对应的词语序列；根据词语与索引值的对应关系将所述词语序列转换为对应的索引值序列；将所述样本源句子对应的索引值序列的向量表示作为样本源句子序列，以及将所述样本释义句对应的索引值序列的向量表示作为样本释义句序列。5.根据权利要求2所述的方法，其特征在于，所述根据所述样本源句子序列和样本释义句序列进行模型训练得到释义模型，包括：获取所述释义模型的权值矩阵的初始值；根据输入的所述样本源句子序列和所述样本释义句序列进行模型训练，根据所述释义模型的损失函数对所述权重矩阵的初始值进行更新，直到所述损失函数的值达到预设的范围或模型训练次数达到所述预设的训练次数，得到更新后的权值矩阵的目标值。6.根据权利要求5所述的方法，其特征在于，所述根据输入的所述样本源句子序列和所述样本释义句序列进行模型训练，根据所述释义模型的损失函数对所述权重矩阵的初始值进行更新，直到所述损失函数的值达到预设的范围或模型训练次数达到所述预设的训练次数，得到更新后的权值矩阵的目标值，包括：通过所述释义模型的输入层获取所述样本源句子序列和所述样本释义句序列，将所述样本源句子序列输入到编码模块中，得到样本源句子的隐含状态信息和样本源句子的高层特征信息；将所述样本源句子的隐含状态信息和所述样本源句子的高层特征信息，以及所述样本释义句序列输入到解码模块，得到样本释义句隐含状态信息和样本释义句的高层特征信息；根据所述样本源句子的隐含状态信息和所述样本释义句的隐含状态信息，计算得到样本释义句的注意力向量；将所述注意力向量和所述样本释义句的高层特征信息输入到分类层，得到与所述样本源句子对应的候选词的概率分布；根据所述候选词的概率分布计算得...

【专利技术属性】
技术研发人员：宁义双，陈桓，闵刚，张良杰，
申请(专利权)人：金蝶软件中国有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人