文本语义匹配方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：20680932 阅读：20 留言：0更新日期：2019-03-27 18:53

本申请涉及一种基于自然语言处理的文本语义匹配方法、装置、计算机设备和存储介质。所述方法包括：获取第一文本和第二文本；提取第一文本的第一词向量序列和第二文本的第二词向量序列，将所述第一词向量序列和第二词向量序列分别输入预先设置的双向长短期记忆网络，得到双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示，将第一语义表示和第二语义表示进行组合后，输入预先设置的神经网络模型，得到神经网络模型输出的匹配标签，根据匹配标签，确定匹配标签与预设标签是否匹配，若匹配，则确定第一文本和第二文本的语义匹配。采用本方法能够提高文本语义匹配的效率以及准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本语义匹配方法、装置、计算机设备和存储介质
本申请涉及计算机
，特别是涉及一种文本语义匹配方法、装置、计算机设备和存储介质。
技术介绍
语义匹配是指将两个或者两个以上的自然语句的语义进行解析，若两个句子的语义相近或者相同，即可以认为两个或者两个以上的自然语句的语义匹配。语义匹配可以运用在新闻事件分类的场景下，通过语义匹配的方法，将语义匹配的新闻事件归为一类，从而对新闻事件进行分类。现有的分类方式有两种，一种是人工分类，即通过查阅新闻文本的内容，然后判断两个新闻文本是否描述的是同一事件，这种方式耗时耗力，而且效率非常低；另一种是通过机器学习进行分类，在通过机器学习进行分类时，首先需要提取新闻文本的特征，然后通过构建分类模型，将两个新闻文本的特征输入分类模型中进行分类，以此判断两个新闻文本是否相近。然而，对于分类模型预测的准确性，完全取决于提取的特征是否能体现新闻文本的语义，由于对于不同行业，不同类型的新闻事件，可能需要选取不同类型的特征，因此特征选取不当，可能造成分类的准确性下降。
技术实现思路
基于此，有必要针对上述技术问题，提供一种能够解决语义分类时效率低下以及准确性低问题的文本语义匹配方法、装置、计算机设备和存储介质。一种文本语义匹配方法，所述方法包括：获取第一文本和第二文本；提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列；将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示；将所述第一语义表示和所述第二语义表...

【技术保护点】
1.一种文本语义匹配方法，所述方法包括：获取第一文本和第二文本；提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列；将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示；将所述第一语义表示和所述第二语义表示进行组合后，输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签；根据所述匹配标签，确定所述匹配标签与预设标签是否匹配，若匹配，则确定所述第一文本和所述第二文本的语义匹配。

【技术特征摘要】
1.一种文本语义匹配方法，所述方法包括：获取第一文本和第二文本；提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列；将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示；将所述第一语义表示和所述第二语义表示进行组合后，输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签；根据所述匹配标签，确定所述匹配标签与预设标签是否匹配，若匹配，则确定所述第一文本和所述第二文本的语义匹配。2.根据权利要求1所述的方法，其特征在于，在提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列之前，还包括：分别对所述第一文本和所述第二文本进行特征提取，得到所述第一文本的第一文本特征和第二文本的第二文本特征；所述提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列，包括：根据第一文本的所述第一文本特征得到第一词向量序列，以及根据第二文本的所述第二文本特征得到第二词向量序列。3.根据权利要求2所述的方法，其特征在于，所述分别对所述第一文本和所述第二文本进行特征提取，得到所述第一文本的第一文本特征和第二文本的第二文本特征，包括：对所述第一文本进行分词，得到第一单词集合，对所述第一单词集合中的单词进行从左至右的排序，得到第一文本特征；对所述第二文本进行分词，得到第二单词集合，对所述第二单词集合中的单词进行从左至右的排序，得到第二文本特征。4.根据权利要求3所述的方法，其特征在于，所述根据第一文本的所述第一文本特征得到第一词向量序列，以及根据第二文本的所述第二文本特征得到第二词向量序列，包括：根据预设维度的词语表，将所述第一文本特征中每个单词分别查询所述词语表，得到第一词向量集合；将所述第一词向量集合中的词向量进行从左至右的排序，得到第一词向量序列；将所述第二文本特征中每个单词查询所述词语表，得到第二词向量集合；将所述第二词向量集合中的词向量进行从左至右的排序，得到第二词向量序列。5.根据权利要求1所述的方法，其特征在于，所述神经网络模型训练的步骤，包括：将第一标注文本和第二标注文本分别输入所述双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一标注语义表示和第二标注语义表示；将所述...

【专利技术属性】
技术研发人员：徐冰，张晓，汪伟，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人