文本语义匹配方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20680932 阅读:20 留言:0更新日期:2019-03-27 18:53
本申请涉及一种基于自然语言处理的文本语义匹配方法、装置、计算机设备和存储介质。所述方法包括:获取第一文本和第二文本;提取第一文本的第一词向量序列和第二文本的第二词向量序列,将所述第一词向量序列和第二词向量序列分别输入预先设置的双向长短期记忆网络,得到双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示,将第一语义表示和第二语义表示进行组合后,输入预先设置的神经网络模型,得到神经网络模型输出的匹配标签,根据匹配标签,确定匹配标签与预设标签是否匹配,若匹配,则确定第一文本和第二文本的语义匹配。采用本方法能够提高文本语义匹配的效率以及准确性。

【技术实现步骤摘要】
文本语义匹配方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种文本语义匹配方法、装置、计算机设备和存储介质。
技术介绍
语义匹配是指将两个或者两个以上的自然语句的语义进行解析,若两个句子的语义相近或者相同,即可以认为两个或者两个以上的自然语句的语义匹配。语义匹配可以运用在新闻事件分类的场景下,通过语义匹配的方法,将语义匹配的新闻事件归为一类,从而对新闻事件进行分类。现有的分类方式有两种,一种是人工分类,即通过查阅新闻文本的内容,然后判断两个新闻文本是否描述的是同一事件,这种方式耗时耗力,而且效率非常低;另一种是通过机器学习进行分类,在通过机器学习进行分类时,首先需要提取新闻文本的特征,然后通过构建分类模型,将两个新闻文本的特征输入分类模型中进行分类,以此判断两个新闻文本是否相近。然而,对于分类模型预测的准确性,完全取决于提取的特征是否能体现新闻文本的语义,由于对于不同行业,不同类型的新闻事件,可能需要选取不同类型的特征,因此特征选取不当,可能造成分类的准确性下降。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决语义分类时效率低下以及准确性低问题的文本语义匹配方法、装置、计算机设备和存储介质。一种文本语义匹配方法,所述方法包括:获取第一文本和第二文本;提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列;将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络,得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示;将所述第一语义表示和所述第二语义表示进行组合后,输入预先设置的神经网络模型,得到所述神经网络模型输出的匹配标签;根据所述匹配标签,确定所述匹配标签与预设标签是否匹配,若匹配,则确定所述第一文本和所述第二文本的语义匹配。在其中一个实施例中,还包括:分别对所述第一文本和所述第二文本进行特征提取,得到所述第一文本的第一文本特征和第二文本的第二文本特征;根据第一文本的所述第一文本特征得到第一词向量序列,以及根据第二文本的所述第二文本特征得到第二词向量序列。在其中一个实施例中,还包括:对所述第一文本进行分词,得到第一单词集合,对所述第一单词集合中的单词进行从左至右的排序,得到第一文本特征;对所述第二文本进行分词,得到第二单词集合,对所述第二单词集合中的单词进行从左至右的排序,得到第二文本特征。在其中一个实施例中,还包括:根据预设维度的词语表,将所述第一文本特征中每个单词分别查询所述词语表,得到第一词向量集合;将所述第一词向量集合中的词向量进行从左至右的排序,得到第一词向量序列;将所述第二文本特征中每个单词查询所述词语表,得到第二词向量集合;将所述第二词向量集合中的词向量进行从左至右的排序,得到第二词向量序列。在其中一个实施例中,还包括:将第一标注文本和第二标注文本分别输入所述双向长短期记忆网络,得到所述双向长短期记忆网络输出的第一标注输出值和第二标注输出值;将所述第一标注输出值和所述第二标注输出值进行组合后,输入初始神经网络;根据第一标注文本和第二标注文本的目标标签以及预先设置的终止条件,利用预先设置的样本集对所述初始神经网络进行迭代,当所述初始神经网络输出所述目标标签的概率达到所述终止条件时,得到所述神经网络模型。在其中一个实施例中,所述匹配标签为1或0,所述预设标签为1;还包括:当所述匹配标签为1时,确定所述匹配标签与所述预设标签匹配,确定所述第一文本和所述第二文本的语义匹配;当所述匹配标签为0时,确定所述匹配标签与所述预设标签不匹配,确定所述第一文本和所述第二文本的语义不匹配。在其中一个实施例中,所述第一语义表示和所述第二语义表示均为N维向量;还包括:将所述第一语义表示和所述第二语义表示进行拼接,得到2*N维的组合特征向量;所述组合特征向量输入预先设置的神经网络模型,得到所述神经网络模型输出的匹配标签。一种文本语义匹配装置,所述装置包括:获取模型,用于获取第一文本和第二文本;提取模块,用于提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列;转化模块,用于将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络,得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示;标签输出模块,用于将所述第一语义表示和所述第二语义表示进行组合后,输入预先设置的神经网络模型,得到所述神经网络模型输出的匹配标签;匹配模块,用于根据所述匹配标签,确定所述匹配标签与预设标签是否匹配,若匹配,则确定所述第一文本和所述第二文本的语义匹配。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取第一文本和第二文本;提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列;将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络,得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示;将所述第一语义表示和所述第二语义表示进行组合后,输入预先设置的神经网络模型,得到所述神经网络模型输出的匹配标签;根据所述匹配标签,确定所述匹配标签与预设标签是否匹配,若匹配,则确定所述第一文本和所述第二文本的语义匹配。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取第一文本和第二文本;提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列;将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络,得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示;将所述第一语义表示和所述第二语义表示进行组合后,输入预先设置的神经网络模型,得到所述神经网络模型输出的匹配标签;根据所述匹配标签,确定所述匹配标签与预设标签是否匹配,若匹配,则确定所述第一文本和所述第二文本的语义匹配。上述文本语义匹配方法、装置、计算机设备和存储介质,通过双向长短期记忆网络对第一文本和第二文本分别进行编码,建立第一文本和第二文本的语句结构的联系,无需进行特征提取,然后通过有监督的神经网络模型进行语义匹配,通过模型输出的标签,即可以确认匹配标签与预设标签是否匹配。上述过程无需人工参与,在大量的样本训练神经网络模型时,可以明显提高匹配的准确性,从而使文本语义匹配的效率以及准确性得到明显提升。附图说明图1为一个实施例中文本语义匹配方法的应用场景图;图2为一个实施例中文本语义匹配方法的流程示意图;图3为一个实施例中提取第一词向量序列和第二词向量序列步骤的流程示意图;图4为一个实施例中神经网络模型训练步骤的流程示意图;图5为另一个实施例中文本语义匹配方法的流程示意图;图6为一个实施例中文本语义匹配装置的结构框图;图7为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的文本语义匹配方法,本文档来自技高网...

【技术保护点】
1.一种文本语义匹配方法,所述方法包括:获取第一文本和第二文本;提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列;将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络,得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示;将所述第一语义表示和所述第二语义表示进行组合后,输入预先设置的神经网络模型,得到所述神经网络模型输出的匹配标签;根据所述匹配标签,确定所述匹配标签与预设标签是否匹配,若匹配,则确定所述第一文本和所述第二文本的语义匹配。

【技术特征摘要】
1.一种文本语义匹配方法,所述方法包括:获取第一文本和第二文本;提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列;将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络,得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示;将所述第一语义表示和所述第二语义表示进行组合后,输入预先设置的神经网络模型,得到所述神经网络模型输出的匹配标签;根据所述匹配标签,确定所述匹配标签与预设标签是否匹配,若匹配,则确定所述第一文本和所述第二文本的语义匹配。2.根据权利要求1所述的方法,其特征在于,在提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列之前,还包括:分别对所述第一文本和所述第二文本进行特征提取,得到所述第一文本的第一文本特征和第二文本的第二文本特征;所述提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列,包括:根据第一文本的所述第一文本特征得到第一词向量序列,以及根据第二文本的所述第二文本特征得到第二词向量序列。3.根据权利要求2所述的方法,其特征在于,所述分别对所述第一文本和所述第二文本进行特征提取,得到所述第一文本的第一文本特征和第二文本的第二文本特征,包括:对所述第一文本进行分词,得到第一单词集合,对所述第一单词集合中的单词进行从左至右的排序,得到第一文本特征;对所述第二文本进行分词,得到第二单词集合,对所述第二单词集合中的单词进行从左至右的排序,得到第二文本特征。4.根据权利要求3所述的方法,其特征在于,所述根据第一文本的所述第一文本特征得到第一词向量序列,以及根据第二文本的所述第二文本特征得到第二词向量序列,包括:根据预设维度的词语表,将所述第一文本特征中每个单词分别查询所述词语表,得到第一词向量集合;将所述第一词向量集合中的词向量进行从左至右的排序,得到第一词向量序列;将所述第二文本特征中每个单词查询所述词语表,得到第二词向量集合;将所述第二词向量集合中的词向量进行从左至右的排序,得到第二词向量序列。5.根据权利要求1所述的方法,其特征在于,所述神经网络模型训练的步骤,包括:将第一标注文本和第二标注文本分别输入所述双向长短期记忆网络,得到所述双向长短期记忆网络输出的第一标注语义表示和第二标注语义表示;将所述...

【专利技术属性】
技术研发人员:徐冰张晓汪伟肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1