文本匹配方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:26343152 阅读:11 留言:0更新日期:2020-11-13 20:42
本申请公开了一种文本匹配方法、装置、电子设备以及存储介质,包括:获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;融合各匹配类型下所述候选词与目标参考词之间的匹配度;根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本,该方案可以提高文本匹配的准确性。

【技术实现步骤摘要】
文本匹配方法、装置、电子设备以及存储介质
本申请涉及计算机
,具体涉及一种文本匹配方法、装置、电子设备以及存储介质。
技术介绍
自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答以及知识图谱等技术。其中,文本匹配作为文本处理中的一个应用方向,在现实生活中起到重要的作用,比如,论文查重或医疗场景的在线疾病查询等任务。目前的文本匹配算法通常是基于编辑距离的匹配算法来确定两个文本之间是否匹配,现有的编辑距离算法,要么使用字为最小单元,要么使用词为最小单元。以字为最小单元的编辑距离算法可以避免分词误差,而且能更好地处理非规范表达和错别字问题,但自然语言的最小单元是词,这种方法难以利用上大量以词为基础的先验知识。以词为最小单元的编辑距离算法可以利用上大量先验知识,但效果往往受到分词误差的影响,因此,目前的文本匹配方法准确性低。
技术实现思路
本申请提供一种文本匹配方法、装置、电子设备以及存储介质,可以提高文本匹配的准确性。本申请提供了一种文本匹配方法,包括:获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;根据所述候选词与参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;融合各匹配类型下所述候选词与目标参考词之间的匹配度;根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。相应的,本申请还提供了一种文本匹配装置,包括:获取模块,用于获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;组合模块,用于对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;生成模块,用于根据所述候选词与参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;融合模块,用于融合各匹配类型下所述候选词与目标参考词之间的匹配度;输出模块,用于根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。可选的,在本申请的一些实施例中,所述生成模块包括:确定子模块,用于根据所述候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型;计算子模块,用于基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词;生成子模块,用于根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度。可选的,在本申请的一些实施例中,所述计算子模块包括:第一计算单元,用于计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词;第二计算单元,用于计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;第三计算单元,用于计算所述候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词。可选的,在本申请的一些实施例中,所述第一计算单元具体用于:在所述参考词典中选择同义词簇集合,所述同义词簇集合包括多个同义词簇,每个同义词簇中包含至少两个词义相同的参考词;确定与所述候选词的语义相同的同义词簇,得到目标同义词簇;计算所述候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词;所述生成子模块具体用于:根据所述候选词与第一目标参考词之间的第一编辑距离,生成所述候选词与第一目标参考词之间的第一匹配度。可选的,在本申请的一些实施例中,所述第二计算单元具体用于:根据所述候选词的语义以及每个参考词的语义,确定所述候选词与至少一个参考词之间的上下位关系;基于确定的上下位关系,计算所述候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;所述生成子模块具体用于:根据所述候选词与第二目标参考词之间的第二编辑距离,生成所述候选词与第二目标参考词之间的第二匹配度。可选的,在本申请的一些实施例中,所述第三计算单元包括:采集子单元,用于采集每个参考词预先建立的权重值;计算子单元,用于计算所述候选词与每个参考词之间的相似度,并将相似度大于预设值的参考词确定为待选词;确定子单元,用于根据确定的待选词的权重,计算所述候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词;所述生成子模块具体用于:根据所述候选词与第三目标参考词之间的第三编辑距离,生成所述候选词与第三目标参考词之间的第三匹配度。可选的,在本申请的一些实施例中,所述确定子单元具体用于:计算所述候选词与权重小于预设权重的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词。可选的,在本申请的一些实施例中,所述融合模块具体用于:获取各匹配类型对应的预设权重系数;计算获取的权重系数与对应匹配类型下所述候选词与目标参考词之间的匹配度的乘积,得到各匹配类型对应的赋权后匹配度;融合各匹配类型对应的赋权后匹配度。可选的,在本申请的一些实施例中,所述组合模块具体用于:识别每个文本单字的词性;去除词性为助词的文本单字,并对保留的文本单字进行排列组合,得到与至少一个参考词语义关联的候选词。本申请首先获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词,然后,对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,接着,根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,再然后,融合各匹配类型下所述候选词与目标参考词之间的匹配度,最后,根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本,因此,本方案可以提高文本匹配的准确性。附图说明为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附本文档来自技高网...

【技术保护点】
1.一种文本匹配方法,其特征在于,包括:/n获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;/n对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;/n根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;/n融合各匹配类型下所述候选词与目标参考词之间的匹配度;/n根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。/n

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:
获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;
对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;
根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;
融合各匹配类型下所述候选词与目标参考词之间的匹配度;
根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。


2.根据权利要求1所述的方法,其特征在于,所述根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:
根据所述候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型;
基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词;
根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度。


3.根据权利要求2所述的方法,其特征在于,所述基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词,包括:
计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词;
计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
计算所述候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词。


4.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词,包括:
在所述参考词典中选择同义词簇集合,所述同义词簇集合包括多个同义词簇,每个同义词簇中包含至少两个词义相同的参考词;
确定与所述候选词的语义相同的同义词簇,得到目标同义词簇;
计算所述候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词;
所述根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:根据所述候选词与第一目标参考词之间的第一编辑距离,生成所述候选词与第一目标参考词之间的第一匹配度。


5.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词,包括:
根据所述候选词的语义以及每个参考词的语义,确定所述候选词与至少一个参考词之间的上下位关系;
基于确定的上下位关系,计算所述候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
所述根据所述候选词与目标...

【专利技术属性】
技术研发人员:陈曦向玥佳刘博林镇溪文瑞管冲孙继超高文龙张子恒许祈馨徐超杨奕凡
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1