【技术实现步骤摘要】
文本匹配方法、装置、电子设备以及存储介质
本申请涉及计算机
,具体涉及一种文本匹配方法、装置、电子设备以及存储介质。
技术介绍
自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答以及知识图谱等技术。其中,文本匹配作为文本处理中的一个应用方向,在现实生活中起到重要的作用,比如,论文查重或医疗场景的在线疾病查询等任务。目前的文本匹配算法通常是基于编辑距离的匹配算法来确定两个文本之间是否匹配,现有的编辑距离算法,要么使用字为最小单元,要么使用词为最小单元。以字为最小单元的编辑距离算法可以避免分词误差,而且能更好地处理非规范表达和错别字问题,但自然语言的最小单元是词,这种方法难以利用上大量以词为基础的先验知识。以词为最小单元的编辑距离算法可以利用上大量先验知识,但效果往往受到分词误差的影响,因此,目前的文本匹配方法准确性低。
技术实现思路
本申请提供一种文本匹配方法、装置、电子设备以及存储介质,可以提高文本匹配的准确性。本申请提供了一种文本匹配方法,包括:获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词 ...
【技术保护点】
1.一种文本匹配方法,其特征在于,包括:/n获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;/n对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;/n根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;/n融合各匹配类型下所述候选词与目标参考词之间的匹配度;/n根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。/n
【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:
获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;
对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;
根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;
融合各匹配类型下所述候选词与目标参考词之间的匹配度;
根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:
根据所述候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型;
基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词;
根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度。
3.根据权利要求2所述的方法,其特征在于,所述基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词,包括:
计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词;
计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
计算所述候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词。
4.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词,包括:
在所述参考词典中选择同义词簇集合,所述同义词簇集合包括多个同义词簇,每个同义词簇中包含至少两个词义相同的参考词;
确定与所述候选词的语义相同的同义词簇,得到目标同义词簇;
计算所述候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词;
所述根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:根据所述候选词与第一目标参考词之间的第一编辑距离,生成所述候选词与第一目标参考词之间的第一匹配度。
5.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词,包括:
根据所述候选词的语义以及每个参考词的语义,确定所述候选词与至少一个参考词之间的上下位关系;
基于确定的上下位关系,计算所述候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;
所述根据所述候选词与目标...
【专利技术属性】
技术研发人员:陈曦,向玥佳,刘博,林镇溪,文瑞,管冲,孙继超,高文龙,张子恒,许祈馨,徐超,杨奕凡,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。