【技术实现步骤摘要】
一种文本匹配方法、设备和计算机可读存储介质
[0001]本申请涉及人工智能
,特别是涉及一种文本匹配方法、设备和计算机可读存储介质。
技术介绍
[0002]自然语言处理(NLP)是计算机科学领域与人工智能领域的一个重要分支。文本匹配是自然语言处理的一个重要任务,目标可以为判断两篇输入的文本是否相似,可以用于查重、文章检索、对话系统等多种应用场景。
[0003]本申请的申请人在长期的研发过程中发现,现有的文本匹配方式在对文本匹配的过程中,尤其是长文本匹配的过程中,匹配的准确性不理想。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种文本匹配方法、设备和计算机可读存储介质,能够提高文本匹配准确性。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种文本匹配方法,该方法包括:获取待匹配文本对;对各待匹配文本,基于待匹配文本中包含的至少两种表示单元,获取每种表示单元对应的待匹配文本的表示,对每种表示单元对应的待匹配文本的表示进行融合,得到待匹配文本的第一文本表示,其 ...
【技术保护点】
【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述方法包括:获取待匹配文本对;对各所述待匹配文本,基于所述待匹配文本中包含的至少两种表示单元,获取每种所述表示单元对应的所述待匹配文本的表示,对所述每种所述表示单元对应的所述待匹配文本的表示进行融合,得到所述待匹配文本的第一文本表示,其中,所述表示单元为字、句子、全文、关键词、关键句、实体中的任意一种;基于各所述待匹配文本的第一文本表示,获取所述待匹配文本对的匹配结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述待匹配文本中包含的至少两种表示单元,获取每种所述表示单元对应的所述待匹配文本的表示,包括:获取所述待匹配文本中所有所述表示单元的子表示;对同一类型的所述表示单元的所述子表示进行融合,得到各类型的所述表示单元分别对应的所述待匹配文本的表示。3.根据权利要求2所述的方法,其特征在于,所述获取所述待匹配文本中所有所述表示单元的子表示,包括:对各类型的所述表示单元,按照所述类型对应的表示规则对所述表示单元进行表示,得到所有所述表示单元的子表示;其中,字类型的所述表示单元的表示规则包括,获取所述表示单元对应的预设表示以作为所述子表示,和/或,利用预设文本表示模型对所述表示单元进行处理以得到所述子表示;关键词类型、实体类型的所述表示单元的表示规则包括,从所述待匹配文本中提取所述表示单元,利用所述表示单元中包含的字的表示进行融合以得到所述子表示;句子类型的所述表示单元的表示规则包括,利用所述表示单元中包含的字的表示进行融合以得到所述子表示,和/或,利用预设文本表示模型对所述表示单元进行处理以得到所述子表示;关键句类型的所述表示单元的表示规则包括,从所述待匹配文本中提取所述表示单元,利用所述表示单元中包含的字的表示进行融合以得到所述子表示,和/或,利用预设文本表示模型对所述表示单元进行处理以得到所述子表示;全文类型的所述表示单元的表示规则包括,利用所述表示单元中包含的字或者句子的表示进行融合以得到所述子表示,和/或,利用预设文本表示算法对所述表示单元进行表示以得到所述子表示。4.根据权利要求1所述的方法,其特征在于,所述基于各所述待匹配文本的第一文本表示,获取所述待匹配文本对的匹配结...
【专利技术属性】
技术研发人员:沈芳婷,陈瑶,林聚财,殷俊,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。