基于语义识别的文本匹配方法、设备及设备可读存储介质组成比例

技术编号:29527295 阅读:10 留言:0更新日期:2021-08-03 15:13
本发明专利技术实施方式提供了基于语义识别的文本匹配方法、电子设备及计算机可读存储介质,涉及计算机应用技术领域。其中,文本匹配方法包括:获取待匹配文本和目标文本的结构模型,其中,所述结构模型包括多个结构模块,所述结构模块包括:关键词及其对应的句子集;针对所述待匹配文本的结构模型的各结构模块,分别从所述目标文本的结构模型中识别出对应的结构模块,以构建模块组;根据各所述模块组内模块之间的相似度,生成所述待匹配文本的匹配结果。本发明专利技术所提供的方法基于关键词以及对应的句子集构建文本的结构模型来进行文本之间的匹配,可以充分利用文本的结构信息执行匹配任务,对于长文本而言,能够提供更高质量的文本匹配结果。

【技术实现步骤摘要】
基于语义识别的文本匹配方法、设备及设备可读存储介质
本专利技术涉及计算机应用
,更为具体而言,涉及文本匹配方法、电子设备以及计算机可读存储介质。
技术介绍
近年来随着移动互联网的蓬勃发展,涌现了大量基于内容分发服务的应用程序和相关自媒体平台,它们在人们的日常生活中扮演着越来越重要的角色。常见的内容平台比如:今日头条、微信公众号、天天快报等随时为广大的用户群体提供及时且海量的资讯信息和多元的数字富媒体内容,同时深刻地改变了人们获取信息的方式和途径。这些平台不仅致力于为用户的搜索查询需求提供相关的内容服务,更重要的功能是主动向用户推荐其平台的内容,这样才能更好地满足用户潜在的需求,从而吸引用户停留来提升其使用对应软件的频率,最终提升软件自身的日活跃度。其中,这些平台所提供的内容信息很大一部分均以文字为主要载体,用户可以通过阅读文字来高效地从文本内容当中获取信息和观点评论。当用户完成阅读一篇文章,软件平台常常会根据用户的兴趣和习惯主动为其推荐相同或者相近话题的其他文章。而如何判断文章之间的主要内容是否关于相同或相近的主题,即判断一对文章之间的关系,其实可以归结为自然语言处理领域中的文本语义匹配任务。可见,随着文本语义匹配技术的发展,待匹配文本的序列长度逐渐由短文本向长文本过渡。尽管大量的针对短文本匹配任务的相关工作在建模两个序列的相似度上通过设计更好的模型算法达到了优异的效果,但是伴随着文本长度的显著变化,直接将长文本输入原来的短文本匹配算法并不能得到令人满意的结果。
技术实现思路
>本专利技术实施方式的目的在于提供文本匹配方法、电子设备以及计算机可读存储介质,以实现现有技术中所存在的上述问题。具体技术方案如下:在本专利技术实施的一方面,提供了一种文本匹配方法。具体地,所述方法包括:获取待匹配文本和目标文本中的结构模型,其中,所述结构模型包括多个结构模块,所述结构模块包括:关键词及其对应的句子集;针对所述待匹配文本的结构模型的各结构模块,分别从所述目标文本的结构模型中识别出对应的结构模块,以构建模块组;根据各所述模块组内模块之间的相似度,生成所述待匹配文本的匹配结果。在本专利技术实施的又一方面,还提供了一种电子设备。具体地,所述电子设备包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述文本匹配方法。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质。具体地,所述计算机可读存储介质中存储有计算机程序,该程序被处理器执行时实现上述文本匹配方法。本专利技术实施方式提供的文本匹配方法、电子设备以及计算机可读存储介质,基于关键词以及对应的句子集构建文本的结构模型来进行文本之间的匹配,可以充分利用文本的结构信息执行匹配任务,对于长文本而言,能够提供更高质量的文本匹配结果。附图说明为了更清楚地说明本专利技术实施方式的技术方案,下面将对实施方式描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施方式1的文本匹配方法的流程图;图2是根据本专利技术实施方式2的文本匹配方法的流程图;图3是根据本专利技术实施方式3的文本匹配方法的流程图;图4示出了图2所示的处理S240的一种实施方式;图5是根据本专利技术实施方式的一种电子设备的结构示意图。具体实施方式以下结合附图和具体实施方式对本专利技术的各个方面进行详细阐述。其中,在本专利技术的各个具体实施方式中,众所周知的操作过程、程序模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施例中以任何方式组合。此外,本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本专利技术的保护范围。本领域的技术人员还可以容易理解,本文所述和附图所示的各实施方式中的程序模块、单元或步骤可以按多种不同配置进行组合和设计。对于未在本说明书中进行具体说明的技术术语,除非另有特定说明,都应以本领域最宽泛的意思进行解释。在本专利技术的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的标号如S10、S11等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。下面将结合附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本专利技术的一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。【实施方式1】图1是根据本专利技术方法实施方式1的文本匹配方法的流程图。参见图1,在本实施方式中,所述方法包括:S110:获取待匹配文本和目标文本中的结构模型。其中,所述结构模型包括多个结构模块;所述结构模块包括:关键词及其对应的句子集。S120:针对所述待匹配文本的结构模型的各结构模块,分别从所述目标文本的结构模型中识别出对应的结构模块,以构建模块组。例如,针对待匹配文本的结构模型中的各结构模块,分别计算其与目标文本的结构模型中的各结构模块的模块相似度。将相似度最高的两个模块组成模块组。然后,从剩下的模块中,筛选出相似度最高的两个模块组成模块组,不断重复这一处理,直到每一个模块都被分配至某一模块组(所有模块都完成了分组)。其中,所述模块相似度是指两个或多个模块之间的相似程度。当然,在本实施方式的其他实施例中,也可以通过其他方式进行模块的分组,例如,将不同结构模型中模块编号相同的模块划分为一组(按照模块的权重对模块进行编号)。S130:根据各所述模块组内模块之间的相似度,生成所述待匹配文本的匹配结果。在本实施方式中,基于关键词以及对应的句子集构建文本的结构模型来进行文本之间的匹配,可以充分利用文本的结构信息执行匹配任务,对于长文本而言,能够提供更高质量的文本匹配结果。【实施方式2】图2是根据本专利技术方法实施方式2的文本匹配方法的流程图。参见图2,在本实施方式中,所述方法包括:S210:获取待匹配文本和目标文本中的结构模型。其中,所述结构模型包括多个结构模块;所述结构模块包括:关键词及其对应的句子集。S220:针对待匹配文本的结构模型中的各结构模块,分别计算其与目标文本的结构模型中的各结构模块的模块相似度(模本文档来自技高网...

【技术保护点】
1.一种文本匹配方法,其特征在于,所述方法包括:/n获取待匹配文本和目标文本的结构模型,其中,所述结构模型包括多个结构模块,所述结构模块包括:关键词及其对应的句子集;/n针对所述待匹配文本的结构模型的各结构模块,分别从所述目标文本的结构模型中识别出对应的结构模块,以构建模块组;/n根据各所述模块组内模块之间的相似度,生成所述待匹配文本的匹配结果。/n

【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述方法包括:
获取待匹配文本和目标文本的结构模型,其中,所述结构模型包括多个结构模块,所述结构模块包括:关键词及其对应的句子集;
针对所述待匹配文本的结构模型的各结构模块,分别从所述目标文本的结构模型中识别出对应的结构模块,以构建模块组;
根据各所述模块组内模块之间的相似度,生成所述待匹配文本的匹配结果。


2.根据权利要求1所述的方法,其特征在于,在根据各所述模块组内模块之间的相似度,生成所述待匹配文本的匹配结果之前,所述方法还包括:
分别通过以下处理计算各所述模块组内模块之间的相似度:
计算模块之间所述关键词的相似度,作为第一子相似度;
计算模块之间所述句子集的相似度,作为第二子相似度;
基于所述第一子相似度与所述第二子相似度的加权平均值,生成模块之间的相似度。


3.根据权利要求1所述的方法,其特征在于,在获取待匹配文本和目标文本的结构模型之前,所述方法还包括:
分别通过以下处理构建所述待匹配文本和所述目标文本的结构模型:
从文本中抽取关键词;
基于文本中的句子与关键词之间的相关度,将句子进行划分,其中,被划分至同一关键词的一个或多个句子构成该关键词所对应的句子集;
将每个关键词及其对应的句子集定义为一个结构模块;
整合所有的结构模块以构建所述结构模型。


4.根据权利要求2所述的方法,其特征在于,在基于所述第一子相似度与所述第二子相似度的加权平均值,生成模块之间的相似度之前,所述方法还包括:
针对所述模块组中的各模块,分别计算其所包含的关键词与句子集之间的相关度;
将所述模块组的所述相关度的平均值与设定阈值进行比较;
若小于或等于所述设定阈值,则将所述第一子相似度的权重设置为小于所述第二子相似度的权重。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若大于所述设定阈值,则将所述第一子相似度的权重设置为与所述第二子相似度的权重一致。

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:武汉红火蚁智能科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1