基于语义分析的文献相似度确定方法及装置制造方法及图纸

技术编号:33711344 阅读:50 留言:0更新日期:2022-06-06 08:45
本发明专利技术公开了一种基于语义分析的文献相似度确定方法及装置,其中该方法包括:将每一待比较文献划分为多个部分;对每一部分进行语义分析得到每一部分的语义分析结果;根据每一部分的语义分析结果,确定每一待比较文献的每一部分的权重值;根据每一待比较文献的每一部分的权重值,得到每一待比较文献的加权平均结果;根据每一待比较文献的加权平均结果,确定待比较文献之间的相似度。本发明专利技术可以实现基于语义分析准确地确定文献不同部分的权重,进而准确地确定文献相似度。准确地确定文献相似度。准确地确定文献相似度。

【技术实现步骤摘要】
基于语义分析的文献相似度确定方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种基于语义分析的文献相似度确定方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]目前,现有技术在确定文献相似度时,根据人工经验,针对文献不同部分内容预先设置不同权重,最后依据人为设置的固定权重,将各部分内容相似度的加权求和得到的结果确定为文献相似度。现有确定文献相似度的方法凭经验设置权重,存在权重设置不准确,进而导致文献相似度确定也不准确的问题。

技术实现思路

[0004]本专利技术实施例提供一种基于语义分析的文献相似度确定方法,用以基于语义分析准确地确定文献不同部分的权重,进而准确地确定文献相似度,该方法包括:
[0005]将每一待比较文献划分为多个部分;
[0006]对每一部分进行语义分析得到每一部分的语义分析结果;
[0007]根据每一部分的语义分析结果,确定每一待比较文献的每一部分的权重值;
[0008]根据每一待比较文献的每一部分的权重值,得到每一待比较文献的加权平均结果;
[0009]根据每一待比较文献的加权平均结果,确定待比较文献之间的相似度。
[0010]本专利技术实施例还提供一种基于语义分析的文献相似度确定装置,用以基于语义分析准确地确定文献不同部分的权重,进而准确地确定文献相似度,该装置包括:
[0011]划分单元,用于将每一待比较文献划分为多个部分;
[0012]语义分析单元,用于对每一部分进行语义分析得到每一部分的语义分析结果;
[0013]权重值确定单元,用于根据每一部分的语义分析结果,确定每一待比较文献的每一部分的权重值;
[0014]处理单元,用于根据每一待比较文献的每一部分的权重值,得到每一待比较文献的加权平均结果;
[0015]相似度确定单元,用于根据每一待比较文献的加权平均结果确定待比较文献之间的相似度。
[0016]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于语义分析的文献相似度确定方法。
[0017]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于语义分析的文献相似度确定方
法。
[0018]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述基于语义分析的文献相似度确定方法。
[0019]本专利技术实施例中,基于语义分析的文献相似度确定方案,与现有技术中根据经验为文献不同部分内容预先设置不同的固定权重,进而确定文献相似度,存在权重设置不准确,进而导致文献相似度确定也不准确的问题的技术方案相比,通过:将每一待比较文献划分为多个部分;对每一部分进行语义分析得到每一部分的语义分析结果;根据每一部分的语义分析结果,确定每一待比较文献的每一部分的权重值;根据每一待比较文献的每一部分的权重值,得到每一待比较文献的加权平均结果;根据每一待比较文献的加权平均结果,确定待比较文献之间的相似度,可以实现基于语义分析准确地确定文献不同部分的权重,进而准确地确定文献相似度。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0021]图1为本专利技术实施例中基于语义分析的文献相似度确定方法的流程示意图;
[0022]图2为本专利技术实施例中对每一部分进行语义分析得到每一部分的语义分析结果的流程示意图;
[0023]图3为本专利技术另一实施例中对每一部分进行语义分析得到每一部分的语义分析结果的流程示意图;
[0024]图4为本专利技术实施例中文献预处理过程的流程示意图;
[0025]图5为本专利技术实施例中基于语义分析的文献相似度确定装置的结构示意图;
[0026]图6为本专利技术实施例中语义分析单元的结构示意图;
[0027]图7为本专利技术另一实施例中语义分析单元的结构示意图;
[0028]图8为本专利技术实施例中专业领域中文分词训练过程示意图。
具体实施方式
[0029]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0030]图1为本专利技术实施例中基于语义分析的文献相似度确定方法的流程示意图,如图 1所示,该方法包括如下步骤:
[0031]步骤101:将每一待比较文献划分为多个部分;
[0032]步骤102:对每一部分进行语义分析得到每一部分的语义分析结果;
[0033]步骤103:根据每一部分的语义分析结果,确定每一待比较文献的每一部分的权重值;
[0034]步骤104:根据每一待比较文献的每一部分的权重值,得到每一待比较文献的加权
平均结果;
[0035]步骤105:根据每一待比较文献的加权平均结果,确定待比较文献之间的相似度。
[0036]本专利技术实施例提供的基于语义分析的文献相似度确定方法,工作时:将每一待比较文献划分为多个部分(可以称为子文献);对每一部分进行语义分析得到每一部分的语义分析结果;根据每一部分的语义分析结果,确定每一待比较文献的每一部分的权重值;根据每一待比较文献的每一部分的权重值,得到每一待比较文献的加权平均结果;根据每一待比较文献的加权平均结果,确定待比较文献之间的相似度。
[0037]与现有技术中根据经验为文献不同部分内容预先设置不同的固定权重,进而确定文献相似度,存在权重设置不准确,进而导致文献相似度确定也不准确的问题的技术方案相比,本专利技术实施例提供的基于语义分析的文献相似度确定方法可以实现基于语义分析准确地确定文献不同部分的权重,进而准确地确定文献相似度。下面对该基于语义分析的文献相似度确定方法进行详细介绍。
[0038]一、首先,介绍上述步骤101。
[0039]具体实施时,本专利技术实施例中的文献可以是专利文献、商标文献、非专利文献等等。以专利文献为例,将每一待比较文献划分为多个部分可以是专利技术名称、摘要、权利要求和说明书等部分。
[0040]二、接着,介绍上述步骤102。
[0041]在一个实施例中,如图2所示,对每一部分进行语义分析得到每一部分的语义分析结果,可以包括如下步骤:
[0042]步骤1021:对每一部分进行分词处理,得到每一部分对应的多个关键词;
[0043]步骤1022:根据每一部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义分析的文献相似度确定方法,其特征在于,包括:将每一待比较文献划分为多个部分;对每一部分进行语义分析得到每一部分的语义分析结果;根据每一部分的语义分析结果,确定每一待比较文献的每一部分的权重值;根据每一待比较文献的每一部分的权重值,得到每一待比较文献的加权平均结果;根据每一待比较文献的加权平均结果,确定待比较文献之间的相似度。2.如权利要求1所述的基于语义分析的文献相似度确定方法,其特征在于,对每一部分进行语义分析得到每一部分的语义分析结果,包括:对每一部分进行分词处理,得到每一部分对应的多个关键词;根据每一部分对应的多个关键词,以及预设的文献特征提取策略,从每一部分中提取出多个类型的关键特征,构成每一部分对应的特征集合;根据每一部分对应的特征集合,对每一部分进行词级、句法级和篇章级的语义分析,得到每一部分的语义分析结果。3.如权利要求2所述的基于语义分析的文献相似度确定方法,其特征在于,还包括:利用主成分分析法、线性判别分析法和互信息法,对每一部分对应的特征集合进行特征的筛选和组合,得到特征降维处理后的每一部分对应的特征集合;根据每一部分对应的特征集合,对每一部分进行词级、句法级和篇章级的语义分析,得到每一部分的语义分析结果,包括:根据特征降维处理后的每一部分对应的特征集合,对每一部分进行词级、句法级和篇章级的语义分析,得到每一部分的语义分析结果。4.如权利要求2所述的基于语义分析的文献相似度确定方法,其特征在于,所述多个类型的关键特征包括:文献静态特征,文献与查询关联的特征,以及查询的特征。5.如权利要求2所述的基于语义分析的文献相似度确定方法,其特征在于,所述预设的文献特征提取策略包括:根据关键词在文献中出现的频率,关键词的逆文档频率,关...

【专利技术属性】
技术研发人员:程义李峰孙正茂潘磊杨长青李君令张尧尧郭来中孙伟
申请(专利权)人:北京中知智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1