【技术实现步骤摘要】
基于语义分析的文献相似度确定方法及装置
[0001]本专利技术涉及人工智能
,尤其涉及一种基于语义分析的文献相似度确定方法及装置。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]目前,现有技术在确定文献相似度时,根据人工经验,针对文献不同部分内容预先设置不同权重,最后依据人为设置的固定权重,将各部分内容相似度的加权求和得到的结果确定为文献相似度。现有确定文献相似度的方法凭经验设置权重,存在权重设置不准确,进而导致文献相似度确定也不准确的问题。
技术实现思路
[0004]本专利技术实施例提供一种基于语义分析的文献相似度确定方法,用以基于语义分析准确地确定文献不同部分的权重,进而准确地确定文献相似度,该方法包括:
[0005]将每一待比较文献划分为多个部分;
[0006]对每一部分进行语义分析得到每一部分的语义分析结果;
[0007]根据每一部分的语义分析结果,确定每一待比较 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义分析的文献相似度确定方法,其特征在于,包括:将每一待比较文献划分为多个部分;对每一部分进行语义分析得到每一部分的语义分析结果;根据每一部分的语义分析结果,确定每一待比较文献的每一部分的权重值;根据每一待比较文献的每一部分的权重值,得到每一待比较文献的加权平均结果;根据每一待比较文献的加权平均结果,确定待比较文献之间的相似度。2.如权利要求1所述的基于语义分析的文献相似度确定方法,其特征在于,对每一部分进行语义分析得到每一部分的语义分析结果,包括:对每一部分进行分词处理,得到每一部分对应的多个关键词;根据每一部分对应的多个关键词,以及预设的文献特征提取策略,从每一部分中提取出多个类型的关键特征,构成每一部分对应的特征集合;根据每一部分对应的特征集合,对每一部分进行词级、句法级和篇章级的语义分析,得到每一部分的语义分析结果。3.如权利要求2所述的基于语义分析的文献相似度确定方法,其特征在于,还包括:利用主成分分析法、线性判别分析法和互信息法,对每一部分对应的特征集合进行特征的筛选和组合,得到特征降维处理后的每一部分对应的特征集合;根据每一部分对应的特征集合,对每一部分进行词级、句法级和篇章级的语义分析,得到每一部分的语义分析结果,包括:根据特征降维处理后的每一部分对应的特征集合,对每一部分进行词级、句法级和篇章级的语义分析,得到每一部分的语义分析结果。4.如权利要求2所述的基于语义分析的文献相似度确定方法,其特征在于,所述多个类型的关键特征包括:文献静态特征,文献与查询关联的特征,以及查询的特征。5.如权利要求2所述的基于语义分析的文献相似度确定方法,其特征在于,所述预设的文献特征提取策略包括:根据关键词在文献中出现的频率,关键词的逆文档频率,关...
【专利技术属性】
技术研发人员:程义,李峰,孙正茂,潘磊,杨长青,李君令,张尧尧,郭来中,孙伟,
申请(专利权)人:北京中知智慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。