【技术实现步骤摘要】
一种基于多重余弦定理的文章相关度计算方法
本专利技术涉及一种基于多重余弦定理的文章相关度计算方法,属于信息处理
技术介绍
文章相关度的计算是信息处理领域中的一项基本研究工作,主要应用于文章分类、推荐等。目前,对文章相关度的研究方法主要分为两类:基于统计学和基于语义分析。这两类方法都有各自的优缺点,其中基于统计学的方法需要大量文章作为训练,基于语义分析的方法则需要提前准备较为完整的语义词典。但是现阶段,利用计算机对文章相关度的计算这一技术并不成熟,准确性欠佳、灵活性差等现象一直存在,在很多情况下还需要人工对其进行计算、估计。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种基于多重余弦定理的文章相关度计算方法,主要解决利用计算机对文章相关度的计算这一技术准确性欠佳、灵活性差等现象。本专利技术的技术方案是:一种基于多重余弦定理的文章相关度计算方法,该方法具体包括以下步骤:Step0:获取文章集合{X1,X2…Xp},对文章X,X∈{X1,X2…Xp}进行预处理,并建立文章数据库,具体如Step0.1~Step0.4所示;Step0.1 ...
【技术保护点】
1.一种基于多重余弦定理的文章相关度计算方法,其特征在于:Step0:获取文章集合{X1,X2…Xp},对文章X,X∈{X1,X2…Xp}进行预处理,并建立动态文章数据库,具体如Step0.1~Step0.4所示;Step0.1:对文章X进行分词、去停用词、同义词替换操作,生成文章的实意词集合X:{x1,x2…xm};Step0.2:以TFIDF值为主,该文章中出现该词的词频、词性、词长为辅,遍历Step0.1中得到的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step0.3:以实意词xi,i∈ ...
【技术特征摘要】
1.一种基于多重余弦定理的文章相关度计算方法,其特征在于:Step0:获取文章集合{X1,X2…Xp},对文章X,X∈{X1,X2…Xp}进行预处理,并建立动态文章数据库,具体如Step0.1~Step0.4所示;Step0.1:对文章X进行分词、去停用词、同义词替换操作,生成文章的实意词集合X:{x1,x2…xm};Step0.2:以TFIDF值为主,该文章中出现该词的词频、词性、词长为辅,遍历Step0.1中得到的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step0.3:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step0.2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};Step0.4:将文章X、实意词集合X:{x1,x2…xm}、实意词权重集合Y:{y1,y2…ym}、关键词集合X':{x1',x2'…xn'}及关键词权重集合Y':{y1',y2'…yn'}作为元组加入文章数据库;Step1:从文章数据库中获取待比较文章T和比较文章H;Step2:以待比较文章T的实意词集合XT:{t1,t2…tm}和实意词权重集合YT:{y1,y2…ym},生成实意词特征向量FT={ft1,ft2…ftg},同样对比较文章H也以此生成实意词特征向量FH={fh1,fh2…fhg},由余弦定理计算公式(1)确定待比较文章T与比较文章H之间的实意词相关度R1(T,H);Step3:以待比较文章T的关键词集合XT':{t1',t2'…tn'}和关键词权重集合YT':{y1',y2'…yn'},生成关键词特征向量FT'={ft'1,ft'2…ft'g},同样对比较文章H也以此生成关键词特征向量FH'={fh'1,fh'2…fh'g},由余弦定理计算公式(2)确定待比较文章T与比较文章H之间的关键...
【专利技术属性】
技术研发人员:龙华,祁俊辉,彭艺,杜庆治,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。