一种基于多重余弦定理的文章相关度计算方法技术

技术编号:19903411 阅读:22 留言:0更新日期:2018-12-26 02:54
本发明专利技术涉及一种基于多重余弦定理的文章相关度计算方法,属于信息处理技术领域。本发明专利技术将文章映射为实意词向量和关键词向量,并重新规划词权重,再利用多重余弦定理对现阶段的文章相关度计算方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词频、词性、词长等加权累加;另一方面,对文章计算其相关度还使用了多重余弦定理,分别对其计算实意词相关度和关键词相关度,再由相关定义确定其最终相关度。本发明专利技术与现有技术相比,主要解决了现有技术准确性欠佳、分类易出错、灵活性差等现象,增加了目前利用计算机对文章相关度计算的准确性。

【技术实现步骤摘要】
一种基于多重余弦定理的文章相关度计算方法
本专利技术涉及一种基于多重余弦定理的文章相关度计算方法,属于信息处理

技术介绍
文章相关度的计算是信息处理领域中的一项基本研究工作,主要应用于文章分类、推荐等。目前,对文章相关度的研究方法主要分为两类:基于统计学和基于语义分析。这两类方法都有各自的优缺点,其中基于统计学的方法需要大量文章作为训练,基于语义分析的方法则需要提前准备较为完整的语义词典。但是现阶段,利用计算机对文章相关度的计算这一技术并不成熟,准确性欠佳、灵活性差等现象一直存在,在很多情况下还需要人工对其进行计算、估计。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种基于多重余弦定理的文章相关度计算方法,主要解决利用计算机对文章相关度的计算这一技术准确性欠佳、灵活性差等现象。本专利技术的技术方案是:一种基于多重余弦定理的文章相关度计算方法,该方法具体包括以下步骤:Step0:获取文章集合{X1,X2…Xp},对文章X,X∈{X1,X2…Xp}进行预处理,并建立文章数据库,具体如Step0.1~Step0.4所示;Step0.1:对文章X进行分词、去停用词、同义词替换等操作,生成文章的实意词集合X:{x1,x2…xm};Step0.2:以TFIDF值为主,该文章中出现该词的词频、词性、词长为辅,遍历Step0.1中得到的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step0.3:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step0.2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};Step0.4:将文章X、实意词集合X:{x1,x2…xm}、实意词权重集合Y:{y1,y2…ym}、关键词集合X':{x1',x2'…xn'}及关键词权重集合Y':{y1',y2'…yn'}作为元组加入文章数据库;Step1:从文章数据库中获取待比较文章T和比较文章H;Step2:以待比较文章T的实意词集合XT:{t1,t2…tm}和实意词权重集合YT:{y1,y2…ym},生成实意词特征向量FT={ft1,ft2…ftg},同样对比较文章H也以此生成实意词特征向量FH={fh1,fh2…fhg},由余弦定理计算公式(1)确定待比较文章T与比较文章H之间的实意词相关度R1(T,H);Step3:以待比较文章T的关键词集合XT':{t1',t2'…tn'}和关键词权重集合YT':{y1',y2'…yn'},生成关键词特征向量FT'={ft'1,ft'2…ft'g},同样对比较文章H也以此生成关键词特征向量FH'={fh'1,fh'2…fh'g},由余弦定理计算公式(2)确定待比较文章T与比较文章H之间的关键词相关度R2(T,H);Step4:依照公式(3)计算待比较文章T与比较文章H之间的最终相关度R(T,H),其中γ为阈值参数。进一步地,所述步骤Step0.1中,对文本进行分词、去停用词、同义词替换等操作,可以采用分词包、停用词库、同义词库等。进一步地,所述步骤Step0.2中由公式(4)求其权重;式(4)中分别为词xi,i∈[1,m]的TFIDF值、词频、词性转化值、长度,wtfidf、wfre、wpro、wlen分别为其各参数权重,且满足公式(5)的要求。wtfidf>wfre>wpro>wlen>0,且wtfidf+wpro+wlen+wfre=1(5)进一步地,所述步骤Step0.2中,先对词xi,i∈[1,m]查语义词典,获取该词所属词性,对于不同词性的词xi,i∈[1,m],其对应的词性转化值应满足公式(6)的要求;式(6)中pron、porv、poradj、porother分别对应于名词、动词、形容词、其他词性的词性转化值。pron>porv>poradj>porother>0(6)进一步地,所述步骤Step0.2和Step0.3中,实意词集合X:{x1,x2…xm}和关键词集合X':{x1',x2'…xn'}应满足公式(7)的要求;式(7)中n值可根据实际分类情况调整,以提高准确性。m>n>0(7)进一步地,所述步骤Step0(包括Step0.1~Step0.4)属初始化步骤,在常规计算时只需进行Step1~Step4即可;若有新增文章,需对新增文章进行步骤Step0操作,也可设置为自动学习方式进行。进一步地,所述步骤Step2中,实意词特征向量FT={ft1,ft2…ftg}的长度g为待比较文章T的实意词集合XT:{t1,t2…tm}和比较文章H的实意词集合XH:{h1,h2…hm}的并集集合长度;g=len(XT∪XH)(8)同样,所述步骤Step3中关键词特征向量FT'={ft'1,ft'2…ft'g}的长度g为待比较文章T的关键词集合XT':{t1',t2'…tn'}和比较文章H的关键词集合XH':{h1',h2'…hm'}的并集集合长度。g=len(XT'∪XH')(9)进一步地,所述步骤Step2和Step3中,计算所得的实意词匹配度R1(T,H)和关键词匹配度R2(T,H)理应满足公式(10)的要求,若不满足,则视为计算错误,需重新计算。进一步地,所述步骤Step4中,阈值参数γ可根据实际计算情况调整其值,以提高准确性。本专利技术的有益效果是:解决了现有技术准确性欠佳、分类易出错、灵活性差等现象,增加了目前利用计算机对文章相关度计算的准确性。附图说明图1是本专利技术的流程示意图;图2是本专利技术预处理流程示意图;图3是本专利技术求权重流程示意。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1-3所示,一种基于多重余弦定理的文章相关度计算方法,将文章映射为实意词向量和关键词向量,并重新规划词权重,再利用多重余弦定理对现阶段的文章相关度计算方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词频、词性、词长等加权累加;另一方面,对文章计算其相关度还使用了多重余弦定理,分别对其计算实意词相关度和关键词相关度,再由相关定义确定其最终相关度。具体包括以下步骤:Step0:获取文章集合{X1,X2…Xp},对文章X,X∈{X1,X2…Xp}进行预处理,并建立文章数据库,具体如Step0.1~Step0.4所示;Step0.1:对文章X进行分词、去停用词、同义词替换等操作,生成文章的实意词集合X:{x1,x2…xm};Step0.2:以TFIDF值为主,该文章中出现该词的词频、词性、词长为辅,遍历Step0.1中得到的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step0.3:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step0.2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集本文档来自技高网...

【技术保护点】
1.一种基于多重余弦定理的文章相关度计算方法,其特征在于:Step0:获取文章集合{X1,X2…Xp},对文章X,X∈{X1,X2…Xp}进行预处理,并建立动态文章数据库,具体如Step0.1~Step0.4所示;Step0.1:对文章X进行分词、去停用词、同义词替换操作,生成文章的实意词集合X:{x1,x2…xm};Step0.2:以TFIDF值为主,该文章中出现该词的词频、词性、词长为辅,遍历Step0.1中得到的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step0.3:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step0.2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};Step0.4:将文章X、实意词集合X:{x1,x2…xm}、实意词权重集合Y:{y1,y2…ym}、关键词集合X':{x1',x2'…xn'}及关键词权重集合Y':{y1',y2'…yn'}作为元组加入文章数据库;Step1:从文章数据库中获取待比较文章T和比较文章H;Step2:以待比较文章T的实意词集合XT:{t1,t2…tm}和实意词权重集合YT:{y1,y2…ym},生成实意词特征向量FT={ft1,ft2…ftg},同样对比较文章H也以此生成实意词特征向量FH={fh1,fh2…fhg},由余弦定理计算公式(1)确定待比较文章T与比较文章H之间的实意词相关度R1(T,H);...

【技术特征摘要】
1.一种基于多重余弦定理的文章相关度计算方法,其特征在于:Step0:获取文章集合{X1,X2…Xp},对文章X,X∈{X1,X2…Xp}进行预处理,并建立动态文章数据库,具体如Step0.1~Step0.4所示;Step0.1:对文章X进行分词、去停用词、同义词替换操作,生成文章的实意词集合X:{x1,x2…xm};Step0.2:以TFIDF值为主,该文章中出现该词的词频、词性、词长为辅,遍历Step0.1中得到的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step0.3:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step0.2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};Step0.4:将文章X、实意词集合X:{x1,x2…xm}、实意词权重集合Y:{y1,y2…ym}、关键词集合X':{x1',x2'…xn'}及关键词权重集合Y':{y1',y2'…yn'}作为元组加入文章数据库;Step1:从文章数据库中获取待比较文章T和比较文章H;Step2:以待比较文章T的实意词集合XT:{t1,t2…tm}和实意词权重集合YT:{y1,y2…ym},生成实意词特征向量FT={ft1,ft2…ftg},同样对比较文章H也以此生成实意词特征向量FH={fh1,fh2…fhg},由余弦定理计算公式(1)确定待比较文章T与比较文章H之间的实意词相关度R1(T,H);Step3:以待比较文章T的关键词集合XT':{t1',t2'…tn'}和关键词权重集合YT':{y1',y2'…yn'},生成关键词特征向量FT'={ft'1,ft'2…ft'g},同样对比较文章H也以此生成关键词特征向量FH'={fh'1,fh'2…fh'g},由余弦定理计算公式(2)确定待比较文章T与比较文章H之间的关键...

【专利技术属性】
技术研发人员:龙华祁俊辉彭艺杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1