一种文本相似度比对方法及装置制造方法及图纸

技术编号:12810250 阅读:83 留言:0更新日期:2016-02-05 09:07
本申请一种文本相似度比对方法及装置,首先以文本为粗粒度,采用词的浅层相似度筛选出第一文本集合,进一步,通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度,确定第一文本与待对比文本的细粒度文本相似度,筛选出细粒度文本相似度超过第二阈值的第一文本,确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关,因此增强了对比效果和精确度。

【技术实现步骤摘要】

本申请涉及信息处理
,更具体地说,涉及一种文本相似度比对方法及装置
技术介绍
随着互联网的飞速发展,信息技术的发展也突飞猛进,各类信息资源的数量以惊人的速度增长,如何对互联网上发布的文档进行侵权比对,成为亟待解决的问题。现有的技术一般采用基于媒体指纹的比对方式,媒体指纹比对方式中的参考文本的特征是固定的,通过将待对比文本的内容表示为与参考文本的特征同类型的特征,进而对比该特征,确定两份文本的相似度。由于媒体指纹比对方式中参考文本的特征是固定的,其不随着待对比文本的变化而变化,因此其文本相似度比对结果的精确度偏低。
技术实现思路
有鉴于此,本申请提供了一种文本相似度比对方法及装置,用于解决现有基于媒体指纹的比对方式所存在的文本相似度比对结果精确度低的问题。为了实现上述目的,现提出的方案如下:一种文本相似度比对方法,包括:接收待对比文本;从预置的参考文本集合中选取第一文本集合,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值;以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定;筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。优选地,在所述从预置的参考文本集合中选取第一文本集合之前,该方法还包括:对所述待对比文本进行停用词、同义词过滤处理。优选地,所述从预置的参考文本集合中选取第一文本集合,包括:计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(Dl,D2):Sim (Dl, D2) = Count (Dl n D2) / (Count (Dl) +Count (D2)),其中,Dl n D2 表示文本Dl、D2所包含的相同的词,Count ()是词的个数;从所述参考文本集合中选取粗粒度文本相似度Sim(Dl,D2)超过第一阈值的文本D2,由选取的若干个文本D2组成第一文本集合。优选地,所述针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,包括:第一,计算句子浅层相似度SimSha(Sl,S2):SimSha(Sl,S2) = Count (Sl n S2) / (Count (Sl)+Count (S2)),其中,Sl 为待对比文本Dl中的句子,S2为第一文本集合中任意一份第一文本D2中的句子,S1 Π S2表示句子Sl、S2所包含的相同的词,Count ()是词的个数;第二,计算信息熵相似度SimEnt (Sl,S2):SimEnt (Sl, S2) =Σ (E(ffi))Ε (ff) = log (N/n)其中词Wi e Sl n S2,N表示第一文本D2中句子的总数,n是包含词W的句子数;第三,计算浅语义相似度SimSemS (Sl,S2):其中,词义相似度的表达式为:SimSemff(ffj, ffk) = F(SimLex(ffj, ffk), SimPos(ffj, ffk), SimCon(ffj, ffk))=SimLex (ff j, ffk).SimPos (ff j, ffk).SimCon (ff j, ffk)其中,Wj为句子Sl中的词,Wk为句子S2中的词,SimLex (Wj, Wk)、SimPos (Wj,Wk)、SimCon (Wj, ffk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度,SimLex (Wj, ffk)是词Wj与Wk对应的义原在义原树上的距离;当Wj与Wk词性一样时,SimPos (Wj,ffk)取值为 1、当 Wj 与 Wk 词性不一样时,SimPos (Wj,ffk)取值为 0 ;SimCon (Wj,ffk) = ABS(posl/Nl-pos2/N2),其中,posl、pos2 分别是 Wj、Wk 在相应句中的位置,Nl、N2是Wj、Wk所在句子的长度;浅语义相似度SimSemS (Sl,S2)为: SimSemS (Sl,S2) = 2.Σ。《工 < Len(sl)ArgMax {SimSemff (ffi,Wj): 0 彡 j < Len (S2)} /(Len(Sl)+Len(S2))其中,Argmax表示寻找具有最大评分的参量,函数Argmax {f (x, y):x e X},表示x e X使f(x,y)达到最大值时的取值;Len⑶是句子S的长度,即词语个数;第四,计算句子细粒度相似度Similarity (Sl,S2):Similarity (Sl, S2) = a ?SimSha(Sl, S2) + P ?SimEnt (Sl, S2) + γ.SimSemS (Sl,S2)其中,α、β、γ是权值参数,α + β + γ = 1 ;第五,计算细粒度文本相似度Similarity (Dl,D2):记SegSimilarity (Sk,Sj) = max (Similarity (Sk, Si))其中Sk是待对比文本Dl中的句子,Si是第一文本集合中任意一份第一文本D2中句子,1 < i彡N2,N2为第一文本D2中句子总数,j是第一文本D2中Similarity (Sk,Si)最大的i值;细粒度文本相似度Similarity (Dl,D2)为:Similarity (Dl, D2) = Σ Ρ.SegSimilarity (Sk, Sj)其中ρ是与沾相关的权重。优选地,所述α、β、γ的大小关系为:γ > α > β。—种文本相似度比对装置,包括:文本接收单元,用于接收待对比文本;第一文本集合选取单元,用于从预置的参考文本集合中选取第一文本集合,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值;分段单元,用于以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;细粒度文本相似度计算单元,用于针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定;相似文本确定单元,用于筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。优选地,还包括:预处理单元,用于在所述从预置的参考文本集合中选取第一文本集合之前,对所述待对比文本进行停用词、同义词过滤处理。优选地,所述第一文本集合选取单元包括:粗粒度文本相似度计算单元,用于计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(Dl,D2):Sim (Dl, D2) = Count (Dl n D2) / (Count (Dl) +Count (D2)),其中,Dl n D2 表示文本Dl、D2所包含的相同的词,Count ()是词的个数;粗粒度文本相似度筛选单元,用于从所述参考文本集合中选取粗粒度文本相似度Sim(Dl, D2)超过第一本文档来自技高网...

【技术保护点】
一种文本相似度比对方法,其特征在于,包括:接收待对比文本;从预置的参考文本集合中选取第一文本集合,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值;以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定;筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:姜晓丹
申请(专利权)人:北京慧点科技有限公司中国新闻出版研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1