【技术实现步骤摘要】
本专利技术所属
为自然语言处理、信息检索,尤其涉及一种文档检索匹配方法。
技术介绍
信息检索中计算文档相关性的算法有很多,基于TF-IDF框架的算法是其中重要的一类,而OkapiBM25又是该类算法中的一个经典实现。本文的文档检索匹配方法主要是基于该经典算法的优化实现,方法和相关技术也可以推广到其它算法。算法中的符号及含义如表格1所示。表格1基于TF-IDF框架的算法中使用的符号及含义OkapiBM25算法的具体计算公式如下(公式十一):Σt∈Q,DlnN-df+0.5df+0.5·(k1+1)tf(k1(1-b)+bdlavdl)+tf·(k3+1)qtfk3+qtf]]>其中,t表示词,Q表示查询文档,D表示待匹配文档。k1一般取值1.0~2.0,b一般取值0.75,k3一般取值取值0~1000,均为常数。
技术实现思路
本专利技术所要解决的技术问题是提供一种文档检索匹配方法,提高算法实现程序的执行效率,减少全文检索过程所需要的时间。为解决上述技术问题,本专利技术提供一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,其特征是:所述计算查询文档与待匹配文档相关度的步骤根据公式一计算得出,所述公式一为:Σt∈Q,Dipp·tf(pk1b+pbavdl·dl)+tf]]>其 ...
【技术保护点】
一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,其特征是:所述计算查询文档与待匹配文档相关度的步骤根据公式一计算得出,所述公式一为:Σt∈QDipp·tf(pk1b+pbavdl·dl)+tf]]>其中,Q表示查询文档,D表示待匹配文档,t表示索引词,tf为索引词在待匹配文档中出现的次数,dl为待匹配文档的文档长度;所述公式一的计算因子tf,dl,ipp,pk1b,pbavdl由数据预处理的步骤得出;所述数据预处理的步骤是:(a)记录文档库中的总文档数N,总文档长度adl,根据公式计算得出平均文档长度avdl;将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;(b)获取索引词在查询文档中的词频qtf,记录索引词出现的文档数量df,将k1取值1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:ipp=lnN-df+0.5df+0.5·(k1+1)·(k3+1)q ...
【技术特征摘要】
1.一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,其特征是:
所述计算查询文档与待匹配文档相关度的步骤根据公式一计算得出,所述公式一为:
Σt∈QDipp·tf(pk1b+pbavdl·dl)+tf]]>其中,Q表示查询文档,D表示待匹配文档,t表示索引词,tf为索引词在待匹配文档
中出现的次数,dl为待匹配文档的文档长度;
所述公式一的计算因子tf,dl,ipp,pk1b,pbavdl由数据预处理的步骤得出;
所述数据预处理的步骤是:
(a)记录文档库中的总文档数N,总文档长度adl,根据公式计算得出平均
文档长度avdl;
将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;
(b)获取索引词在查询文档中的词频qtf,记录索引词出现的文档数量df,将k1取值
1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:
ipp=lnN-df+0.5df+0.5·(k1+1)·(k3+1)qtfk3+qtf;]]>(c)根据公式三计算得出pk1b,所述公式三为:pk1b=k1(1-b);
所述数据预处理的步骤在计算查询文档与待匹配文档相关度的步骤之前。
2.根据权利要求1所述的一种文档检索匹配方法,其特征是所述公式一由公式十一转换而
来,所述公式十一为:
Σt∈Q,DlnN-df+0.5df+0.5·(k1+1)tf(k1(1-b)+bdlavdl)+tf·(k3+1)qt...
【专利技术属性】
技术研发人员:杜南山,
申请(专利权)人:武汉传神信息技术有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。