一种文档检索匹配方法组成比例

技术编号:15055893 阅读:92 留言:0更新日期:2017-04-06 01:49
本发明专利技术提供一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,根据公式计算得出,其中,Q表示查询文档,D表示待匹配文档,所述t表示索引词,所述tf为索引词在待匹配文档中出现的次数,所述dl为待匹配文档长度;还包括在计算相关度之前进行数据预处理,通过预处理计算出ipp,pk1b,和pbavdl。本发明专利技术能提高算法实现程序的执行效率,减少全文检索过程所需要的时间。

【技术实现步骤摘要】

本专利技术所属
为自然语言处理、信息检索,尤其涉及一种文档检索匹配方法
技术介绍
信息检索中计算文档相关性的算法有很多,基于TF-IDF框架的算法是其中重要的一类,而OkapiBM25又是该类算法中的一个经典实现。本文的文档检索匹配方法主要是基于该经典算法的优化实现,方法和相关技术也可以推广到其它算法。算法中的符号及含义如表格1所示。表格1基于TF-IDF框架的算法中使用的符号及含义OkapiBM25算法的具体计算公式如下(公式十一):Σt∈Q,DlnN-df+0.5df+0.5·(k1+1)tf(k1(1-b)+bdlavdl)+tf·(k3+1)qtfk3+qtf]]>其中,t表示词,Q表示查询文档,D表示待匹配文档。k1一般取值1.0~2.0,b一般取值0.75,k3一般取值取值0~1000,均为常数。
技术实现思路
本专利技术所要解决的技术问题是提供一种文档检索匹配方法,提高算法实现程序的执行效率,减少全文检索过程所需要的时间。为解决上述技术问题,本专利技术提供一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,其特征是:所述计算查询文档与待匹配文档相关度的步骤根据公式一计算得出,所述公式一为:Σt∈Q,Dipp·tf(pk1b+pbavdl·dl)+tf]]>其中,Q表示查询文档,D表示待匹配文档,t表示索引词,tf为索引词在待匹配文档中出现的次数,dl为待匹配文档的文档长度;所述公式一的计算因子tf,dl,ipp,pk1b,pbavdl由数据预处理的步骤得出;所述数据预处理的步骤是:(a)记录文档库中的总文档数N,总文档长度adl,根据公式计算得出平均文档长度avdl;将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;(b)获取索引词的查询词频qtf,记录索引词出现的文档数量df,将k1取值1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:ipp=lnN-df+0.5df+0.5·(k1+1)·(k3+1)qtfk3+qtf;]]>(c)根据公式三计算得出pk1b,所述公式三为:pk1b=k1(1-b);所述数据预处理的步骤在计算查询文档与待匹配文档相关度的步骤之前。优选地,所述公式一由公式十一转换而来,所述公式十一为:Σt∈Q,DlnN-df+0.5df+0.5·(k1+1)tf(k1(1-b)+bdlavdl)+tf·(k3+1)qtfk3+qtf]]>所述由公式十一向公式一转换的步骤为:(1)令lnN-df+0.5df+0.5=idf;]]>(2)令k1+1=pk1;(3)令(k3+1)qtfk3+qtf=pqtf;]]>(4)令idf·pk1·pqtf=ipp;(5)令k1(1-b)=pk1b;(6)令bavdl=pbavdl.]]>优选地,所述公式二由公式十一向公式一转换的步骤(1),(2),(3),(4)组合转换而来。优选地,所述idf为索引词的逆文档频率,所述索引词的逆文档频率根据总文档数N和索引词出现的文档数量df得出。优选地,所述总文档数N和总文档长度adl记录在文档库中。优选地,所述文档库包括倒排索引表和文档信息表,所述文档信息表记录文档、文档的唯一编号ID和文档长度dl,所述倒排索引表记录了索引词和索引词的列表信息。优选地,所述索引词的列表信息包括:索引词出现的文档数量df,索引词在对应文档中出现的次数tf。优选地,所述公式一中的索引词为同时从查询文档和待匹配文档中获取的索引词。优选地,所述公式一的计算因子tf,dl,ipp由数据预处理的步骤(a)得出;所述公式一的计算因子pk1b,由数据预处理的步骤(b)得出;所述公式一的计算因子pbavdl,由数据预处理的步骤(c)得出。本专利技术的有益效果是:能提高算法对应软件程序的执行效率,减少全文检索过程所需要的时间。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定,在附图中:图1为本专利技术的示意图。具体实施方式下面结合附图和具体实施方式对本专利技术的技术方案作进一步具体说明。为解决上述技术问题,本专利技术提供一种文档检索匹配方法,将经典算法进行了优化,优化技术主要通过数据预处理和改变计算公式中计算项的先后顺序实现,包括三个步骤:如图1所示,第一步:数据预处理,通过数据预处理计算出ipp,pk1b,和pbavdl这三个计算项,所述数据预处理的步骤是:(a)记录文档库中的总文档数N,总文档长度adl,根据公式计算得出平均文档长度avdl;将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;(b)获取索引词的查询词频qtf,记录索引词出现的文档数量df,将k1取值1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:ipp=lnN-df+0.5df+0.5·(k1+1)·(k3+1)qtfk3+qtf;]]>(c)将b取值0.75,将k1取值1.0~2.0,根据公式三计算得出pk1b,所述公式三为:pk1b=k1(1-b);所述总文档数N和总文档长度adl记录在文档库中,所述文档库包括倒排索引表和文档信息表,所述文档信息表记录文档、文档的唯一编号ID和文档长度dl,所述倒排索引表记录了索引词和索引词的列表信息;所述索引词的列表信息包括:索引词出现的文档数量df,索引词在对应文档中出现的次数tf。一般的倒排索引表中:记录了所有的索引词以及这些索引词在每篇文档中出现的频率;倒排索引表一般形式如表格2所示。修改后的倒排索引表如表格3所示。在表格2中,索引词对应的是该词在文档中的信息列表,每项为文档编号及索引词在该文档中出现的次数tf。在表格3中,索引词对应的信息增加了该词在多少篇文档中出现过即索引词出现的文档数量df,也就是文档频率。表格2倒排索引表一般形式表格3修改后的倒排索引表形式根据表格3中的文档频率和总文档数,即可本文档来自技高网...

【技术保护点】
一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,其特征是:所述计算查询文档与待匹配文档相关度的步骤根据公式一计算得出,所述公式一为:Σt∈QDipp·tf(pk1b+pbavdl·dl)+tf]]>其中,Q表示查询文档,D表示待匹配文档,t表示索引词,tf为索引词在待匹配文档中出现的次数,dl为待匹配文档的文档长度;所述公式一的计算因子tf,dl,ipp,pk1b,pbavdl由数据预处理的步骤得出;所述数据预处理的步骤是:(a)记录文档库中的总文档数N,总文档长度adl,根据公式计算得出平均文档长度avdl;将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;(b)获取索引词在查询文档中的词频qtf,记录索引词出现的文档数量df,将k1取值1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:ipp=lnN-df+0.5df+0.5·(k1+1)·(k3+1)qtfk3+qtf;]]>(c)根据公式三计算得出pk1b,所述公式三为:pk1b=k1(1‑b);所述数据预处理的步骤在计算查询文档与待匹配文档相关度的步骤之前。...

【技术特征摘要】
1.一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,其特征是:
所述计算查询文档与待匹配文档相关度的步骤根据公式一计算得出,所述公式一为:
Σt∈QDipp·tf(pk1b+pbavdl·dl)+tf]]>其中,Q表示查询文档,D表示待匹配文档,t表示索引词,tf为索引词在待匹配文档
中出现的次数,dl为待匹配文档的文档长度;
所述公式一的计算因子tf,dl,ipp,pk1b,pbavdl由数据预处理的步骤得出;
所述数据预处理的步骤是:
(a)记录文档库中的总文档数N,总文档长度adl,根据公式计算得出平均
文档长度avdl;
将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;
(b)获取索引词在查询文档中的词频qtf,记录索引词出现的文档数量df,将k1取值
1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:
ipp=lnN-df+0.5df+0.5·(k1+1)·(k3+1)qtfk3+qtf;]]>(c)根据公式三计算得出pk1b,所述公式三为:pk1b=k1(1-b);
所述数据预处理的步骤在计算查询文档与待匹配文档相关度的步骤之前。
2.根据权利要求1所述的一种文档检索匹配方法,其特征是所述公式一由公式十一转换而
来,所述公式十一为:
Σt∈Q,DlnN-df+0.5df+0.5·(k1+1)tf(k1(1-b)+bdlavdl)+tf·(k3+1)qt...

【专利技术属性】
技术研发人员:杜南山
申请(专利权)人:武汉传神信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1