正反向训练去混淆文本检索方法技术

技术编号:8801168 阅读:141 留言:0更新日期:2013-06-13 05:50
本发明专利技术涉及一种基于正反向训练的去混淆文本检索方法,属于计算机科学与信息检索技术领域。本发明专利技术首先对符合检索意愿和违背检索意愿的文本进行语言特征提取,训练得到检索模板;进而利用该检索模板,对待检索文本提取的语言特征库进行检索,得到检出文本,并按照与检索模板相似度由高到低对检出文本进行排序;最终在检出文本中,使用符合检索意愿和违背检索意愿的文本,反馈式更新检索模板,重新检索,得到优化检索结果。与现有技术相比,本发明专利技术采用的正、反向训练文本检索方法具有检索准确率高、检索速度快、去混淆明显等特点。

【技术实现步骤摘要】

本专利技术涉及一种基于正反向训练的去混淆文本检索(Decrease Confusion TextRetrieval, DCTR)方法,属于计算机科学与信息检索

技术介绍
信息检索是自然语言处理中的一项重要应用,能够使用户从浩如烟海的信息中快速准确地获得所需要信息,缓解信息丰富和知识贫乏之间的矛盾。基于关键词与基于标签内容的信息检索,目前已得到极大应用。基于文本的信息检索,目前需要解决的一个问题是文本混淆现象:即检索返回的结果中包含了大量与检索条件存在一定的相关性但是与用户检索意愿并不相符的文本。综观现有信息检索技术,通常使用的模型有:1.布尔模型(BM, Boolean Model)布尔模型以布尔表达式为基础,采用逻辑关系符号AND、OR、NOT连接多个检索词构成查询逻辑表达式;而特征词在文本中标引值为一个二值函数(即“出现”或“不出现”)。布尔模型采用文本与查询表达式精确匹配的方式进行文本检索,结果中文本与查询之间的相关性也是一个二元值(即“相关”或“不相关”)。布尔模型的优点是结构简单、推理严密;缺点是精确匹配要求导致漏检率高,此外布尔模型无法对检索结果进行相关性排序。2.向量空间模型(VSM, Vector Space Model)向量空间模型采用特征词作为向量空间的维度,并采用该向量空间中的向量来代表文本以及检索条件,通过计算向量之间的余弦相似度对检索条件和文本进行匹配。向量空间模型通过对特征词的加权和部分匹配的策略允许输出与检索条件相近而不是完全匹配的结果,改进了检索的效果,并对允许通过相似度对检索结果排序输出。3.概率模型(PM, Probabilistic Model)概率模型将是否符合查询条件视作一个随机事件,通过文本中的特征词估计文本符合检索条件的概率。布尔模型具有简洁性、高效性等特点,向量空间模型具有形式化表达方面的优势,概率模型考虑了词条、文本之间的内在联系,利用词条之间和词条与文本之间的概率相似度进行信息检索。使用三类模型进行信息检索,都存在检索结果混淆问题。
技术实现思路
本专利技术的目的是:针对信息检索中存在的文本混淆问题,提出了一种基于正反向训练的针对结果混淆问题的信息检索方法。本专利技术的设计原理为:使用概率模型,通过正向训练为检索模板提供符合检索意愿的文本特征,反向训练为检索模板提供与检索意愿相违背的文本特征。使用检索模板作为检索条件,利用其中的先验概率去估计文本符合检索意愿的概率(P(R+Id))以及文本违背检索意愿的概率(P(RlD))。将文本检索的过程,转换为比较这两个的概率,并从文本集中检索出P+>P_的文本。通过正向与反向的分析,有效地解决了文本混淆问题,提高了检索精度。本专利技术的技术方案是通过如下步骤实现的:步骤1,为了得到检索模板,需要进行正、反向训练。步骤1.1,首先对符合检索意愿的文本与违背检索意愿的文本,进行正、反向训练,具体方法为:对符合意愿的文本,进行句子分析及特征提取,得到正向训练结果,即符合检索意愿文本的语言特征;对违背检索意愿的文本,进行句子分析及特征提取,得到反向训练结果,即违背检索意愿文本的语言特征。步骤1.1中的语言特征,包括词法层特征(U、语法层特征(fSyn)和句义层特征Cfsem)O检索模板的训练过程,通过对符合检索意愿和违背检索意愿文本的正、反向训练,来估计P (R+1 ti)和P (R_ I ti)。由Bayes公式,推导其计算方法为:本文档来自技高网
...

【技术保护点】
正反向去混淆文本检索方法,其特征在于,所述方法包括以下步骤:?步骤1,对文本数据进行正、反向训练,得到检索模板。?步骤1.1,对符合检索意愿的文本,进行句子分析及特征提取,得到正向训练结果,即符合检索意愿文本的语言特征;对违背检索意愿的文本,进行句子分析及特征提取,得到反向训练结果,即违背检索意愿文本的语言特征。?步骤1.2,在步骤1.1的基础上,将符合检索意愿文本的语言特征与违背检索意愿文本的语言特征归并为检索模板,该检索模板用于在文本检索时提供相似度计算的特征。?步骤2,在步骤1得到检索模板的基础上,首先对待检文本集进行与步骤1.1中同样的句子分析及特征提取,获取语言特征信息,得到文本集特征库。其次,在步骤1中检索模板的条件下,对文本集特征库进行检索判别与相似度计算,得到检索结果。?步骤2.1,检索判别是通过步骤2中的文本集特征库,判断文本D与检索模板的相似度,将P(R+|D)>P(R?|D)的文本作为检索结果。?步骤2.2,对步骤1.1中得到的语言特征,给每类特征项分别赋予权重α、β、λ,且满足α+β+λ=1。?步骤3,步骤2.1中检出的文本,按照与步骤1中检索模板的相似度,由高到低进行排序,得到检索结果。?步骤4,对于步骤3得到的检索结果,将其中符合检索意愿和违背检索意愿的文本应用步骤1中同样的操作,再次进行检索模板训练,之后更新步骤1中得到的检索模板,重复步骤2、3,可进行反馈式检索。...

【技术特征摘要】
1.正反向去混淆文本检索方法,其特征在于,所述方法包括以下步骤: 步骤1,对文本数据进行正、反向训练,得到检索模板。步骤1.1,对符合检索意愿的文本,进行句子分析及特征提取,得到正向训练结果,即符合检索意愿文本的语言特征;对违背检索意愿的文本,进行句子分析及特征提取,得到反向训练结果,即违背检索意愿文本的语言特征。步骤1.2,在步骤1.1的基础上,将符合检索意愿文本的语言特征与违背检索意愿文本的语言特征归并为检索模板,该检索模板用于在文本检索时提供相似度计算的特征。步骤2,在步骤I得到检索模板的基础上,首先对待检文本集进行与步骤1.1中同样的句子分析及特征提取,获取语言特征信息,得到文本集特征库。其次,在步骤I中检索模板的条件下,对文本集特征库进行检索判别与相似度计算,得到检索结果。步骤2.1,检索判别是通过步骤2中的文本集特征库,判断文本D与检索模板的相似度,将P(R+|D)>P(R_|D)的文本作为检索结果。步骤2.2,对步骤1.1中得到的语言特征,给每...

【专利技术属性】
技术研发人员:罗森林韩磊潘丽敏魏超
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1