【技术实现步骤摘要】
本专利技术涉及一种基于正反向训练的去混淆文本检索(Decrease Confusion TextRetrieval, DCTR)方法,属于计算机科学与信息检索
技术介绍
信息检索是自然语言处理中的一项重要应用,能够使用户从浩如烟海的信息中快速准确地获得所需要信息,缓解信息丰富和知识贫乏之间的矛盾。基于关键词与基于标签内容的信息检索,目前已得到极大应用。基于文本的信息检索,目前需要解决的一个问题是文本混淆现象:即检索返回的结果中包含了大量与检索条件存在一定的相关性但是与用户检索意愿并不相符的文本。综观现有信息检索技术,通常使用的模型有:1.布尔模型(BM, Boolean Model)布尔模型以布尔表达式为基础,采用逻辑关系符号AND、OR、NOT连接多个检索词构成查询逻辑表达式;而特征词在文本中标引值为一个二值函数(即“出现”或“不出现”)。布尔模型采用文本与查询表达式精确匹配的方式进行文本检索,结果中文本与查询之间的相关性也是一个二元值(即“相关”或“不相关”)。布尔模型的优点是结构简单、推理严密;缺点是精确匹配要求导致漏检率高,此外布尔模型无法对检索结果进行相关性排序。2.向量空间模型(VSM, Vector Space Model)向量空间模型采用特征词作为向量空间的维度,并采用该向量空间中的向量来代表文本以及检索条件,通过计算向量之间的余弦相似度对检索条件和文本进行匹配。向量空间模型通过对特征词的加权和部分匹配的策略允许输出与检索条件相近而不是完全匹配的结果,改进了检索的效果,并对允许通过相似度对检索结果排序输出。3.概率模型(PM, ...
【技术保护点】
正反向去混淆文本检索方法,其特征在于,所述方法包括以下步骤:?步骤1,对文本数据进行正、反向训练,得到检索模板。?步骤1.1,对符合检索意愿的文本,进行句子分析及特征提取,得到正向训练结果,即符合检索意愿文本的语言特征;对违背检索意愿的文本,进行句子分析及特征提取,得到反向训练结果,即违背检索意愿文本的语言特征。?步骤1.2,在步骤1.1的基础上,将符合检索意愿文本的语言特征与违背检索意愿文本的语言特征归并为检索模板,该检索模板用于在文本检索时提供相似度计算的特征。?步骤2,在步骤1得到检索模板的基础上,首先对待检文本集进行与步骤1.1中同样的句子分析及特征提取,获取语言特征信息,得到文本集特征库。其次,在步骤1中检索模板的条件下,对文本集特征库进行检索判别与相似度计算,得到检索结果。?步骤2.1,检索判别是通过步骤2中的文本集特征库,判断文本D与检索模板的相似度,将P(R+|D)>P(R?|D)的文本作为检索结果。?步骤2.2,对步骤1.1中得到的语言特征,给每类特征项分别赋予权重α、β、λ,且满足α+β+λ=1。?步骤3,步骤2.1中检出的文本,按照与步骤1中检索模板的相似度,由高 ...
【技术特征摘要】
1.正反向去混淆文本检索方法,其特征在于,所述方法包括以下步骤: 步骤1,对文本数据进行正、反向训练,得到检索模板。步骤1.1,对符合检索意愿的文本,进行句子分析及特征提取,得到正向训练结果,即符合检索意愿文本的语言特征;对违背检索意愿的文本,进行句子分析及特征提取,得到反向训练结果,即违背检索意愿文本的语言特征。步骤1.2,在步骤1.1的基础上,将符合检索意愿文本的语言特征与违背检索意愿文本的语言特征归并为检索模板,该检索模板用于在文本检索时提供相似度计算的特征。步骤2,在步骤I得到检索模板的基础上,首先对待检文本集进行与步骤1.1中同样的句子分析及特征提取,获取语言特征信息,得到文本集特征库。其次,在步骤I中检索模板的条件下,对文本集特征库进行检索判别与相似度计算,得到检索结果。步骤2.1,检索判别是通过步骤2中的文本集特征库,判断文本D与检索模板的相似度,将P(R+|D)>P(R_|D)的文本作为检索结果。步骤2.2,对步骤1.1中得到的语言特征,给每...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。