一种融合稀疏与低秩的信息检索方法技术

技术编号:39165404 阅读:15 留言:0更新日期:2023-10-23 15:04
本发明专利技术涉及信息检索技术领域,提出了一种融合稀疏与低秩的信息检索方法,包括:获取输入文本信息及信息语料库;分别得到相应的第一词向量矩阵及词性矩阵;根据词性矩阵中每一行的矩阵元素的方差差异获取每一行的第一特殊度,根据第一词向量矩阵中相邻矩阵元素的关联分布表现,获取每个矩阵元素的第二特殊度,进而得到综合特殊度;根据第一词向量矩阵中每个矩阵元素的综合特殊度,自适应设置RPCA算法的调整权重值,获取输入文本信息的稀疏矩阵与低秩矩阵,以及信息语料库中文本信息的稀疏矩阵与低秩矩阵;通过矩阵的匹配度计算得到信息检索的结果。本发明专利技术旨在解决矩阵分解方法中人工设置权重值容易产生较大误差而影响匹配程度计算的问题。计算的问题。计算的问题。

【技术实现步骤摘要】
一种融合稀疏与低秩的信息检索方法


[0001]本专利技术涉及信息检索
,具体涉及一种融合稀疏与低秩的信息检索方法。

技术介绍

[0002]信息检索是文本挖掘领域的一个重要研究方向,通过用户输入的文本信息可以在海量的信息语料库中获取精准的信息匹配,进而获取文本挖掘结果;但随着互联网技术的发展,信息呈现爆发式增长,使得在信息检索过程中,容易产生错误的信息检索结果;为了进行精准的信息检索,根据用户输入的文本信息进行分析处理,与海量的信息语料库中进行比对,从而获取用户输入的文本信息与信息语料库中的每条信息之间的匹配程度;然而由于文本信息的多样性,若仅根据文本的相似性来进行匹配程度的计算,不仅计算量较大,并且这种匹配算法未考虑文本信息的关键词信息,进而导致计算得到的匹配程度偏差较大。
[0003]低秩分解是一种精细的文本挖掘方法,通过分别对低秩部分与稀疏部分进行匹配获取准确的匹配程度;传统的RPCA算法中,通过设置调整权重值来调节低秩矩阵和稀疏矩阵所占的比例,进而控制矩阵优化过程中矩阵的低秩程度和稀疏程度,并最终分解为低秩矩阵和稀疏矩阵;但调整权重值的设置通常根据人为经验进行设置,容易产生较大的误差,进而获取不到准确的低秩矩阵和稀疏矩阵,从而影响匹配程度的计算。

技术实现思路

[0004]本专利技术提供一种融合稀疏与低秩的信息检索方法,以解决现有的矩阵分解方法中人工设置权重值容易产生较大误差而影响匹配程度计算的问题,所采用的技术方案具体如下:
[0005]本专利技术一个实施例提供了一种融合稀疏与低秩的信息检索方法,该方法包括以下步骤:
[0006]获取输入文本信息及信息语料库中的文本信息;
[0007]获取输入文本信息的第一词向量矩阵和词性矩阵;获取信息语料库中的文本信息的第一词向量矩阵和词性矩阵;
[0008]根据词性矩阵中每一行的非0矩阵元素的方差得到每一行的词性分布变异程度,将每一行分别与相邻上下两行的词性分布变异程度的差值均值作为每一行的变异差异程度,根据变异差异程度获取分段行,将每个分段行与相邻下一个分段行之前的所有行分别作为一个分段,根据每一行的词性分布变异程度及所在分段的分布位置,获取词性矩阵中每一行的第一特殊度;
[0009]将第一词向量矩阵中所有的矩阵元素分别与前一个相邻的矩阵元素进行拼接组合得到第二词向量矩阵,获取第二词向量矩阵中每个矩阵元素与其他矩阵元素之间的余弦相似度,根据每个矩阵元素以及与该矩阵元素余弦相似度大于第一预设阈值的其他矩阵元素在第二词向量矩阵中的分布间隔,获取第二词向量矩阵中每个矩阵元素的第一分布均匀
度;
[0010]将第一词向量矩阵中所有的矩阵元素分别与后一个相邻的矩阵元素进行拼接组合得到第三词向量矩阵,获取第三词向量矩阵中每个矩阵元素的第二分布均匀度;将第一词向量矩阵中每个矩阵元素在第二词向量矩阵中对应的第一分布均匀度与在第三词向量矩阵中对应的第二分布均匀度的均值作为每个矩阵元素的第二特殊度;将每个矩阵元素的第二特殊度与该矩阵元素所在行在词性矩阵中的第一特殊度的乘积作为每个矩阵元素的综合特殊度;
[0011]根据每个矩阵元素的综合特殊度获取调整权重值,根据调整权重值设置目标函数对第一词向量矩阵进行分解,对目标函数最优化得到稀疏矩阵与低秩矩阵;
[0012]对输入文本信息的稀疏矩阵与低秩矩阵,与信息语料库中文本信息的稀疏矩阵与低秩矩阵进行匹配度计算,得到信息检索的结果。
[0013]可选的,所述获取输入文本信息的第一词向量矩阵和词性矩阵;获取信息语料库中的文本信息的第一词向量矩阵和词性矩阵,包括的具体方法为:
[0014]将输入文本信息及信息语料库中的文本信息统称为文本信息,对文本信息进行句子划分并得到每个句子中的若干分词及每个分词的词性;
[0015]对每个分词进行词向量转换,将同一个句子的所有分词作为词向量矩阵中的一行,词向量矩阵的行数量为句子的数量,列数量为所有句子中分词数量最多的句子的分词个数,将各行中分词数量不足列数量的用零向量进行补充代替,将得到的词向量矩阵记为第一词向量矩阵;
[0016]将第一词向量矩阵中每个矩阵元素用对应的分词词性进行代替,其中每个分词的词性按字母顺序用数字进行表示,零向量的矩阵元素替换为0,将得到的矩阵记为词性矩阵。
[0017]可选的,所述根据变异差异程度获取分段行,包括的具体方法为:
[0018]将词性矩阵中的首行及末行作为分段行,将变异差异程度大于第二预设阈值的行作为分段行。
[0019]可选的,所述获取词性矩阵中每一行的第一特殊度,包括的具体方法为:
[0020]γ
i
=β
i
×
|i

L
i
|
[0021]其中,γ
i
表示第i行的第一特殊度,β
i
表示第i行的词性分布变异程度,i表示第i行的行数,L
i
表示第i行所在分段的中间行的行数,|
·
|表示绝对值。
[0022]可选的,所述获取第二词向量矩阵中每个矩阵元素的第一分布均匀度,包括的具体方法为:
[0023][0024]其中,ε1
j
表示第j个矩阵元素的第一分布均匀度,U
j
表示以第j个矩阵元素为目标元素,与目标元素的余弦相似度大于第一预设阈值的其他矩阵元素所形成的两两组合数量,α
j,u
表示第j个矩阵元素相应的U
j
个两两组合中的第u个两两组合的间隔值,表示U
j
个两两组合的间隔值的均值;
[0025]所述形成的两两组合的获取方法为:将第j个矩阵元素及余弦相似度大于第一预
设阈值的其他矩阵元素按第二词向量矩阵中顺序进行排列,行数较小的在前,行数相同的列数较小的在前,将排列中每个矩阵元素与后一个矩阵元素分别作为一个两两组合;所述间隔值表示将矩阵逐行排列到同一行中两个矩阵元素的间隔值。
[0026]可选的,所述根据调整权重值设置目标函数,包括的具体方法为:
[0027][0028]其中,ρ为目标函数,A表示低秩矩阵,E表示稀疏矩阵,λ为调整权重值,||
·
||
*
和||
·
||1分别表示核范数和1范数,表示低秩矩阵的核范数及系数矩阵的1范数都取最小值。
[0029]可选的,所述对第一词向量矩阵进行分解,采用的具体方法为RPCA矩阵分解方法。
[0030]本专利技术相较于现有技术的有益效果是:根据词向量矩阵和词性矩阵的分布特征来获取每个矩阵元素的特殊度,通过分析词性矩阵中的每一行矩阵元素的分布获取分词中的词性分布特征,进而获取第一特殊度来表征词向量矩阵中每一行的可能含有特殊描述的关键词的可能概率;通过分析词向量矩阵中矩阵元素之间的互相分布特征,获取第二特殊度来表征词向量矩阵中每一个矩阵元素与相邻矩阵元素之间的分布本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合稀疏与低秩的信息检索方法,其特征在于,该方法包括以下步骤:获取输入文本信息及信息语料库中的文本信息;获取输入文本信息的第一词向量矩阵和词性矩阵;获取信息语料库中的文本信息的第一词向量矩阵和词性矩阵;根据词性矩阵中每一行的非0矩阵元素的方差得到每一行的词性分布变异程度,将每一行分别与相邻上下两行的词性分布变异程度的差值均值作为每一行的变异差异程度,根据变异差异程度获取分段行,将每个分段行与相邻下一个分段行之前的所有行分别作为一个分段,根据每一行的词性分布变异程度及所在分段的分布位置,获取词性矩阵中每一行的第一特殊度;将第一词向量矩阵中所有的矩阵元素分别与前一个相邻的矩阵元素进行拼接组合得到第二词向量矩阵,获取第二词向量矩阵中每个矩阵元素与其他矩阵元素之间的余弦相似度,根据每个矩阵元素以及与该矩阵元素余弦相似度大于第一预设阈值的其他矩阵元素在第二词向量矩阵中的分布间隔,获取第二词向量矩阵中每个矩阵元素的第一分布均匀度;将第一词向量矩阵中所有的矩阵元素分别与后一个相邻的矩阵元素进行拼接组合得到第三词向量矩阵,获取第三词向量矩阵中每个矩阵元素的第二分布均匀度;将第一词向量矩阵中每个矩阵元素在第二词向量矩阵中对应的第一分布均匀度与在第三词向量矩阵中对应的第二分布均匀度的均值作为每个矩阵元素的第二特殊度;将每个矩阵元素的第二特殊度与该矩阵元素所在行在词性矩阵中的第一特殊度的乘积作为每个矩阵元素的综合特殊度;根据每个矩阵元素的综合特殊度获取调整权重值,根据调整权重值设置目标函数对第一词向量矩阵进行分解,对目标函数最优化得到稀疏矩阵与低秩矩阵;对输入文本信息的稀疏矩阵与低秩矩阵与信息语料库中文本信息的稀疏矩阵与低秩矩阵进行匹配度计算,得到信息检索的结果。2.根据权利要求1所述的一种融合稀疏与低秩的信息检索方法,其特征在于,所述获取输入文本信息的第一词向量矩阵和词性矩阵;获取信息语料库中的文本信息的第一词向量矩阵和词性矩阵,包括的具体方法为:将输入文本信息及信息语料库中的文本信息统称为文本信息,对文本信息进行句子划分并得到每个句子中的若干分词及每个分词的词性;对每个分词进行词向量转换,将同一个句子的所有分词作为词向量矩阵中的一行,词向量矩阵的行数量为句子的数量,列数量为所有句子中分词数量最多的句子的分词个数,将各行中分词数量不足列数量的用零向量进行补充代替,将得到的词向量矩阵记为第一词向量矩阵;将第一词向量矩阵中每个矩阵元素用对应的分词词性进行代替,其中每个分词的词性按字母顺序用数字进行表示,零向量的矩阵元素...

【专利技术属性】
技术研发人员:杨艺芳
申请(专利权)人:西安石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1