向量语义张量空间下的短文本相似度计算方法技术

技术编号:22330151 阅读:49 留言:0更新日期:2019-10-19 12:17
本发明专利技术公开一种向量语义张量空间下的短文本相似度计算方法,本方法首先对输入的训练数据集或者测试样本进行自然语言处理、统计分析和向量分析,得到用户查询语句与训练样本的向量距离;然后对经过自然语言处理、统计分析得出的统计数据集合进行语义回归预测,得到用户查询语句与训练样本的语义距离;最后基于向量距离分布和语义距离分布建立张量空间,在建立的张量空间内计算短文本之间的相似度。本发明专利技术用于解决小样本条件下短文本相似度计算问题,缓解或消除文档、词语不同长度对相似度带来的影响,同时在向量和语义张量空间下完成文本相似度计算。

【技术实现步骤摘要】
向量语义张量空间下的短文本相似度计算方法
本专利技术涉及一种短文本相似度计算方法,具体是一种向量语义张量空间下的短文本相似度计算方法,属于人工智能

技术介绍
智能对话系统核心在于语义理解的准确度,准确度越高、提供服务更加精准,用户体验更好。但是中文自然语言语义理解难度主要有两个方面,语言是人类对客观事物事件的人为抽象,所以语言主观且多变,在中文的处理中尤其明显;另一方面语言传递的信息往往和上下文有关。同时短文本的信息稀疏性以及用词随意性进一步提高短文本分析处理的难度,另一方面也体现出研究短文本分析具有十分重要的理论意义。现有技术采用Word2Vec实现文本向量化,Word2Vec对训练数据的数量、质量以及领域知识完备性要求较高。而现实环境中特定行业数据量通常不够充分,一般情况下无法通过第三方渠道获取高质量数据样例,导致在实际生产环境中或者小样本场景下无法获得高质量的文本向量化表示,进而影响短文本相似度的精确度。
技术实现思路
本专利技术要解决的技术问题是提供一种向量语义张量空间下的短文本相似度计算方法,用于解决小样本条件下短文本相似度计算问题,缓解或消除文档、词语不同长度对相似度带来的影响,同时在向量和语义张量空间下完成文本相似度计算。为了解决所述问题技术问题,本专利技术采用的技术方案是:向量语义张量空间下的短文本相似度计算方法,包括以下步骤:S01)、对输入的训练数据集或者测试样本进行自然语言处理、统计分析和向量分析,得到用户查询语句与训练样本的向量距离;S02)、对步骤S01中经过自然语言处理、统计分析得出的统计数据集合进行语义回归预测,得到用户查询语句与训练样本的语义距离;S03)、基于步骤S01得出的向量距离分布和步骤S02得出的语义距离分布建立张量空间,向量距离和语义距离的取值均在[0,1],然后在建立的张量空间内计算短文本之间的相似度。进一步的,步骤S02中,通过语义回归模型进行语义分析预测,语义分析预测的具体过程为:S51)、首先初始化语义回归模型,即获取所有训练样本实体权重集合WordIDF在同义词词林中的语义编码集合,接着抽取用户查询语句中所有实体词同义词词林编码,然后根据实体编码以及作为叶子节点所在分支,基于语义回归模型计算词语之间的语义距离,语义回归模型为:Score(wordi,wordj)表示wordi与wordj之间的语义距离,其中weight取值随wordi与wordj所在编码分支级别相关,当两个词语的编码分支位于第1级时,weight=0.00,编码分支位于第2级时,weight=0.65,编码分支位于第3级时,weight=0.80,编码分支位于第4级时,weight=0.90,编码分支位于第5级时,weight=0.96,n代表词语坐在分支层的节点总数,k代表不同语义项之间的分支距离;S52)、遍历获取训练样本实体词与查询语句实体词,计算词语之间的最小语义距离,最后查询语句实体词的最小语义距离的均值并作为语义距离distsem输出。进一步的,wordi与wordj编码分支完全相同时,若编码结尾是等号,则Score=0.00,若编码结尾是#号,则Score=0.5。进一步的,步骤S03中,通过闵可夫斯基距离表征短文本之间的相似度,公式为:(11),distvec表示向量距离,distsem表示语义距离,p为距离系数。进一步的,通过交叉验证的方式确定p的值,p等于1或2。进一步的,统计分析包括训练过程和预测过程,训练过程完成训练集词语实体词权重计算,预测过程是当用户输入查询语句时计算每个实体词语的权重值,其中训练过程具体为:S31)、对自然语言处理生成的结构化文本依次进行删除重复项、合并同义词处理,构建训练词语集合以及文档关键词矩阵DocList,其中文档关键词矩阵每条记录包括一个标准问句和其相应词语列表;S32)、遍历计算训练词语集合中每个词语wordi对问题的贡献度即权重,最终得到实体词权重集合WordIDF,文档关键词矩阵DocList和实体词权重集合WordIDF为统计分析得出的统计数据集合;预测过程是当用户输入查询语句时在WordIDF集合中根据查询语句中的实体词抽取实体的权重。进一步的,采用IDF算法计算训练词语集合中每个实体词的权重,具体公式为:其中N为训练词语集合中的问题总数,ni为问题包含了wordi的问题总数,0.5是调和系数。进一步的,向量分析包括训练过程和预测过程,训练过程完成训练词语集实体词权重与文档的相关度计算以及文档向量的生成,预测过程是当用户输入查询语句时,计算其与训练样本的向量距离;训练过程具体为:S41)、遍历DocList以及WordIDF,计算DocList每条记录的若干个关键词与问句相关度得分,获得每个词语与每个文档的相关度集合WordDocCoef,计算公式为:WordDocCoef(wordi,dj)=IDF(wordi)·R(wordi,dj)(2),其中b、k1、k2为调节因子,fi为wordi在文档dj中的出现频率,为文档dj的相对长度,qfi为wordi在查询文档中出现的频率,文档相对长度计算方法为:首先计算每个文档的平均长度Avgl,然后计算文档平均长度与所有文档平均长度的比值,即文档的相对长度Ratl,计算公式为:代表文档di的总长度,代表文档di的个数,N为训练集合文档总数;S42)、遍历文档词语矩阵DocList获取文档向量,首先将WordIDF按照权重进行降序排列并设定向量空间维度为M,选取WordIDF前M个记录作为构建向量空间实体关键字,采用独热编码初始化词语向量然后遍历文档词语矩阵DocList获取每一个文档的实体词列表,并在文档词语相关度矩阵WordDocCoef查询实体词列表与该文档的相关度,通过权重获取句子向量表示公式如下:(8);预测过程具体为:用户输入完成结构化分析后进行统计分析,获取查询语句与向量空间实体关键字交集,基于实体词向量和词语文档相关度矩阵计算查询语句向量化表示,然后计算查询语句向量和训练样本向量预先距离并完成归一化处理,然后将归一化的结果左右向量距离distvec输出。进一步的,自然语言处理完成对用户输入进行实体信息抽取和多维度标记,输出结构化文本;所述实体信息抽取是利用自然语言处理基本技术实现自然语言分词,分词后过滤高频无意义词汇,保留具体实体信息词汇和疑问词汇,然后基于分词得到的词语列表进行词语拓展和归一化;多维护标记是基于用户字典的实体集合的词性标记,利用句法分析技术得到关键信息之间的语法关系,完成实体词语的词性标注以及词性矫正。进一步的,输入的训练数据集为某一行业或者某一领域问题集合,包括若干条记录,每个记录包括一个标准问题和若干个相似问题,测试样本为用户输入的文本问题。本专利技术的有益效果:本专利技术致力解决小样本条件下短文本相似度计算问题;向量语义张量空间下的短文本相似度计算方法,相较于词嵌入模型,概率模型对样本数量以及质量要求不高,在实际生产实践中具有更好的实用性和适用性;相较于单一的概率模型,引入语义学距离进行距离矫正,提高模型计算精度;相较于传统的纯语义学模型,引入数学模型降低复杂度,提供模型泛化能力;相较于传统的向量空间模型,引入权重系数b用来控制文档长度对本文档来自技高网...

【技术保护点】
1.向量语义张量空间下的短文本相似度计算方法,其特征在于:包括以下步骤:S01)、对输入的训练数据集或者测试样本进行自然语言处理、统计分析和向量分析,得到用户查询语句与训练样本的向量距离;S02)、对步骤S01中经过自然语言处理、统计分析得出的统计数据集合进行语义回归预测,得到用户查询语句与训练样本的语义距离;S03)、基于步骤S01得出的向量距离分布和步骤S02得出的语义距离分布建立张量空间,向量距离和语义距离的取值均在[0,1],然后在建立的张量空间内计算短文本之间的相似度。

【技术特征摘要】
1.向量语义张量空间下的短文本相似度计算方法,其特征在于:包括以下步骤:S01)、对输入的训练数据集或者测试样本进行自然语言处理、统计分析和向量分析,得到用户查询语句与训练样本的向量距离;S02)、对步骤S01中经过自然语言处理、统计分析得出的统计数据集合进行语义回归预测,得到用户查询语句与训练样本的语义距离;S03)、基于步骤S01得出的向量距离分布和步骤S02得出的语义距离分布建立张量空间,向量距离和语义距离的取值均在[0,1],然后在建立的张量空间内计算短文本之间的相似度。2.根据权利要求1所述的向量语义张量空间下的短文本相似度计算方法,其特征在于:步骤S02中,通过语义回归模型进行语义分析预测,语义分析预测的具体过程为:S51)、首先初始化语义回归模型,即获取所有训练样本实体权重集合WordIDF在同义词词林中的语义编码集合,接着抽取用户查询语句中所有实体词同义词词林编码,然后根据实体编码以及作为叶子节点所在分支,基于语义回归模型计算词语之间的语义距离,语义回归模型为:Score(wordi,wordj)表示wordi与wordj之间的语义距离,其中weight取值随wordi与wordj所在编码分支级别相关,当两个词语的编码分支位于第1级时,weight=0.00,编码分支位于第2级时,weight=0.65,编码分支位于第3级时,weight=0.80,编码分支位于第4级时,weight=0.90,编码分支位于第5级时,weight=0.96,n代表词语坐在分支层的节点总数,k代表不同语义项之间的分支距离;S52)、遍历获取训练样本实体词与查询语句实体词,计算词语之间的最小语义距离,最后查询语句实体词的最小语义距离的均值并作为语义距离distsem输出。3.根据权利要求2所述的向量语义张量空间下的短文本相似度计算方法,其特征在于:wordi与wordj编码分支完全相同时,若编码结尾是等号,则Score=0.00,若编码结尾是#号,则Score=0.5。4.根据权利要求1所述的向量语义张量空间下的短文本相似度计算方法,其特征在于:步骤S03中,通过闵可夫斯基距离表征短文本之间的相似度,公式为:distvec表示向量距离,distsem表示语义距离,p为距离系数。5.根据权利要求4所述的向量语义张量空间下的短文本相似度计算方法,其特征在于:通过交叉验证的方式确定p的值,p等于1或2。6.根据权利要求1所述的向量语义张量空间下的短文本相似度计算方法,其特征在于:统计分析包括训练过程和预测过程,训练过程完成训练集词语实体词权重计算,预测过程是当用户输入查询语句时计算每个实体词语的权重值,其中训练过程具体为:S31)、对自然语言处理生成的结构化文本依次进行删除重复项、合并同义词处理,构建训练词语集合以及文档关键词矩阵DocList,其中文档关键词矩阵每条记录包括一个标准问句和其相应词语列表;S32)、遍历计算训练词语集合中每个词语wordi对问题的贡献度即权重,最终得到实体词权重集合WordIDF,文档关键词...

【专利技术属性】
技术研发人员:李民陈龙单英哲崔豪楠
申请(专利权)人:神思电子技术股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1