向量语义张量空间下的短文本相似度计算方法技术

技术编号：22330151 阅读：49 留言：0更新日期：2019-10-19 12:17

本发明专利技术公开一种向量语义张量空间下的短文本相似度计算方法，本方法首先对输入的训练数据集或者测试样本进行自然语言处理、统计分析和向量分析，得到用户查询语句与训练样本的向量距离；然后对经过自然语言处理、统计分析得出的统计数据集合进行语义回归预测，得到用户查询语句与训练样本的语义距离；最后基于向量距离分布和语义距离分布建立张量空间，在建立的张量空间内计算短文本之间的相似度。本发明专利技术用于解决小样本条件下短文本相似度计算问题，缓解或消除文档、词语不同长度对相似度带来的影响，同时在向量和语义张量空间下完成文本相似度计算。

全部详细技术资料下载

【技术实现步骤摘要】
向量语义张量空间下的短文本相似度计算方法
本专利技术涉及一种短文本相似度计算方法，具体是一种向量语义张量空间下的短文本相似度计算方法，属于人工智能

技术介绍
智能对话系统核心在于语义理解的准确度，准确度越高、提供服务更加精准，用户体验更好。但是中文自然语言语义理解难度主要有两个方面，语言是人类对客观事物事件的人为抽象，所以语言主观且多变，在中文的处理中尤其明显；另一方面语言传递的信息往往和上下文有关。同时短文本的信息稀疏性以及用词随意性进一步提高短文本分析处理的难度，另一方面也体现出研究短文本分析具有十分重要的理论意义。现有技术采用Word2Vec实现文本向量化，Word2Vec对训练数据的数量、质量以及领域知识完备性要求较高。而现实环境中特定行业数据量通常不够充分，一般情况下无法通过第三方渠道获取高质量数据样例，导致在实际生产环境中或者小样本场景下无法获得高质量的文本向量化表示，进而影响短文本相似度的精确度。
技术实现思路
本专利技术要解决的技术问题是提供一种向量语义张量空间下的短文本相似度计算方法，用于解决小样本条件下短文本相似度计算问题，缓解或消除文档、词语不同长度对相似度带来的影响，同时在向量和语义张量空间下完成文本相似度计算。为了解决所述问题技术问题，本专利技术采用的技术方案是：向量语义张量空间下的短文本相似度计算方法，包括以下步骤：S01)、对输入的训练数据集或者测试样本进行自然语言处理、统计分析和向量分析，得到用户查询语句与训练样本的向量距离；S02)、对步骤S01中经过自然语言处理、统计分析得出的统计数据集合进行语义回归预测，得到用户...

【技术保护点】
1.向量语义张量空间下的短文本相似度计算方法，其特征在于：包括以下步骤：S01)、对输入的训练数据集或者测试样本进行自然语言处理、统计分析和向量分析，得到用户查询语句与训练样本的向量距离；S02)、对步骤S01中经过自然语言处理、统计分析得出的统计数据集合进行语义回归预测，得到用户查询语句与训练样本的语义距离；S03)、基于步骤S01得出的向量距离分布和步骤S02得出的语义距离分布建立张量空间，向量距离和语义距离的取值均在[0,1]，然后在建立的张量空间内计算短文本之间的相似度。

【技术特征摘要】
1.向量语义张量空间下的短文本相似度计算方法，其特征在于：包括以下步骤：S01)、对输入的训练数据集或者测试样本进行自然语言处理、统计分析和向量分析，得到用户查询语句与训练样本的向量距离；S02)、对步骤S01中经过自然语言处理、统计分析得出的统计数据集合进行语义回归预测，得到用户查询语句与训练样本的语义距离；S03)、基于步骤S01得出的向量距离分布和步骤S02得出的语义距离分布建立张量空间，向量距离和语义距离的取值均在[0,1]，然后在建立的张量空间内计算短文本之间的相似度。2.根据权利要求1所述的向量语义张量空间下的短文本相似度计算方法，其特征在于：步骤S02中，通过语义回归模型进行语义分析预测，语义分析预测的具体过程为：S51)、首先初始化语义回归模型，即获取所有训练样本实体权重集合WordIDF在同义词词林中的语义编码集合，接着抽取用户查询语句中所有实体词同义词词林编码，然后根据实体编码以及作为叶子节点所在分支，基于语义回归模型计算词语之间的语义距离，语义回归模型为：Score(wordi,wordj)表示wordi与wordj之间的语义距离，其中weight取值随wordi与wordj所在编码分支级别相关，当两个词语的编码分支位于第1级时，weight＝0.00，编码分支位于第2级时，weight＝0.65，编码分支位于第3级时，weight＝0.80，编码分支位于第4级时，weight＝0.90，编码分支位于第5级时，weight＝0.96，n代表词语坐在分支层的节点总数，k代表不同语义项之间的分支距离；S52)、遍历获取训练样本实体词与查询语句实体词，计算词语之间的最小语义距离，最后查询语句实体词的最小语义距离的均值并作为语义距离distsem输出。3.根据权利要求2所述的向量语义张量空间下的短文本相似度计算方法，其特征在于：wordi与wordj编码分支完全相同时，若编码结尾是等号，则Score＝0.00，若编码结尾是#号，则Score＝0.5。4.根据权利要求1所述的向量语义张量空间下的短文本相似度计算方法，其特征在于：步骤S03中，通过闵可夫斯基距离表征短文本之间的相似度，公式为：distvec表示向量距离，distsem表示语义距离，p为距离系数。5.根据权利要求4所述的向量语义张量空间下的短文本相似度计算方法，其特征在于：通过交叉验证的方式确定p的值，p等于1或2。6.根据权利要求1所述的向量语义张量空间下的短文本相似度计算方法，其特征在于：统计分析包括训练过程和预测过程，训练过程完成训练集词语实体词权重计算，预测过程是当用户输入查询语句时计算每个实体词语的权重值，其中训练过程具体为：S31)、对自然语言处理生成的结构化文本依次进行删除重复项、合并同义词处理，构建训练词语集合以及文档关键词矩阵DocList，其中文档关键词矩阵每条记录包括一个标准问句和其相应词语列表；S32)、遍历计算训练词语集合中每个词语wordi对问题的贡献度即权重，最终得到实体词权重集合WordIDF，文档关键词...

【专利技术属性】
技术研发人员：李民，陈龙，单英哲，崔豪楠，
申请(专利权)人：神思电子技术股份有限公司，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人