一种基于加权特征向量的配网文本相似度的计算方法技术

技术编号：37063386 阅读：11 留言：0更新日期：2023-03-29 19:41

本发明专利技术涉及文本相似度技术领域，具体是涉及了一种基于加权特征向量的配网文本相似度的计算方法，所述方法包括S1、文本预处理，对获取到的配网文本数据进行预处理，S2、构建文本特征向量，通过Skip

全部详细技术资料下载

【技术实现步骤摘要】
一种基于加权特征向量的配网文本相似度的计算方法

[0001]本专利技术涉及文本相似度
，具体是涉及了一种基于加权特征向量的配网文本相似度的计算方法。

技术介绍

[0002]文本相似度计算是智能问答系统中至关重要的技术环节，在问答系统的信息检索中，最重要的任务就是计算问句的相似度计算，相似度计算的效果好坏，对信息检索的结果准确性有直接的影响。
[0003]文本相似度旨在研究两个文本在语义层面的匹配程度，若相似度越大，则两者的之间越匹配；若相似度越小，则两者之间越不匹配，文本语义相似度计算的核心以及最大的难点就是语义理解。
[0004]现有的文本相似度计算方法对文本进行建模会产生特征稀疏问题，而且单独考虑文本某一方面因素进行相似度计算研究也是不全面的，文本相似度计算的准确率有待提高。

技术实现思路

[0005]本专利技术为了解决现有文本相似度计算方法对于文本特征因素考虑单一，准确率较低的问题，提供了一种基于加权特征向量的配网文本相似度的计算方法，通过进行词向量训练，引用词向量优点，对文本构成部分进行分析，同时增加同义词处理和加权处理，构建更加精确的文本相似度计算模型。
[0006]本专利技术采用的技术方案是，提供了一种基于加权特征向量的配网文本相似度的计算方法，所述方法包括，
[0007]S1、文本预处理，对获取到的配网文本数据进行预处理，依次包括噪音数据处理、分词处理和无用数据处理；
[0008]S2、构建文本特征向量，通过Skip
‑
gr...

【技术保护点】

【技术特征摘要】
1.一种基于加权特征向量的配网文本相似度的计算方法，其特征在于：所述方法包括，S1、文本预处理，对获取到的配网文本数据进行预处理，依次包括噪音数据处理、分词处理和无用数据处理；S2、构建文本特征向量，通过Skip
‑
gram模型对配网文本数据进行训练后得到词向量，通过累加词向量的方式构建文本特征向量或通过计算各词向量算术平均的方式构建文本特征向量；S3、文本相似度计算，采用距离算法得到不同文本特征向量之间的距离，然后通过余弦相似度算法得出余弦相似度。2.根据权利要求1所述的一种基于加权特征向量的配网文本相似度的计算方法，其特征在于：所述步骤S1完成后增加同义词处理步骤，具体包括步骤S1完成后进行同义词匹配，当存在同义词时则认定为重叠词语。3.根据权利要求1或2所述的一种基于加权特征向量的配网文本相似度的计算方法，其特征在于：所述步骤S2中在通过Skip
‑
gram模型对配网文本数据进行训练后得到词向量后增加加权处理步骤，具体包括根据每个词...

【专利技术属性】
技术研发人员：赵艳宁，李玉林，于瑞丰，王亚良，张伟，仇向东，周兴华，
申请(专利权)人：北京中恒博瑞数字电力科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人