一种基于加权特征向量的配网文本相似度的计算方法技术

技术编号:37063386 阅读:11 留言:0更新日期:2023-03-29 19:41
本发明专利技术涉及文本相似度技术领域,具体是涉及了一种基于加权特征向量的配网文本相似度的计算方法,所述方法包括S1、文本预处理,对获取到的配网文本数据进行预处理,S2、构建文本特征向量,通过Skip

【技术实现步骤摘要】
一种基于加权特征向量的配网文本相似度的计算方法


[0001]本专利技术涉及文本相似度
,具体是涉及了一种基于加权特征向量的配网文本相似度的计算方法。

技术介绍

[0002]文本相似度计算是智能问答系统中至关重要的技术环节,在问答系统的信息检索中,最重要的任务就是计算问句的相似度计算,相似度计算的效果好坏,对信息检索的结果准确性有直接的影响。
[0003]文本相似度旨在研究两个文本在语义层面的匹配程度,若相似度越大,则两者的之间越匹配;若相似度越小,则两者之间越不匹配,文本语义相似度计算的核心以及最大的难点就是语义理解。
[0004]现有的文本相似度计算方法对文本进行建模会产生特征稀疏问题,而且单独考虑文本某一方面因素进行相似度计算研究也是不全面的,文本相似度计算的准确率有待提高。

技术实现思路

[0005]本专利技术为了解决现有文本相似度计算方法对于文本特征因素考虑单一,准确率较低的问题,提供了一种基于加权特征向量的配网文本相似度的计算方法,通过进行词向量训练,引用词向量优点,对文本构成部分进行分析,同时增加同义词处理和加权处理,构建更加精确的文本相似度计算模型。
[0006]本专利技术采用的技术方案是,提供了一种基于加权特征向量的配网文本相似度的计算方法,所述方法包括,
[0007]S1、文本预处理,对获取到的配网文本数据进行预处理,依次包括噪音数据处理、分词处理和无用数据处理;
[0008]S2、构建文本特征向量,通过Skip

gram模型对配网文本数据进行训练后得到词向量,通过累加词向量的方式构建文本特征向量或通过计算各词向量算术平均的方式构建文本特征向量;
[0009]S3、文本相似度计算,采用距离算法得到不同文本特征向量之间的距离,然后通过余弦相似度算法得出余弦相似度。
[0010]所述步骤S1完成后增加同义词处理步骤,具体包括步骤S1完成后进行同义词匹配,当存在同义词时则认定为重叠词语。
[0011]所述步骤S2中在通过Skip

gram模型对配网文本数据进行训练后得到词向量后增加加权处理步骤,具体包括根据每个词语所包含的主谓宾成分的不同,分别对不同的词语设定不同的词性权重值,通过词向量和词性权重值构建文本特征向量。
[0012]所述加权处理步骤中名词词性权重值大于动词词性权重值,动词词性权重值大于形容词和副词的词性权重值,形容词和副词的词性权重值大于其他词性权重值。
[0013]所述步骤S1中噪音数据处理为对采集到的配网文本数据集当中对文本处理产生干扰的文字、表情符号、特殊字符进去去除。
[0014]所述步骤S1中分词处理为采用HanLP分词框架对配网文本数据进行分词。
[0015]所述步骤S1中无用数据处理为采用HanLP内置停用词表,过滤掉分词处理后的文本数据中无实际意义词语,包括标点符号、虚词和数字。
[0016]本专利技术的有益效果是,本专利技术基于加权特征向量的文本相似度计算模型,在文本相似度计算过程中引入了词向量来构建文本语义信息,通过特征词向量表示文本特征向量,并设置相似阈值将文本中的关键词划分为同义词和非同义词,并针对不同词性的词语特征向量进行相似度加权处理,最后通过余弦相似度算法得到文本相似度,使文本相似度计算更加全面和准确。
[0017]本专利技术基于加权特征向量的文本相似度计算模型,在文本相似度计算过程中引入了对同义词的处理,通过对不同的配网领域文本分词后的各个词语进行同义词处理,当存在同义词时则认定为重叠词语,互为同义词的词语的词向量可统一设置为1,有效提高文本相似度计算的准确度。同时,同义词处理可以减少文本不同词语的处理数量,简化文本特征向量的数据维度,减少模型训练过程中的词向量处理时间,提高文本中词向量的处理效率。引入词向量加权处理,对不同的词语设定不同的词性权重值,通过词向量和词性权重值构建文本特征向量,名词标识了文本描述的主要内容,动词标识了文本表达的动作和趋势,形容词标识了文本表达的情感倾向,副词,如“一个”、“一只”、“一支”等,可以理解成表达为“1”的标识,不同词性词语对文本的影响权重不同,引入词向量加权处理可以减少文本向量计算过程中的干扰项。
附图说明
[0018]图1是本专利技术相似度计算方法的流程示意图。
具体实施方式
[0019]如图1所示,本专利技术提供了一种基于加权特征向量的配网文本相似度的计算方法,所述方法包括,
[0020]S1、文本预处理,对获取到的配网文本数据进行预处理,依次包括噪音数据处理、分词处理和无用数据处理;
[0021]其中,噪音数据处理为对采集到的配网文本数据集当中对文本处理产生干扰的文字、表情符号、特殊字符进去去除。
[0022]分词处理为采用HanLP分词框架对配网文本数据进行分词。
[0023]无用数据处理为采用HanLP内置停用词表,过滤掉分词处理后的文本数据中无实际意义词语,包括标点符号、虚词和数字。
[0024]所述步骤S1完成后增加同义词处理步骤,具体包括步骤S1完成后进行同义词匹配,当存在同义词时则认定为重叠词语。
[0025]S2、构建文本特征向量,通过Skip

gram模型对配网文本数据进行训练后得到词向量,通过累加词向量的方式构建文本特征向量或通过计算各词向量算术平均的方式构建文本特征向量;
[0026]所述步骤S2中在通过Skip

gram模型对配网文本数据进行训练后得到词向量后增加加权处理步骤,具体包括根据每个词语所包含的主谓宾成分的不同,分别对不同的词语设定不同的词性权重值,通过词向量和词性权重值构建文本特征向量。
[0027]所述加权处理步骤中名词词性权重值大于动词词性权重值,动词词性权重值大于形容词和副词的词性权重值,形容词和副词的词性权重值大于其他词性权重值。
[0028]S3、文本相似度计算,采用距离算法得到不同文本特征向量之间的距离,然后通过余弦相似度算法得出余弦相似度。
[0029]为使本专利技术实施例的目的、技术方案和技术效果更加清楚,下面结合具体实施例对本专利技术做进一步阐述。
[0030]1、文本预处理
[0031]在进行文本相似度计算之前,首先需要对文本进行预处理。对采集到的配网文本数据集当中对文本处理产生干扰的一些文字、表情符号、特殊字符等噪声数据的去除工作,利用正则表达式来提取一个串中的符合某个条件的某个子串,对配网领域数据文本进行无用信息的识别和过滤,例如:
[0032]“@李工:电缆故障都有哪些?”和“邯东线4环网柜014出线1#柱上变压器”[0033]经过过滤噪声数据的处理后,得到文本数据为:
[0034]“电缆故障都有哪些?”和“邯东线4环网柜014出线1柱上变压器”[0035]经过第一步的噪声处理后,我们得到了较为纯净的文本数据信息,下一步需要进行分词处理。本专利技术采用HanLP分词框架,该框架本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述方法包括,S1、文本预处理,对获取到的配网文本数据进行预处理,依次包括噪音数据处理、分词处理和无用数据处理;S2、构建文本特征向量,通过Skip

gram模型对配网文本数据进行训练后得到词向量,通过累加词向量的方式构建文本特征向量或通过计算各词向量算术平均的方式构建文本特征向量;S3、文本相似度计算,采用距离算法得到不同文本特征向量之间的距离,然后通过余弦相似度算法得出余弦相似度。2.根据权利要求1所述的一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述步骤S1完成后增加同义词处理步骤,具体包括步骤S1完成后进行同义词匹配,当存在同义词时则认定为重叠词语。3.根据权利要求1或2所述的一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述步骤S2中在通过Skip

gram模型对配网文本数据进行训练后得到词向量后增加加权处理步骤,具体包括根据每个词...

【专利技术属性】
技术研发人员:赵艳宁李玉林于瑞丰王亚良张伟仇向东周兴华
申请(专利权)人:北京中恒博瑞数字电力科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1