近义词库构建方法及系统、电子装置及计算机可读介质制造方法及图纸

技术编号:35739919 阅读:11 留言:0更新日期:2022-11-26 18:43
本发明专利技术公开了近义词库构建方法及系统、电子装置及计算机可读介质,属于自然语言处理技术领域,要解决的技术问题为如何通过自然语言处理技术,准确快速的提取近义词、辅助业务人员构建近义词库。包括如下步骤:通过中分分词对文本进行关键词提取,将提取的多个关键词作为初始关键词;对所述多个初始关键词进行预处理,去除停用词以及重复词、并根据词性筛选关键词,得到最终的关键词;基于构建的语义空间计算每个关键词的词向量,以词向量之间的余弦夹角为语义相似度指标,基于关键词之间的语义相似度筛选出近义词、并构建近义词库。并构建近义词库。并构建近义词库。

【技术实现步骤摘要】
近义词库构建方法及系统、电子装置及计算机可读介质


[0001]本专利技术涉及自然语言处理
,具体地说是近义词库构建方法及系统、电子装置及计算机可读介质。

技术介绍

[0002]近义词是指词汇意义相近或相同的词语。通过近义词库,可以将口语化的词语映射到标准化的词语上,从而将非标准化的信息转换成标准化信息,有助于生成结构化数据。
[0003]构建近义词库对数据标准化、数据治理具有积极作用。在业务场景中,构建近义词库往往需要人工梳理近义词,但是人工梳理方法耗时耗力,当面对大量的文字信息,想要利用人力从中抽取出近义词并构建成近义词库非常困难。
[0004]如何通过自然语言处理技术,准确快速的提取近义词、辅助业务人员构建近义词库,是需要解决的技术问题。

技术实现思路

[0005]本专利技术的技术任务是针对以上不足,提供近义词库构建方法及系统、电子装置及计算机可读介质,来解决如何通过自然语言处理技术,准确快速的提取近义词、辅助业务人员构建近义词库的技术问题。
[0006]第一方面,本专利技术的一种近义词库构建方法,应用于政务场景,包括如下步骤:
[0007]通过中分分词对文本进行关键词提取,将提取的多个关键词作为初始关键词;
[0008]对所述多个初始关键词进行预处理,去除停用词以及重复词、并根据词性筛选关键词,得到最终的关键词;
[0009]基于构建的语义空间计算每个关键词的词向量,以词向量之间的余弦夹角为语义相似度指标,基于关键词之间的语义相似度筛选出近义词、并构建近义词库。
[0010]作为优选,通过如下步骤筛选出近义词:
[0011]构建语义空间;
[0012]对于每个关键词,将所述关键词映射到语义空间得到对应的词向量;
[0013]基于词向量依次计算任意两个关键词之间的语义相似度,并将大于阈值的语义相似度对应的两个关键词筛选为近似词。
[0014]作为优选,对于N个关键词,基于词向量依次计算任意两个关键词之间的语义相似度,并将大于阈值的语义相似度对应的两个关键词筛选为近似词,包括如下步骤:
[0015]对于每个关键词,基于词向量计算所述关键词与所述N个关键词之间的语义相似度,得到N*N的相似度矩阵,所述相似度矩阵中(a,b)坐标位置的语义相似度表示第a个关键词与第b个关键词之间的语义相似度;
[0016]设定阈值x,从所述相似度矩阵中筛选出语义相似度大于阈值的坐标位置;
[0017]对于筛选出的坐标位置,通过如下步骤进行再次筛选:去除行坐标值和列坐标值相同的坐标位置,如果两个坐标位置对应的两个关键词相同,判定所述两个坐标位置为重
复位置,对于重复位置只保留一个坐标位置;
[0018]对于最终的坐标位置,将所述坐标位置对应的两个关键词为近义词。
[0019]作为优选,所述词性包括名词、介词、形容词和标点词;
[0020]关键词的词性限制为名词、专有名词、地址和机构,不是介词、形容词和标点词,基于所述限制词性,筛选出关键词。
[0021]第二方面,本专利技术的一种用于政务场景的近义词库构建系统,用于通过如第一方面任一项所述的一种近义词库构建方法构建应用场景下的近义词库,所述系统包括:
[0022]关键词提取模块,所述关键词提取模块用于通过中分分词对文本进行关键词提取,将提取的多个关键词作为初始关键词;
[0023]预处理模块,所述预处理模块用于对所述多个初始关键词进行预处理,去除停用词以及重复词、并根据词性筛选关键词,得到最终的关键词;
[0024]近义词库构建模块,所述近义词库构建模块用于基于构建的语义空间计算每个关键词的词向量,以词向量之间的余弦夹角为语义相似度指标,基于关键词之间的语义相似度筛选出近义词、并构建近义词库。
[0025]作为优选,所述近义词库构建模块用于通过如下步骤筛选近义词:
[0026]构建语义空间;
[0027]对于每个关键词,将所述关键词映射到语义空间得到对应的词向量;
[0028]基于词向量依次计算任意两个关键词之间的语义相似度,并将大于阈值的语义相似度对应的两个关键词筛选为近似词。
[0029]作为优选,对于N个关键词,所述近义词库构建模块用于如下步骤基于词向量依次计算任意两个关键词之间的语义相似度,并将大于阈值的语义相似度对应的两个关键词筛选为近似词:
[0030]对于每个关键词,基于词向量计算所述关键词与所述N个关键词之间的语义相似度,得到N*N的相似度矩阵,所述相似度矩阵中(a,b)坐标位置的语义相似度表示第a个关键词与第b个关键词之间的语义相似度;
[0031]设定阈值x,从所述相似度矩阵中筛选出语义相似度大于阈值的坐标位置;
[0032]对于筛选出的坐标位置,通过如下步骤进行再次筛选:去除行坐标值和列坐标值相同的坐标位置,如果两个坐标位置对应的两个关键词相同,判定所述两个坐标位置为重复位置,对于重复位置只保留一个坐标位置;
[0033]对于最终的坐标位置,将所述坐标位置对应的两个关键词为近义词。
[0034]作为优选,所述词性包括名词、介词、形容词和标点词;
[0035]所述预处理模块用于将关键词的词性限制为名词、专有名词、地址和机构,不是介词、形容词和标点词,并用于基于所述限制词性,筛选出关键词。
[0036]第三方面,本专利技术的一种电子装置,包括:至少一个存储器和至少一个处理器;
[0037]所述至少一个存储器,用于存储机器可读程序;
[0038]所述至少一个处理器,用于调用所述机器可读程序,执行第一方面任一所述的方法。
[0039]第四方面,本专利技术的计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行第一方面任一所述的方法。
[0040]本专利技术的近义词库构建方法及系统、电子装置及计算机可读介质具有以下优点:
[0041]1、在业务场景下,通过中文分词从文本中提取关键词后,基于构建的语义空间计算每个关键词的词向量,以词向量之间的余弦夹角为语义相似度指标,基于关键词之间的语义相似度筛选出近义词,基于筛选出的近义词构建近义词库,从而实现了业务场景下快速构建近义词库;
[0042]2、对提取的关键词进行筛选,去除停用词及重复词,并根据限制词性对关键词进行预处理,提高了近义词库的准确性;
[0043]3、基于关键词之间的语义相似度筛选出近义词时,通过相似度矩阵的形式记录两个关键词之间的语义相似度,相似度矩阵中坐标位置(a,b)处的语义相似度值为第a个关键词与第b个关键词之间的语义相似度,从相似度矩阵中选择语义相似度大于阈值的坐标位置,并对坐标位置进行筛选,去除行列坐标一致的坐标位置,对于重复坐标位置保留一个,筛选出的坐标位置对应的两个关键词为近义词,即实现了通过索引的方式筛选近义词,可快速、精确的筛选出近义词。
附图说明
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种近义词库构建方法,其特征在于应用于政务场景,包括如下步骤:通过中分分词对文本进行关键词提取,将提取的多个关键词作为初始关键词;对所述多个初始关键词进行预处理,去除停用词以及重复词、并根据词性筛选关键词,得到最终的关键词;基于构建的语义空间计算每个关键词的词向量,以词向量之间的余弦夹角为语义相似度指标,基于关键词之间的语义相似度筛选出近义词、并构建近义词库。2.根据权利要求1所述的用于政务场景的近义词库构建方法,其特征在于通过如下步骤筛选出近义词:构建语义空间;对于每个关键词,将所述关键词映射到语义空间得到对应的词向量;基于词向量依次计算任意两个关键词之间的语义相似度,并将大于阈值的语义相似度对应的两个关键词筛选为近似词。3.根据权利要求2所述的用于政务场景的近义词库构建方法,其特征在于对于N个关键词,基于词向量依次计算任意两个关键词之间的语义相似度,并将大于阈值的语义相似度对应的两个关键词筛选为近似词,包括如下步骤:对于每个关键词,基于词向量计算所述关键词与所述N个关键词之间的语义相似度,得到N*N的相似度矩阵,所述相似度矩阵中(a,b)坐标位置的语义相似度表示第a个关键词与第b个关键词之间的语义相似度;设定阈值x,从所述相似度矩阵中筛选出语义相似度大于阈值的坐标位置;对于筛选出的坐标位置,通过如下步骤进行再次筛选:去除行坐标值和列坐标值相同的坐标位置,如果两个坐标位置对应的两个关键词相同,判定所述两个坐标位置为重复位置,对于重复位置只保留一个坐标位置;对于最终的坐标位置,将所述坐标位置对应的两个关键词为近义词。4.根据权利要求1

3任一项所述的用于政务场景的近义词库构建方法,其特征在于所述词性包括名词、介词、形容词和标点词;关键词的词性限制为名词、专有名词、地址和机构,不是介词、形容词和标点词,基于所述限制词性,筛选出关键词。5.一种用于政务场景的近义词库构建系统,其特征在于用于通过如权利要求1

4任一项所述的一种近义词库构建方法构建应用场景下的近义词库,所述系统包括:关键词提取模块,所述关键词提取模块用于通过中分分词对文本进行关键词提取,将提取的多个关键词作为初始关键词;预处理模块,所述预处理模块用于对所述多个初始关...

【专利技术属性】
技术研发人员:吴俊雄潘震仇恒坦杨春蕾
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1