词库扩充方法技术

技术编号:39514335 阅读:10 留言:0更新日期:2023-11-25 18:51
本申请实施例属于互联网技术领域,涉及一种词库扩充方法,包括:获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据;根据所述第一舆情数据和所述第二舆情数据进行特征提取,得到特征词汇数据;根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型;通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型;通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别,得到鉴别结果,并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充

【技术实现步骤摘要】
词库扩充方法、系统、计算机设备及存储介质


[0001]本申请涉及互联网
,尤其涉及一种词库扩充方法

系统

计算机设备及存储介质


技术介绍

[0002]随着互联网的飞速发展,网络语言已成为了人们生活中必不可少的一部分,不停地涌现于各个领域

由于网络语言的不断演化,用来体现网络语言的词汇也发生着日新月异的变化,因此,针对特定的业务领域,为了更好地对词汇进行判别,扩充词库是必不可少的

[0003]一般而言,传统的扩充词库的过程,可以通过相似性
、AI
云计算等方式,以行业专家给出的关键词列表为索引,并采用主题建模方法如
LDA
对关键词列表中关键词的关联范围进行扩充,而后检索关联范围内的关联词,从而基于关联词对词库进行扩充

[0004]然而,采用上述方式,没有考虑到关联词的质量和业务领域的适用情况,对于部分隐蔽性强的词汇不能很好的判别,例如在非法集资领域中将“分红”写成“分
h”,此外,主题建模方法的泛化能力较弱,最终使得扩充词库时针对性较弱

专业性较差


技术实现思路

[0005]本申请实施例的目的在于提出一种词库扩充方法

系统

计算机设备及存储介质,以解决扩充词库时针对性较弱,不能很好地判别隐蔽性强的词汇的技术问题

[0006]为了解决上述技术问题,本申请实施例提供一种词库扩充方法,采用了如下所述的技术方案:获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据;根据所述第一舆情数据和所述第二舆情数据进行特征提取,得到特征词汇数据;根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型;通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型;通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别,得到鉴别结果,并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充

[0007]进一步的,所述根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型的步骤,具体包括:建立包含生成器网络和判别器网络的生成对抗网络模型;根据所述特征词汇数据对所述生成对抗网络模型进行模型优化训练,得到训练完成的所述领域词汇生成模型

[0008]进一步的,所述特征词汇数据包括所述第一舆情数据对应的第一特征词汇数据和所述第二舆情数据对应的第二特征词汇数据,所述根据所述特征词汇数据对所述生成对抗
网络模型进行模型优化训练,得到训练完成的所述领域词汇生成模型的步骤,具体包括:根据所述生成器网络将所述第二特征词汇数据转换为目标业务领域的生成词汇数据;根据所述判别器网络对所述生成词汇数据和所述第一特征词汇数据进行判别,得到判别结果;根据所述判别结果对所述生成器网络的参数进行优化;当所述判别器网络对应的判别准确率为
50%
时,将所述生成对抗网络模型作为所述领域词汇生成模型

[0009]进一步的,所述领域词汇生成模型的损失函数为:;其中,
E
为数学期望,
G
为生成器网络,
D
为判别器网络,
X
为第一特征词汇数据,为生成词汇数据

[0010]进一步的,所述通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型的步骤,具体包括:通过所述领域词汇生成模型生成所述待鉴别词汇数据,将所述第一特征词汇数据

所述第二特征词汇数据以及所述待鉴别词汇数据作为特征集;根据所述特征集,建立机器学习分类模型并对所述机器学习分类模型进行模型优化训练,得到训练完成的所述领域词汇鉴别模型

[0011]进一步的,所述根据所述特征集,建立机器学习模型并对所述机器学习模型进行模型优化训练,得到训练完成的所述领域词汇鉴别模型的步骤,具体包括:将所述特征集分为训练集和测试集;根据所述训练集执行分类器算法,生成所述机器学习分类模型;将所述测试集输入所述机器学习分类模型进行测试,根据测试结果对所述机器学习分类模型的模型参数进行优化,得到所述领域词汇鉴别模型

[0012]进一步的,所述通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别,得到鉴别结果,并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充的步骤,具体包括:将所述待鉴别词汇数据输入所述领域词汇鉴别模型,得到所述鉴别结果;根据所述鉴别结果,确定所述待鉴别词汇数据是否属于所述目标业务领域;若所述待鉴别词汇数据属于所述目标业务领域,则将所述待鉴别词汇数据填充至所述词库;若所述待鉴别词汇数据不属于所述目标业务领域,则通过所述领域词汇生成模型再次生成待鉴别词汇数据,并返回执行将待鉴别词汇数据输入领域词汇鉴别模型,得到鉴别结果的步骤

[0013]为了解决上述技术问题,本申请实施例还提供一种词库扩充系统,采用了如下所述的技术方案:一种词库扩充系统,包括:获取模块,用于获取属于目标业务领域的第一舆情数据和不属于所述目标业务领
域的第二舆情数据;提取模块,用于根据所述第一舆情数据和所述第二舆情数据进行特征提取,得到特征词汇数据;第一构建模块,用于根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型;第二构建模块,用于通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型;鉴别模块,用于通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别,得到鉴别结果,并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充

[0014]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的词库扩充方法的步骤

[0015]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的词库扩充方法的步骤

[0016]与现有技术相比,本申请实施例主要有以下有益效果:本申请公开的词库扩充方法,包括:获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据;根据所述第一舆情数据和所述第二舆情数据进行特征提取,得到特征词汇数据;根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型;通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型;通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别,得到鉴本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种词库扩充方法,其特征在于,包括下述步骤:获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据;根据所述第一舆情数据和所述第二舆情数据进行特征提取,得到特征词汇数据;根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型;通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型;通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别,得到鉴别结果,并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充
。2.
根据权利要求1所述的词库扩充方法,其特征在于,所述根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型的步骤,具体包括:建立包含生成器网络和判别器网络的生成对抗网络模型;根据所述特征词汇数据对所述生成对抗网络模型进行模型优化训练,得到训练完成的所述领域词汇生成模型
。3.
根据权利要求2所述的词库扩充方法,其特征在于,所述特征词汇数据包括所述第一舆情数据对应的第一特征词汇数据和所述第二舆情数据对应的第二特征词汇数据,所述根据所述特征词汇数据对所述生成对抗网络模型进行模型优化训练,得到训练完成的所述领域词汇生成模型的步骤,具体包括:根据所述生成器网络将所述第二特征词汇数据转换为目标业务领域的生成词汇数据;根据所述判别器网络对所述生成词汇数据和所述第一特征词汇数据进行判别,得到判别结果;根据所述判别结果对所述生成器网络的参数进行优化;当所述判别器网络对应的判别准确率为
50%
时,将所述生成对抗网络模型作为所述领域词汇生成模型
。4.
根据权利要求3所述的词库扩充方法,其特征在于,所述领域词汇生成模型的损失函数为:;其中,
E
为数学期望,
G
为生成器网络,
D
为判别器网络,
X
为第一特征词汇数据,为生成词汇数据
。5.
根据权利要求3所述的词库扩充方法,其特征在于,所述通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型的步骤,具体包括:通过所述领域词汇生成模型生成所述待鉴别词汇数据,将所述第一特征词汇数据

所述第二特征词汇数据以及所述待鉴别词汇数据作为特征集;根据所述特征集,建立机器学...

【专利技术属性】
技术研发人员:雷西高显刘璨齐雪汤剑男
申请(专利权)人:湖南财信数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1