词库扩充方法技术

技术编号:39514335 阅读:28 留言:0更新日期:2023-11-25 18:51
本申请实施例属于互联网技术领域,涉及一种词库扩充方法,包括:获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据;根据所述第一舆情数据和所述第二舆情数据进行特征提取,得到特征词汇数据;根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型;通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型;通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别,得到鉴别结果,并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充

【技术实现步骤摘要】
词库扩充方法、系统、计算机设备及存储介质


[0001]本申请涉及互联网
,尤其涉及一种词库扩充方法

系统

计算机设备及存储介质


技术介绍

[0002]随着互联网的飞速发展,网络语言已成为了人们生活中必不可少的一部分,不停地涌现于各个领域

由于网络语言的不断演化,用来体现网络语言的词汇也发生着日新月异的变化,因此,针对特定的业务领域,为了更好地对词汇进行判别,扩充词库是必不可少的

[0003]一般而言,传统的扩充词库的过程,可以通过相似性
、AI
云计算等方式,以行业专家给出的关键词列表为索引,并采用主题建模方法如
LDA
对关键词列表中关键词的关联范围进行扩充,而后检索关联范围内的关联词,从而基于关联词对词库进行扩充

[0004]然而,采用上述方式,没有考虑到关联词的质量和业务领域的适用情况,对于部分隐蔽性强的词汇不能很好的判别,例如在非法集资领域中将“分红”写成“分
h”,此外,主题建模本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种词库扩充方法,其特征在于,包括下述步骤:获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据;根据所述第一舆情数据和所述第二舆情数据进行特征提取,得到特征词汇数据;根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型;通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型;通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别,得到鉴别结果,并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充
。2.
根据权利要求1所述的词库扩充方法,其特征在于,所述根据所述特征词汇数据,构建基于生成对抗网络的领域词汇生成模型的步骤,具体包括:建立包含生成器网络和判别器网络的生成对抗网络模型;根据所述特征词汇数据对所述生成对抗网络模型进行模型优化训练,得到训练完成的所述领域词汇生成模型
。3.
根据权利要求2所述的词库扩充方法,其特征在于,所述特征词汇数据包括所述第一舆情数据对应的第一特征词汇数据和所述第二舆情数据对应的第二特征词汇数据,所述根据所述特征词汇数据对所述生成对抗网络模型进行模型优化训练,得到训练完成的所述领域词汇生成模型的步骤,具体包括:根据所述生成器网络将所述第二特征词汇数据转换为目标业务领域的生成词汇数据;根据所述判别器网络对所述生成词汇数据和所述第一特征词汇数据进行判别,得到判别结果;根据所述判别结果对所述生成器网络的参数进行优化;当所述判别器网络对应的判别准确率为
50%
时,将所述生成对抗网络模型作为所述领域词汇生成模型
。4.
根据权利要求3所述的词库扩充方法,其特征在于,所述领域词汇生成模型的损失函数为:;其中,
E
为数学期望,
G
为生成器网络,
D
为判别器网络,
X
为第一特征词汇数据,为生成词汇数据
。5.
根据权利要求3所述的词库扩充方法,其特征在于,所述通过所述领域词汇生成模型生成待鉴别词汇数据,根据所述特征词汇数据和所述待鉴别词汇数据,构建领域词汇鉴别模型的步骤,具体包括:通过所述领域词汇生成模型生成所述待鉴别词汇数据,将所述第一特征词汇数据

所述第二特征词汇数据以及所述待鉴别词汇数据作为特征集;根据所述特征集,建立机器学...

【专利技术属性】
技术研发人员:雷西高显刘璨齐雪汤剑男
申请(专利权)人:湖南财信数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1