目标词去除方法、模型训练方法、装置、电子设备和介质制造方法及图纸

技术编号:31229312 阅读:42 留言:0更新日期:2021-12-08 09:57
本公开的实施例公开了目标词去除方法、模型训练方法、装置、电子设备和介质。该方法的一具体实施方式包括:对预获取的文本进行语义分析,得到语义分析结果;基于上述语义分析结果,对上述文本进行目标词筛选,得到第一目标词集;基于上述第一目标词集,生成重要性评分值集;响应于确定上述重要性评分值集中的重要性评分值满足第一预定条件,将所满足预定条件的重要性评分值对应的目标词从上述文本中去除,得到去除目标词后的文本。该实施方式可以避免构建目标词词库,在一定程度上提高在不同目标词场景中的目标词去除的准确度。词场景中的目标词去除的准确度。词场景中的目标词去除的准确度。

【技术实现步骤摘要】
目标词去除方法、模型训练方法、装置、电子设备和介质


[0001]本公开的实施例涉及计算机
,具体涉及目标词去除方法、模型训练方法、装置、电子设备和介质。

技术介绍

[0002]目标词去除,是自然语言处理领域的一项基础技术。目前,常用的目标词(例如,口语词等)去除方法主要是通过构建目标词词库,然后利用目标词词库进行目标词识别,最后将识别的目标词进行去除。构建的目标词词库相对于固定的目标词去除场景较为适用。
[0003]在使用同一个目标词词库在不同的目标词场景进行目标词去除时,目标词词库中的目标词与不同的目标词场景中的目标词不完全符合,导致降低目标词去除的准确度。

技术实现思路

[0004]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0005]本公开的一些实施例提出了目标词去除方法、模型训练方法、装置、电子设备和介质,来解决以上背景技术部分提到的技术问本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种目标词去除方法,包括:对预获取的文本进行语义分析,得到语义分析结果;基于所述语义分析结果,对所述文本进行目标词筛选,得到第一目标词集;基于所述第一目标词集,生成重要性评分值集;响应于确定所述重要性评分值集中的重要性评分值满足第一预定条件,将所满足预定条件的重要性评分值对应的目标词从所述文本中去除,得到去除目标词后的文本。2.根据权利要求1所述的方法,其中,所述对预获取的文本进行语义分析,得到语义分析结果,包括:对所述文本进行分词,得到分词后的词集;对所述词集中的每个词进行词性分析以生成词性分析结果,得到词性分析结果集,作为语义分析结果。3.根据权利要求1所述的方法,其中,所述基于所述第一目标词集,生成重要性评分值集,包括:对所述第一目标词集进行目标词去除处理,得到去除处理后的第一目标词集;将所述去除处理后的第一目标词集中各个第一目标词在所述文本中的频次确定为第一评分参数,得到第一评分参数集;利用预先训练的目标词识别模型,对所述文本进行目标词识别,得到第二目标词集;将所述第二目标词集中各个第二目标词在所述文本中的频次确定为第二评分参数,得到第二评分参数集;响应于确定所述第二评分参数集中第二评分参数对应的第二目标词存在于所述第一评分参数集中各个第一评分参数对应第一目标词中,将所存在的目标词对应的第一评分参数与第二评分参数的差值确定为第三评分参数,得到第三评分参数集。4.根据权利要求2所述的方法,其中,所述基于所述语义分析结果,对所述文本进行目标词筛选,得到第一目标词集,包括:从所述文本中选出语义分析结果满足第二预定条件对应的词作为第一目标词,得到第一目标词集。5.根据权利要求3所述的方法,其中,所述基于所述第一目标词集,生成重要性评分值集,还包括:响应于确定所述第二评分参数集中第二评分参数对应的第二目标词不存在于所述第一评分参数集中各个第一评分参数对应第一目标词中,将所不存在的第二目标对应的第二评分参数添加至所述第三评分参数集中,得到添加后的第三评分参数集,作为重要性评分值集。6.一种目标词识别模型训练方法,包括:获取训练样本集;从所述训练样本集中选出训练样本子集,基于所述训练样本子集,执行如下模型训练步骤:利用所选出的训练样本子集,对初始目标词识别...

【专利技术属性】
技术研发人员:冯明超
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1