专业词库构建方法技术

技术编号:39868793 阅读:21 留言:0更新日期:2023-12-30 12:58
本申请提供了一种专业词库构建方法

【技术实现步骤摘要】
专业词库构建方法、装置、介质及程序产品


[0001]本申请涉及自然语言处理领域,尤其涉及一种专业词库构建方法

装置

介质及程序产品


技术介绍

[0002]词是自然语言处理的基础,在语义表示上具有比字符更丰富的表达能力

词具有专业特性,不同的专业具有不同的词汇体系,如在军事专业领域

医疗专业领域

公共治安专业领域

金融专业领域等不同专业领域之间存在着很大的差异

不同的专业词库能够支持不同的应用场景

[0003]目前,开展专业文本业务首要面临的问题就是需要投入大量人力进行人工标注,以人工创建专业词库,或者通过人工标注一定量的数据,再利用深度学习或机器学习进行专业词库构建模型的训练,以扩充专业词库的词汇量

[0004]很多场景下,需要人工标注对词进行积累的方式成本较高,且效率较低,这就使得冷启动成为了亟待解决的技术问题,即在没有数据沉淀或者说没有积累人工标注过的数据的情况下,如何快速构建一个专业词库


技术实现思路

[0005]本申请提供一种专业词库构建方法

装置

介质及程序产品,以解决在没有数据沉淀或者说没有积累人工标注过的数据的情况下,如何快速构建一个专业词库的技术问题

[0006]第一个方面,本申请提供一种专业词库构建方法,包括:
[0007]获取专业语料和通用语料,对专业语料和通用语料进行取词处理,得到初始词库和通用词库;
[0008]根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集,种子词集中的每个种子词为一个待选词;
[0009]在初始词库中,分别以种子词集中的每个种子词为种子点,基于每个种子词对应的种子点以及预设聚类算法对初始词库进行聚类处理,得到待选词集;
[0010]根据预设选词条件以及待选词集确定专业词库

[0011]在一种可能的设计中,种子词集中的种子词为初始词库中的词,且不为通用词库中的词;和
/
或,
[0012]在初始词库中检索到种子词的第一概率大于在通用词库中检索到种子词的第二概率

[0013]在一种可能的设计中,根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集,包括:
[0014]根据第一总词量

第二总词量

待选词在初始词库中的第一数量

待选词在通用词库中的第二数量确定待选词的专业词性关联程度,第一总词量为初始词库中的词汇总数,第二总词量为通用词库中的词汇总数;
[0015]若专业词性关联程度大于预设阈值,则确定待选词为种子词

[0016]在一种可能的设计中,根据第一总词量

第二总词量

待选词在初始词库中的第一数量

待选词在通用词库中的第二数量确定待选词的专业词性关联程度,包括:
[0017]计算第一总词量与第二数量的第一乘积;
[0018]计算第二总词量与第一数量的第二乘积;
[0019]专业词性关联程度包括第二乘积与第一乘积的商

[0020]在一种可能的设计中,在初始词库中,在初始词库中,分别以种子词集中的每个种子词为种子点,基于每个种子词对应的种子点以及预设聚类算法对初始词库进行聚类处理,得到待选词集,包括:
[0021]分别计算各个待选词与每个种子词的语义距离;
[0022]若该语义距离小于预设距离阈值,则将待选词与对应的种子词组成第一待选词集,每个种子词得到一个第一待选词集,待选词集包括多个第一待选词集

[0023]在一种可能的设计中,在将待选词加入与种子词对应的第一待选词集中之后,还包括:
[0024]根据语义距离的大小,将每个种子词对应的第一待选词集中的前
K
个第一待选词作为第二待选词,前
K
个第一待选词与对应种子词的语义距离,小于除前
K
个第一待选词外其他待选词与种子词的语义距离;
[0025]将
K
个第二待选词组合成一个第二待选词集,待选词集还包括:多个第二待选词集,即每个种子词对应的第二待选词集,
K
为正整数

[0026]在一种可能的设计中,在将
K
个第二待选词组合成一个第二待选词集之后,还包括:
[0027]根据各个第一待选词集所包含的词数量选择
M
个第一待选词集合并成一个第三待选词集;
[0028]其中,
M
个第一待选词集中的每个第一待选词集的词数量大于除
M
个第一待选词集之外的第一待选词集的词数量;待选词集包括第三待选词集,
M
为正整数

[0029]第三待选词集的作用是:避免第二待选词集过度剔除,回补一部分词

[0030]在一种可能的设计中,在根据各个第一待选词集所包含的词数量选择
M
个第一待选词集合并成一个第三待选词集之后,还包括:
[0031]将种子词集

各个第二待选词集以及第三待选词集合并为待选词集合,并剔除待选词集中重复的词

[0032]可选的,预设选词条件包括:词频条件和词性条件中的至少一个,词频条件中的词频阈值与专业语料的大小相对应,词性条件与专业语料中的专业领域相对应

[0033]第二方面,本申请提供一种专业词库自动构建装置,包括:
[0034]获取模块,用于获取专业语料和通用语料;
[0035]处理模块,用于:
[0036]对专业语料和通用语料进行取词处理,得到初始词库和通用词库;
[0037]根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集,种子词集中的每个种子词为一个待选词;
[0038]在初始词库中,分别以种子词集中的每个上所种子词为种子点,基于每个种子词
对应的种子点以及预设聚类算法对初始词库进行语义聚类,得到待选词集,并根据预设选词条件以及待选词集确定专业词库

[0039]在一种可能的设计中,种子词集中的种子词为初始词库中的词,且不为通用词库中的词;和
/
或,
[0040]在初始词库中检索到种子词的第一概率大于在通用词库中检索到种子词的第二概率

[0041]在一种可能的设计中,处理模块,用于:
[0042]根据第一总词量

第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种专业词库构建方法,其特征在于,包括:获取专业语料和通用语料,对所述专业语料和所述通用语料进行取词处理,得到初始词库和通用词库;根据所述通用词库确定所述初始词库中各个待选词的专业词性关联程度,并根据所述专业词性关联程度从所述初始词库中提取种子词集,所述种子词集中的每个种子词为一个所述待选词;在所述初始词库中,分别以所述种子词集中的每个所述种子词为种子点,基于每个所述种子词对应的所述种子点以及预设聚类算法对所述初始词库进行聚类处理,得到待选词集;根据预设选词条件以及所述待选词集确定专业词库
。2.
根据权利要求1所述的专业词库构建方法,其特征在于,所述种子词集中的所述种子词为所述初始词库中的词,且不为所述通用词库中的词;和
/
或,在所述初始词库中检索到所述种子词的第一概率大于在所述通用词库中检索到所述种子词的第二概率
。3.
根据权利要求1所述的专业词库构建方法,其特征在于,所述根据所述通用词库确定所述初始词库中各个待选词的专业词性关联程度,并根据所述专业词性关联程度从所述初始词库中提取种子词集,包括:根据第一总词量

第二总词量

所述待选词在所述初始词库中的第一数量

所述待选词在所述通用词库中的第二数量确定所述待选词的所述专业词性关联程度,所述第一总词量为所述初始词库中的词汇总数,所述第二总词量为所述通用词库中的词汇总数;若所述专业词性关联程度大于预设阈值,则确定所述待选词为所述种子词
。4.
根据权利要求3所述的专业词库构建方法,其特征在于,所述根据第一总词量

第二总词量

所述待选词在所述初始词库中的第一数量

所述待选词在所述通用词库中的第二数量确定所述待选词的所述专业词性关联程度,包括:计算所述第一总词量与所述第二数量的第一乘积;计算所述第二总词量与所述第一数量的第二乘积;所述专业词性关联程度包括所述第二乘积与所述第一乘积的商
。5.
根据权利要求1所述的专业词库构建方法,其特征在于,所述在所述初始词库中,分别以所述种子词集中的每个所述种子词为种子点,基于每个所述种子词对应的所述种子点以及预设聚类算法对所述初始词库进行聚类处理,得到待选词集,包括:分别计算各个所述待选词与每个所述种子词之间的语义距离;若所述待选词与所述种子词之间的所述语义距离小于预设距离阈值,则将所述待选词与对应的所述种子词组成第一待选词集,每个所述种子词得到一个所述第一待选词集
。6.
根据权利要求5所述的专业词库构建方法,其特征在于,在所述将所述待选词加入与所述种子词对应的第一待选词集中之后,还包括:根据所述语义距离的大小,将每个所述种子词对应的所述第一待选词集中...

【专利技术属性】
技术研发人员:李长林王洪斌肖冰曹磊罗奇帅
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1