【技术实现步骤摘要】
专业词库构建方法、装置、介质及程序产品
[0001]本申请涉及自然语言处理领域,尤其涉及一种专业词库构建方法
、
装置
、
介质及程序产品
。
技术介绍
[0002]词是自然语言处理的基础,在语义表示上具有比字符更丰富的表达能力
。
词具有专业特性,不同的专业具有不同的词汇体系,如在军事专业领域
、
医疗专业领域
、
公共治安专业领域
、
金融专业领域等不同专业领域之间存在着很大的差异
。
不同的专业词库能够支持不同的应用场景
。
[0003]目前,开展专业文本业务首要面临的问题就是需要投入大量人力进行人工标注,以人工创建专业词库,或者通过人工标注一定量的数据,再利用深度学习或机器学习进行专业词库构建模型的训练,以扩充专业词库的词汇量
。
[0004]很多场景下,需要人工标注对词进行积累的方式成本较高,且效率较低,这就使得冷启动成为了亟待解决的技术问题,即在没有数据沉淀或者说没有积累人工标注过的数据的情况下,如何快速构建一个专业词库
。
技术实现思路
[0005]本申请提供一种专业词库构建方法
、
装置
、
介质及程序产品,以解决在没有数据沉淀或者说没有积累人工标注过的数据的情况下,如何快速构建一个专业词库的技术问题
。
[0006]第一个方面,本申请提供一种专业词库构建方法,包括:
[0 ...
【技术保护点】
【技术特征摘要】
1.
一种专业词库构建方法,其特征在于,包括:获取专业语料和通用语料,对所述专业语料和所述通用语料进行取词处理,得到初始词库和通用词库;根据所述通用词库确定所述初始词库中各个待选词的专业词性关联程度,并根据所述专业词性关联程度从所述初始词库中提取种子词集,所述种子词集中的每个种子词为一个所述待选词;在所述初始词库中,分别以所述种子词集中的每个所述种子词为种子点,基于每个所述种子词对应的所述种子点以及预设聚类算法对所述初始词库进行聚类处理,得到待选词集;根据预设选词条件以及所述待选词集确定专业词库
。2.
根据权利要求1所述的专业词库构建方法,其特征在于,所述种子词集中的所述种子词为所述初始词库中的词,且不为所述通用词库中的词;和
/
或,在所述初始词库中检索到所述种子词的第一概率大于在所述通用词库中检索到所述种子词的第二概率
。3.
根据权利要求1所述的专业词库构建方法,其特征在于,所述根据所述通用词库确定所述初始词库中各个待选词的专业词性关联程度,并根据所述专业词性关联程度从所述初始词库中提取种子词集,包括:根据第一总词量
、
第二总词量
、
所述待选词在所述初始词库中的第一数量
、
所述待选词在所述通用词库中的第二数量确定所述待选词的所述专业词性关联程度,所述第一总词量为所述初始词库中的词汇总数,所述第二总词量为所述通用词库中的词汇总数;若所述专业词性关联程度大于预设阈值,则确定所述待选词为所述种子词
。4.
根据权利要求3所述的专业词库构建方法,其特征在于,所述根据第一总词量
、
第二总词量
、
所述待选词在所述初始词库中的第一数量
、
所述待选词在所述通用词库中的第二数量确定所述待选词的所述专业词性关联程度,包括:计算所述第一总词量与所述第二数量的第一乘积;计算所述第二总词量与所述第一数量的第二乘积;所述专业词性关联程度包括所述第二乘积与所述第一乘积的商
。5.
根据权利要求1所述的专业词库构建方法,其特征在于,所述在所述初始词库中,分别以所述种子词集中的每个所述种子词为种子点,基于每个所述种子词对应的所述种子点以及预设聚类算法对所述初始词库进行聚类处理,得到待选词集,包括:分别计算各个所述待选词与每个所述种子词之间的语义距离;若所述待选词与所述种子词之间的所述语义距离小于预设距离阈值,则将所述待选词与对应的所述种子词组成第一待选词集,每个所述种子词得到一个所述第一待选词集
。6.
根据权利要求5所述的专业词库构建方法,其特征在于,在所述将所述待选词加入与所述种子词对应的第一待选词集中之后,还包括:根据所述语义距离的大小,将每个所述种子词对应的所述第一待选词集中...
【专利技术属性】
技术研发人员:李长林,王洪斌,肖冰,曹磊,罗奇帅,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。