当前位置: 首页 > 专利查询>深圳大学专利>正文

一种领域词典的构建方法、装置、设备及存储介质制造方法及图纸

技术编号:20242406 阅读:39 留言:0更新日期:2019-01-29 23:21
本发明专利技术适用自然语言处理技术领域,提供了一种领域词典的构建方法、装置、设备及存储介质,该方法包括:对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型,计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与初始领域种子词典中种子词向量的词语语义相似度,根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典,通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建,从而扩大了领域词典的词汇量,且提高了领域词典中领域词汇的准确度,进而提高领域词典的准确率。

【技术实现步骤摘要】
一种领域词典的构建方法、装置、设备及存储介质
本专利技术属于自然语言处理
,尤其涉及一种领域词典的构建方法、装置、设备及存储介质。
技术介绍
随着科技和社会的不断进步,语言也在不断地发生着变化,特别是近年来,新理论、新概念、新材料、新技术、新工艺不断涌现,与之同步产生的新的领域词汇层出不穷。领域词汇集中体现和负载了一个学科领域的核心知识,词汇的变化在一定程度上反映了一个学科领域的发展变化,领域词汇对于了解、把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义,随着自然语言处理应用领域的不断扩展,对于领域词汇词典的需求也越来越迫切。现有的基于词向量的领域词典构建算法是单一的利用网络上的通用语料或者领域语料,直接通过中文分词工具得到分词语料后构建的通用词向量模型或者领域词向量模型,然后再计算通用词向量模型或者领域词向量模型中词语之间的语义相似度,以构建领域词典。然而,上述通用词向量模型没有考虑到在限定领域的领域词典构建对领域语料的依赖问题,而领域词向量模型也没有考虑到限定域语料不足的问题,同时,上述基于词向量的领域词典构建算法没有考虑到中文分词工具在限定域领域不能对领域词本文档来自技高网...

【技术保护点】
1.一种领域词典的构建方法,其特征在于,所述方法包括下述步骤:对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;根据计算得到的所述词语语义相似度,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展,得到对应的领域词典;通过新词发现算法对所述领域词典中的未成词词汇进行筛除,以完成所述领域词典的构建。

【技术特征摘要】
1.一种领域词典的构建方法,其特征在于,所述方法包括下述步骤:对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;根据计算得到的所述词语语义相似度,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展,得到对应的领域词典;通过新词发现算法对所述领域词典中的未成词词汇进行筛除,以完成所述领域词典的构建。2.如权利要求1所述的方法,其特征在于,计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤,包括:通过预设的向量余弦相似度公式计算所述通用词向量和所述领域词向量与所述种子词向量的词语语义相似度,所述向量余弦相似度公式为其中,V1为所述通用词向量或者所述领域词向量,V2为所述种子词向量,S(V1,V2)为所述词语语义相似度。3.如权利要求1所述的方法,其特征在于,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展的步骤,包括:当计算得到的所述词语语义相似度大于预设的领域关键词阈值时,将所述词语语义相似度对应的通用词向量或者领域词向量添加到所述初始领域种子词典中,以对所述初始领域种子词典进行扩展。4.如权利要求1所述的方法,其特征在于,通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤之前,所述方法还包括:判断当前迭代次数是否达到预设的交叉迭代次数;是则,跳转到通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤的步骤;否则,将所述当前迭代次数增加1次,且将所述领域词典设置为所述初始领域种子词典,并跳转到计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤。5.一种领域词典的构建装置,其特征在于,所述装置包括:模型训练单元,用于对选取的通用语料库和领域语料库分别进行词向量模型训...

【专利技术属性】
技术研发人员:李坚强颜果开傅向华李赛玲
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1