【技术实现步骤摘要】
一种词库构建方法及计算设备
本专利技术涉及信息处理
,尤其是一种词库构建方法及计算设备。背景
专业词库是指反映特定领域内知识、术语、机构等专有词汇的集合,是进行领域知识发现、语义分析、特征提取等工作的基础和前提。因此,越来越多的研究开始关注领域专业词库的构建。目前常用的一种构建领域词库的方案是,基于领域文本进行语句切分,并通过分词和词性标注进行筛选,将指定词性的关键词作为候选关键词。然后,通过词共现或者TF-IDF(词频-逆文本频率指数)算法,对每个候选关键词进行权重计算。最终,选择出权重较高的词语,来构建出领域词库。这种无监督的文本学习方式能够不依赖领域知识框架的支持,较快速的发现文本中的关键词。同样,由于不需要领域知识背景,该方法可快速移植到其他领域。然而,该方案的缺点是全部以输入文本为来源,较为依赖输入文本的质量。容易在词语过滤时将与领域知识不相关或者相关性差的词语,也列入候选关键词中。而且,由于缺乏领域知识背景,仅通过判定词语在文本中的权重,并不能保证权重高的词一定是领域内的关键词,有 ...
【技术保护点】
1.一种词库构建方法,所述方法适于在计算设备中执行,包括步骤:/n获取与所构建词库领域相关的专业词语,生成初始词库;/n利用词向量模型对所述初始词库中的各词语进行处理,生成待添加词,其中所述待添加词是与初始词库中各词语相似的词语;/n通过将所述待添加词添加到初始词库中,生成新的词库;以及/n对于新的词库中的各词语,重复所述生成待添加词的步骤和所述生成新的词库的步骤,直到达到重复次数时,将所生成的新的词库作为所构建的词库。/n
【技术特征摘要】
1.一种词库构建方法,所述方法适于在计算设备中执行,包括步骤:
获取与所构建词库领域相关的专业词语,生成初始词库;
利用词向量模型对所述初始词库中的各词语进行处理,生成待添加词,其中所述待添加词是与初始词库中各词语相似的词语;
通过将所述待添加词添加到初始词库中,生成新的词库;以及
对于新的词库中的各词语,重复所述生成待添加词的步骤和所述生成新的词库的步骤,直到达到重复次数时,将所生成的新的词库作为所构建的词库。
2.如权利要求1所述的方法,在将所生成的新的词库作为所构建的词库的步骤之后,还包括步骤:
从第三来源数据中获取与所构建词库领域相关的词语;以及
将所获取的词语添加到所构建的词库中,并进行去重,生成最终构建的词库。
3.如权利要求2所述的方法,其中,所构建词库领域为车辆领域。
4.如权利要求3所述的方法,其中,所述获取与所构建词库领域相关的专业词语,生成初始词库的步骤包括:
确定车辆的属性信息;以及
从第一来源数据中收集表征所述车辆的属性信息的专业词语,生成初始词库。
5.如权利要求1-4中任一项所述的方法,其中,利用词向量模型对所述初始词库中的各词语进行处理,生成待添加词的步骤包括:
对于所述初始词库中的每个词语,
利用所述词向量模型,对所述词语进行处理,得到多个词语及表征其与所述词语相似度的相似值,
按照所述相似值从所述多个词语中选取与所述词语相似的至少一个词语,作为待添加词。
6.如权利要求5所述的方法,其中,所...
【专利技术属性】
技术研发人员:邱泽成,刘标,陈安琪,林泽中,
申请(专利权)人:车智互联北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。