【技术实现步骤摘要】
领域词典构建方法及装置
本申请涉及人工智能
,尤其涉及一种领域词典构建方法及装置。背景
词典是指特定领域特有的术语或表达方式的组合,传统领域词典构建方式基本上都是基于规则和统计来完成。一般方法为根据句型特点和词性特点结合语法规则,再配合TF-IDF(termfrequency–inversedocumentfrequency)统计值等进行筛选,然后在筛选词的基础上进行人工复检。这种方法的弊端是不同领域的句型特点和词性特点不一样,复用性不好,除此之外对语料篇幅也有一定的要求,一般来说更加适合篇幅较长的文档型语料。引入词的向量表示之后,人们开始从有监督和无监督两个方面来探索构建领域词典的方法。有监督训练需要建立在大量标注好的领域词标签基础之上,和传统方式相比,其识别的准确率虽然提升了,但是需要付出大量的人力成本来做标签标注。无监督方法是通过“种子词+词编码”,计算领域语料中的词和种子词之间的向量相似度,再加上词频排序等方式,从而可以挖掘出领域语料中的领域词。但是这种方式实现的前提是要先有一批该领域 ...
【技术保护点】
1.一种领域词典构建方法,其特征在于,包括:/n获取原始事务语料;/n对所述原始事务语料进行字符处理,获得待分词事务语料;/n对所述待分词事务语料进行n-gram分词处理,得到该待分词事务语料的多个词片段;/n获取各个所述词片段的统计指标值,将统计指标值大于组合阈值的词片段作为过滤后词片段;/n对所述过滤后词片段进行切分处理,判断切分处理后得到的各个第一切分词是否均为完整词汇,若否,则将所述过滤后词片段作为第一领域词,以构建目标事务领域词典。/n
【技术特征摘要】
1.一种领域词典构建方法,其特征在于,包括:
获取原始事务语料;
对所述原始事务语料进行字符处理,获得待分词事务语料;
对所述待分词事务语料进行n-gram分词处理,得到该待分词事务语料的多个词片段;
获取各个所述词片段的统计指标值,将统计指标值大于组合阈值的词片段作为过滤后词片段;
对所述过滤后词片段进行切分处理,判断切分处理后得到的各个第一切分词是否均为完整词汇,若否,则将所述过滤后词片段作为第一领域词,以构建目标事务领域词典。
2.根据权利要求1所述的领域词典构建方法,其特征在于,所述对所述原始事务语料进行字符处理,获得待分词事务语料,包括:
将所述原始事务语料中的符号作为分隔符,应用该分隔符切分所述原始事务语料,获得所述待分词事务语料。
3.根据权利要求1所述的领域词典构建方法,其特征在于,所述获取各个所述词片段的统计指标值,包括:
获取各个所述词片段的凝固度和第一词频;
基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、左邻字个数以及每个左邻字词频,得到各个所述词片段的左自由度;
基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、右邻字个数以及每个右邻字词频,得到各个所述词片段的右自由度;
将各个所述词片段的凝固度、第一词频、左自由度和右自由度的总和作为各个所述词片段的统计指标值。
4.根据权利要求1所述的领域词典构建方法,其特征在于,在所述将所述过滤后词片段作为第一领域词之后,还包括:
应用所述第一领域词对所述原始事务语料进行句子切分,获得第二切分词;
对所述第二切分词和所述第一领域词进行回溯处理,将回溯处理的结果作为第二领域词,以构建目标事务领域词典。
5.一种领域词典构建装置,其特征在于,包括:
获取模块,用于获取原始事务语料;
字符处理模块,用于对所述原始事务语料进行字符处理,获得待分词事务语料;
分词处理模块,用于对所述待分词事务语料进行n-gr...
【专利技术属性】
技术研发人员:张文慧,范晓东,李羊,唐伟佳,
申请(专利权)人:工银科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。