【技术实现步骤摘要】
新词发现方法、装置、设备及计算机可读存储介质
[0001]本专利技术涉及自然语言处理
,尤其涉及一种新词发现方法、装置、设备及计算机可读存储介质。
技术介绍
[0002]新词发现技术在文本分词、命名实体识别、知识图谱构建、文本主题挖掘等领域具有较高的使用价值。当前主要是基于统计的方法和基于开源工具的方法进行新词挖掘。其中,基于统计的方法,通常是寻找描述新词特征的统计量,例如PMI(Pointwise Mutual Information,点间互信息)值、左右信息熵等,然后通过预设的各统计量对应的阈值进行过滤来确定出新词。而基于开源工具的方法,也常常是在统计的基础上进行过滤,例如Smoothnlp算法,是在生成文本的候选词之后,计算每个候选词的得分,其中,该得分为左右信息熵差值的绝对值与PMI的平均值之间的加和,然后基于该得分对候选词进行过滤,得到新词。
[0003]上述新词统计方法只能解决很少量的新词发现,其对语料的依赖性较大,对于在不同领域的混合语料中,很多出现频率较低的新词容易被过滤掉,造成新词的遗漏,从而 ...
【技术保护点】
【技术特征摘要】
1.一种新词发现方法,其特征在于,所述新词发现方法包括:获取待处理语料;对所述待处理语料进行处理,得到待处理分词集;计算所述待处理分词集中各第一分词的第一参数值,所述第一参数值包括第一PMI值和第一左右信息熵;将各第一分词及其第一参数值输入至预先训练好的新词发现模型中,得到第一分类结果;根据所述第一分类结果确定各第一分词是否为新词,以得到新词集。2.如权利要求1所述的新词发现方法,其特征在于,所述新词发现方法还包括:获取训练语料;对所述训练语料进行处理,得到训练分词集;计算所述训练分词集中各第二分词的第二参数值,所述第二参数值包括第二PMI值和第二左右信息熵;利用所述训练分词集和所述第二参数值对预设新词发现模型进行训练,得到所述预先训练好的新词发现模型。3.如权利要求2所述的新词发现方法,其特征在于,所述利用所述训练分词集和所述第二参数值对预设新词发现模型进行训练,得到所述预先训练好的新词发现模型的步骤包括:根据所述第二PMI值、所述第二左右信息熵和预设阈值范围对所述训练分词集中的第二分词进行初步筛选,得到第三分词;对各第三分词进行标注,基于标注后的第三分词及其对应的第三PMI值和第三左右信息熵构建得到训练样本;通过所述训练样本对预设新词发现模型进行训练,得到所述预先训练好的新词发现模型。4.如权利要求3所述的新词发现方法,其特征在于,所述通过所述训练样本对预设新词发现模型进行训练,得到所述预先训练好的新词发现模型的步骤之后,所述新词发现方法还包括:将各第三分词及其对应的第三PMI值和第三左右信息熵输入至所述预先训练好的新词发现模型中,得到第二分类结果;将所述第二分类结果与所述第三分词的标注结果进行比对,根据比对结果确定出新词筛选规则。5.如权利要求4所述的...
【专利技术属性】
技术研发人员:王军华,赵国庆,权佳成,
申请(专利权)人:北京中关村科金技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。