【技术实现步骤摘要】
一种词典生成方法、新词发现方法、装置及电子设备
本申请实施例涉及信息挖掘
,尤其涉及一种词典生成方法、新词发现方法、装置及电子设备。
技术介绍
随着互联技术的快速发展,网络语言呈现爆炸式的增长。为了使计算机更好的理解互联网出现的新词,新词发现技术尤为重要。现有的新词发现方式是在对语料进行分词处理后,以分词的点互信息和左右熵为指标,衡量分词是否作为新词。现阶段,基于点互信息和左右熵的新词发现方式已相对成熟,难以再进一步挖掘出新的词汇。此外,这种方式没有重视字符较多的分词作为新词的可能性,一般包含字符较多的分词在点互信息和左右熵上表现不佳,难以被选作新词。因此,有必要开发出与现有技术不同的新词发现方式。
技术实现思路
本申请实施例其中一个目的是提供一种词典生成方法、新词发现方法、装置及电子设备,能够在保证较高命中率的基础上,发现新的词汇。为了实现上述目的,本申请实施例采用下述技术方案:第一方面,本申请实施例提供一种词典生成方法,包括:对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;基于所述候选分词集合对所述文本语料中的语句进行分词划分;多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典。第二方面,提供 ...
【技术保护点】
1.一种词典生成方法,包括:对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;基于所述候选分词集合对所述文本语料中的语句进行分词划分;多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典。
【技术特征摘要】
1.一种词典生成方法,包括:对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;基于所述候选分词集合对所述文本语料中的语句进行分词划分;多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典。2.根据权利要求1所述的词典生成方法,任意目标语句分词划分结果的置信值由该目标语句分词划分结果包含的各个分词在所述候选分词集中的分词分值进行相乘得到的。3.根据权利要求1或2所述的词典生成方法,对文本语料进行分词处理,得到所述文本语料对应的至少两个语句分词划分结果,包括:基于n元ngram算法,对文本语料进行分词处理。4.根据权利要求1或2所述的词典生成方法,在多轮迭代执行前,基于分词的点互信息、左右熵以及词频中的至少一者,确定并删除所述候选分词集中不满足预设要求的分词。5.根据权利要求1或2所述的词典生成方法,所述多次迭代执行过程的迭代轮数是预设置的。6.根据权利要求1或2所述的词典生成方法,若本轮迭代执行后语句分词划分结果的置信度与上轮迭代执后语句分词划分结果的置信度的差值小于预设阈值,则停止执行迭代过程。7.一种新词发现方法,包括:对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;基于所述候选分词集合对所述文本语料中的语句进行分词划分;多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;基于多轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的分词划分结果,构建目标词典;基于目标词典和原始词典的差异,生成新词集合。8.一种词典生成装置,包括:第一分词处理模块,对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;第一分词划分模块,基于所述候选分词集合对所述文本语料中的语句进行分词划分;第一迭代执行模块,多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所述目标分词对应的分词分值;第一词典构建模块,基于多轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,或者基于最后一轮迭代过程中所述文本语料的每个语句置信值最高的语句分词划分结果,构建目标词典。9.一种新词发现装置,包括:第二分词处理模块,对文本语料进行分词处理,得到所述文本语料对应的候选分词集,所述候选分词集的分词对应有以出现频率作为初始值的分词分值;第二分词划分模块,基于所述候选分词集合对所述文本语料中的语句进行分词划分;第二迭代执行模块,多轮迭代执行以下方法:基于候选分词集中分词对应的分词分值,确定所述文本语料中的语句的分词划分结果的置信值;基于包含目标分词的分词划分结果的置信值总和,更新候选分词集中所...
【专利技术属性】
技术研发人员:杨明晖,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。