【技术实现步骤摘要】
新词挖掘方法、装置及电子设备
本申请涉及数据处理
,具体而言,涉及一种新词挖掘方法、装置及电子设备。
技术介绍
新词挖掘就是从已知的语料中去提取一些词或字,组成新的词汇,从而形成精准的总结文本信息,例如标签化、方便统计、构造索引、特征化长文本等都是通过新词挖掘产生的。目前常用的新词挖掘算法主要是基于统计相关的算法,主要依赖于新词在语料中的出现频率(如计算新词的左右熵及相关的凝固度分离度等)来实现。
技术实现思路
本申请实施例的目的在于提供一种新词挖掘方法、装置及电子设备,用以实现对于新词的挖掘。本申请实施例提供了一种新词挖掘方法,包括:获取目标语料;对所述目标语料进行分词处理,得到待处理词语;对各所述待处理词语建立句法依存关系;依据所述句法依存关系从各所述待处理词语中提取出满足预设依存关系的待处理词语,组成候选新词;从所述候选新词中去除掉干扰元素,得到目标新词;所述干扰元素为根据预设规则需要去除掉的所述候选新词中的待处理词语。在上述实现过程中,在获取到目标语料之后,通过对目标 ...
【技术保护点】
1.一种新词挖掘方法,其特征在于,包括:/n获取目标语料;/n对所述目标语料进行分词处理,得到待处理词语;/n对各所述待处理词语建立句法依存关系;/n依据所述句法依存关系从各所述待处理词语中提取出满足预设依存关系的待处理词语,组成候选新词;/n从所述候选新词中去除掉干扰元素,得到目标新词;所述干扰元素为根据预设规则需要去除掉的所述候选新词中的待处理词语。/n
【技术特征摘要】
1.一种新词挖掘方法,其特征在于,包括:
获取目标语料;
对所述目标语料进行分词处理,得到待处理词语;
对各所述待处理词语建立句法依存关系;
依据所述句法依存关系从各所述待处理词语中提取出满足预设依存关系的待处理词语,组成候选新词;
从所述候选新词中去除掉干扰元素,得到目标新词;所述干扰元素为根据预设规则需要去除掉的所述候选新词中的待处理词语。
2.如权利要求1所述的新词挖掘方法,其特征在于,对所述目标语料进行分词处理,得到待处理词语,包括:
使用分词算法对所述目标语料进行分词处理;
去除经过所述分词处理后得到的各词语中的停用词,得到所述待处理词语。
3.如权利要求1所述的新词挖掘方法,其特征在于,对各所述待处理词语建立句法依存关系,包括:
以各待处理词语所属的句子为单位,构建每一个句子中各待处理词语的句法依存关系;
对应的,依据所述句法依存关系从各所述待处理词语中提取出满足预设依存关系的待处理词语,组成候选新词,包括:
依据每一个句子中各待处理词语的句法依存关系,从各句子中提取出满足预设依存关系的待处理词语,组成每一个句子所对应的候选新词。
4.如权利要求1所述的新词挖掘方法,其特征在于,依据所述句法依存关系从各所述待处理词语中提取出满足预设依存关系的待处理词语,组成候选新词,包括:
提取具有定中关系的各待处理词语,将各待处理词语按照各自对应的定中关系,与提取出的其余待处理词语组成所述候选新词;
或,提取满足定中关系和状中关系的各待处理词语,将各待处理词语按照各自对应的定中关系或状中关系,与提取出的其余待处理词语组成所述候选新词;
或,提取满足定中关系、状中关系和核心关系的各待处理词语,将各待处理词语按照各自对应的定中关系或状中关系或核心关系,与提取出的其余待处理词语组成所述候选新词。
5.如权利要...
【专利技术属性】
技术研发人员:张发恩,魏畅毅,
申请(专利权)人:创新奇智青岛科技有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。