一种新词发现方法及装置制造方法及图纸

技术编号:19056900 阅读:25 留言:0更新日期:2018-09-29 12:11
本申请提供了一种新词发现方法及装置,新词发现方法包括获取电力行业文档;基于通用词库对电力行业文档进行分词操作并获得分词结果;对分词结果执行筛选操作,获得符合筛选条件的候选词集;在所述候选词集中基于信息熵的大小来确定新词。本申请通过信息熵的大小来确定有无新词,可以满足新词出现速度快、消亡快的需求。

【技术实现步骤摘要】
一种新词发现方法及装置
本申请涉及通信
,尤其涉及一种新词发现方法及装置。
技术介绍
电力行业通常具有其专业词库,专业词库有着本领域中具有精确语义的、覆盖领域范围广的全面的专业词汇,是对本行业的文档进行文本分析的根本。可以理解的是,伴随着行业的快速发展,电力行业会不断出现一些新词。发现新词是完善专业词库的有效途径,目前新词发现方法大多采用基于统计方法发现新词,或者,基于语言规则发现新词。其中,基于统计方法发现新词,是通过运用统计方法计算词汇的统计特征来发现新词,或,通过机器学习的方法抽取新词汇。但是本方法需要大量的较全面的训练语料库,而随着电力行业新词的出现必须再次训练模型需要耗费一定时间成本,无法满足新词出现速度快、消亡快的需求。其中,基于语言规则的方法,其核心是根据语言学原理和知识制定一系列共性规则和个性规则,以处理自动分析中遇到的各种语言现象。该方法的语言规则是针对特定领域制定的,词义的歧义性与灵活性较差。
技术实现思路
鉴于此,本申请提供一种新词发现方法及装置,可以快速发现电力行业的新词。为了实现上述目的,本申请提供了下述技术特征:一种新词发现方法,包括:获取电力行业文档;基于通用词库对电力行业文档进行分词操作并获得分词结果;对分词结果执行筛选操作,获得符合筛选条件的候选词集;在所述候选词集中基于信息熵的大小来确定新词。可选的,所述在所述候选词集中确定新词,包括:针对候选词集中各候选词执行下述步骤:计算候选词的左信息熵;若所述左信息熵不大于阈值,则将候选词与左邻接分词重新组成候选词,直到左信息熵大于阈值;若所述左信息熵大于阈值,则计算候选词的右信息熵;若所述右信息熵不大于阈值,则将候选词与右邻接分词重新组成候选词汇,直到右信息熵大于阈值;将候选词确定为作为新词。可选的,在将候选词确定为作为新词之前还包括:将所述候选词拆分为两个词汇;计算所述两个词汇的互信息熵;若所述两个词汇的互信息熵大于阈值,则执行将所述候选词确定为新词的步骤。可选的,在所述左信息熵大于阈值,以及,在右信息熵大于阈值之后,还包括:判断候选词的长度是否大于预设长度;若候选词的长度大于预设长度,则删除所述候选词。可选的,在所述候选词集中确定新词之后,还包括:利用条件随机场特征模型对新词进行词性标注;添加标注词性的新词至电力行业词库。一种新词发现装置,包括:获取文档单元,用于获取电力行业文档;分词单元,用于基于通用词库对电力行业文档进行分词操作并获得分词结果;筛选单元,用于对分词结果执行筛选操作,获得符合筛选条件的候选词集;确定单元,用于在所述候选词集中确定新词。可选的,所述确定单元包括:左信息熵计算单元,用于计算候选词的左信息熵;左重组单元,用于若所述左信息熵不大于阈值,则将候选词与左邻接分词重新组成候选词,直到左信息熵大于阈值;右信息熵计算单元,用于若所述左信息熵大于阈值,则计算候选词的右信息熵;右重组单元,用于若所述右信息熵不大于阈值,则将候选词与右邻接分词重新组成候选词汇,直到右信息熵大于阈值;新词确定单元,用于将候选词确定为作为新词。可选的,还包括:互信息计算单元,用于在将候选词确定为作为新词之前,将所述候选词拆分为两个词汇,计算所述两个词汇的互信息熵;判断单元,用于若所述两个词汇的互信息熵大于阈值,则进入新词确定单元执行将所述候选词确定为新词的步骤。可选的,还包括:删除单元,用于在所述左信息熵大于阈值,以及,在右信息熵大于阈值之后,判断候选词的长度是否大于预设长度;若候选词的长度大于预设长度,则删除所述候选词。可选的,还包括:词性标注单元,用于在所述候选词集中确定新词之后,利用条件随机场特征模型对新词进行词性标注;添加单元,用于添加标注词性的新词至电力行业词库。通过以上技术手段,可以实现以下有益效果:本申请提供了一种新词发现方法,可以获取电力行业文档;基于通用词库对电力行业文档进行分词操作并获得分词结果;对分词结果执行筛选操作,获得符合筛选条件的候选词集;在所述候选词集中基于信息熵的大小来确定新词,在所述候选词集中基于信息熵的大小来确定新词。本申请通过信息熵的大小来确定有无新词,可以满足新词出现速度快、消亡快的需求。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的一种新词发现方法的流程图;图2为本申请实施例公开的又一种新词发现方法的流程图;图3为本申请实施例公开的又一种新词发现方法的流程图;图4为本申请实施例公开的一种新词发现装置的结构图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。术语解释:条件随机场:英文全称为conditionalrandomfield,简称为CRF。本申请提供一种新词发现方法的实施例。参见图1,包括以下步骤:步骤S101:获取电力行业文档。本实施例可以采用自动采集方式获取电力行业文档:对业务系统中文本数据进行采集从而实现文本正文内容的自动提取。当然也可以采用手动添加方式获取电力行业文档,作为自动采集行业文档的有效补充手段。可以理解的是,经过自动采集和手动采集后获得行业文档的特点是分散的、异构的、不确定的、冗余的、不完备的和含噪音的,还不能直接用来挖掘新词,完善电力词库。因此,可以对文档进行一些预处理操作,例如,去重操作、去噪操作、统一文档格式操作等等,预处理操作可以根据实际情况而定。预处理操作过程已为成熟技术,在此不再赘述。步骤S102:基于通用词库对电力行业文档进行分词操作并获得分词结果。依据开源的通用词库对电力行业文档进行文本分词操作,得到基于词库进行分词后的分词结果。本实施例可以采用jieba分词技术对电力行业文档进行分词操作获得分词结果。例如,以电力行业文档中以一段文本“最新概念为区块链技术”为例,利用jieba分词技术分词后获得的分词结果可以为:“最新”、“概念”、“为”“区”、“块”、“链”“技术”等多个分词,当然还有其它分词再次不再一一列举。步骤S103:对分词结果执行筛选操作,获得符合筛选条件的候选词集。可以理解的是,步骤S102中获得的分词结果一部分是重复词语,一部分是已有词,所以预先设置一些筛选条件过滤一些重复词语和已有词,获得候选词集。本步骤已为成熟技术在此不再赘述。延续上述举例,可以过滤“最新”、“概念”和“技术”已有词,剩余“区”、“块”、“链”三个候选词组成候选词集。步骤S104:在候选词集中确定新词。参见图2,本步骤可以分为以下步骤:步骤S201:计算候选词的左信息熵。计算候选词的左信息熵,也即,左邻接分词与候选词一起出现的信息熵。左信息熵计算公式:其中,Hl(W)是候选词w的左信息熵;sl是候选词w的左邻接分词集合;wl是候选词w的左邻接分词集合中的一个,p(wl|w)是候选词w出现的情况下本文档来自技高网...

【技术保护点】
1.一种新词发现方法,其特征在于,包括:获取电力行业文档;基于通用词库对电力行业文档进行分词操作并获得分词结果;对分词结果执行筛选操作,获得符合筛选条件的候选词集;在所述候选词集中基于信息熵的大小来确定新词。

【技术特征摘要】
1.一种新词发现方法,其特征在于,包括:获取电力行业文档;基于通用词库对电力行业文档进行分词操作并获得分词结果;对分词结果执行筛选操作,获得符合筛选条件的候选词集;在所述候选词集中基于信息熵的大小来确定新词。2.如权利要求1所述的方法,其特征在于,所述在所述候选词集中确定新词,包括:针对候选词集中各候选词执行下述步骤:计算候选词的左信息熵;若所述左信息熵不大于阈值,则将候选词与左邻接分词重新组成候选词,直到左信息熵大于阈值;若所述左信息熵大于阈值,则计算候选词的右信息熵;若所述右信息熵不大于阈值,则将候选词与右邻接分词重新组成候选词汇,直到右信息熵大于阈值;将候选词确定为作为新词。3.如权利要求2所述的方法,其特征在于,在将候选词确定为作为新词之前还包括:将所述候选词拆分为两个词汇;计算所述两个词汇的互信息熵;若所述两个词汇的互信息熵大于阈值,则执行将所述候选词确定为新词的步骤。4.如权利要求2所述的方法,其特征在于,在所述左信息熵大于阈值,以及,在右信息熵大于阈值之后,还包括:判断候选词的长度是否大于预设长度;若候选词的长度大于预设长度,则删除所述候选词。5.如权利要求1所述的方法,其特征在于,在所述候选词集中确定新词之后,还包括:利用条件随机场特征模型对新词进行词性标注;添加标注词性的新词至电力行业词库。6.一种新词发现装置,其特征在于,包括:获取文档单元,用于获取电力行业文档;分词单元,用于...

【专利技术属性】
技术研发人员:张明珠陈雁刘玉玺赵加奎欧阳红袁葆吴佐平
申请(专利权)人:北京中电普华信息技术有限公司国网信息通信产业集团有限公司国家电网公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1