电力专业词库生成方法及装置制造方法及图纸

技术编号:21034807 阅读:35 留言:0更新日期:2019-05-04 05:36
一种电力专业词库生成方法及装置,其中方法包括如下步骤,获取电力相关语料,对相关语料进行切词,得到候选词,对候选词进行互信息值计算,设定互信息值阈值,将互信息值小于互信息值阈值的词剔除。解决现有技术中电力专业词库杂乱不准确,无法满足实际需求的问题。

Method and Device for Generating Power Specialized Lexicon

【技术实现步骤摘要】
电力专业词库生成方法及装置
本专利技术涉及自然语言处理领域,尤其涉及一种电力行业中专业词库的生成方法及装置。
技术介绍
分词技术是自然语言处理中比较基础但又非常重要的技术,在中文语言中单字作为最基本的语义单位,虽然也有自己的意义,但表意能力较差,意义较分散,而词的表意能力更强,能更加准确的描述一个事物,因此在自然语言处理中,通常情况下词(包括单字成词)是最基本的处理单位。对于英文等拉丁语系的语言而言,由于词之间有空格作为词边际表示,词语一般情况下都能简单且准确的提取出来。而中文语言除了标点符号之外,字之间紧密相连,没有明显的词边界,因此很难将词提取出来。中文分词方法大致分为两种:基于词典的切分,基于统计模型的序列标注切分两种方式,基于词典切分是比较常用且高效的分词方式,其前提是要有词库。电网公司目前已经积累了大量的电力行业专业语料,为了通过文本分析、挖掘技术对这些语料进行充分利用,当前迫切的需要一个较准确、完整的电力行业词库。目前的语言分析处理方法主要有基于如下方面:一、基于CRF(条件随机场)算法的专业词发现CRF(条件随机场)是由一个在给定输入节点条件下计算输出节点的条件概率的无本文档来自技高网...

【技术保护点】
1.一种电力专业词库生成方法,包括如下步骤:获取电力相关语料;对电力相关语料进行切词,得到候选词;对候选词进行互信息值计算;将互信息值小于预设互信息值阈值的词剔除。

【技术特征摘要】
1.一种电力专业词库生成方法,包括如下步骤:获取电力相关语料;对电力相关语料进行切词,得到候选词;对候选词进行互信息值计算;将互信息值小于预设互信息值阈值的词剔除。2.根据权利要求1所述的电力专业词库生成方法,其特征在于,所述对电力相关语料进行切词,得到候选词,具体包括:对中文符号分割出的短句根据预设定长长度进行定长切词,得到多个定长切词结果;对每个定长切词结果,截取所述定长切词结果的前n个字,得到候选词,所述n为初始步长,再将n增加预设值,重复截取步骤,直至n等于所述预设定长长度。3.根据权利要求1所述的电力专业词库生成方法,其特征在于,还包括步骤,对候选词进行左右信息熵计算,将左右信息熵小于预设的左右信息熵阈值的词剔除。4.根据权利要求1所述的电力专业词库生成方法,其特征在于,还包括步骤,对候选词进行组分词性标注,根据组分词性删除不成词的词性组合。5.根据权利要求1所述的电力专业词库生成方法,其特征在于,还包括步骤,对候选词进行TF-IDF值计算,根据TF-IDF值对候选词排序,并将排序好的结果呈现给用户。6.一种电力专业词库生成装置,其特征在于,包括:获取模块,用...

【专利技术属性】
技术研发人员:庄莉王秋琳宋立华张垚陈江海
申请(专利权)人:福建亿榕信息技术有限公司国网信息通信产业集团有限公司国网浙江省电力有限公司国家电网有限公司国网信通亿力科技有限责任公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1