【技术实现步骤摘要】
一种用于提取案例信息的多元新词的方法及系统
本专利技术涉及电力设备
,并且更具体地,涉及一种用于提取案例信息的多元新词的方法及系统。
技术介绍
结合案例信息的多词新词发现,既可以提取出更加准确易懂的关键词,有助于对文本内容的理解,又可以形成新的词库信息,提高故障库录入效率,因此,具有非常广阔的发展前景。目前,新词发现主要有两种思路:第一,基于构词法(语言规则,需要对特定语言语法规则的理解)的新词发现;第二,基于统计模型(基于字符排列的统计分析和基于词排列的统计分析)的新词发现。基于构词法的方法一般通过语言专家根据构词学原理、配合语义信息或词性信息来构造模板,然后匹配新词,这种方法准确率高,针对性强,但规则一般都是领域相关的,而且手工编写和维护规则复杂性相对较高,目前不常直接使用规则,更多的是作为一个附加模块与其他方法相结合,如在候选词过滤中,作为垃圾串的过滤模块使用。基于统计的新词识别分为监督方法和非监督方法两种,监督方法利用标注语料,将新词识别问题看作分类或者序列标注问题,但是在实际应用中,高质量的标注语料很难得到, ...
【技术保护点】
1.一种用于提取案例信息的多元新词的方法,所述方法包括:/n对故障案例库中的案例信息进行读取,对案例信息进行解析,获取文本信息和表格数据,根据文本信息和表格数据的表单结构解析并识别出表单结构中数据的属性名称文本,将表单结构中数据的属性名称文本加入新词生成案例文本;/n对案例文本进行分词处理,对进行分词后的案例文本构建前缀树,将常用词和分词后的案例文本加入树节点;/n确定相邻树节点的互信息的相关性,并确定互信息的相关性是否大于或等于预设值,当互信息的相关性大于或等于预设值时,获取相邻树节点的左右熵,若左右熵满足预设要求,确定相邻树节点构成多元新词,并对多元新词进行提取。/n
【技术特征摘要】
1.一种用于提取案例信息的多元新词的方法,所述方法包括:
对故障案例库中的案例信息进行读取,对案例信息进行解析,获取文本信息和表格数据,根据文本信息和表格数据的表单结构解析并识别出表单结构中数据的属性名称文本,将表单结构中数据的属性名称文本加入新词生成案例文本;
对案例文本进行分词处理,对进行分词后的案例文本构建前缀树,将常用词和分词后的案例文本加入树节点;
确定相邻树节点的互信息的相关性,并确定互信息的相关性是否大于或等于预设值,当互信息的相关性大于或等于预设值时,获取相邻树节点的左右熵,若左右熵满足预设要求,确定相邻树节点构成多元新词,并对多元新词进行提取。
2.根据权利要求1所述的方法,所述文本信息和表格数据为案例信息的故障描述、故障原因分析、故障试验分析和故障初步处理方案。
3.根据权利要求1所述的方法,所述分词处理使用自然语义处理库进行处理。
4.根据权利要求1所述的方法,所述互信息的相关性确定,具体如下:
定义相邻树节点的为单词向量X和Y,如果(X,Y)~p(x,y),X和Y之间的互信息I(X;Y)公式如下:
其中,x和y分别为单词向量X和Y单词向量中的单词,P(x)和P(y)为单词x和y出现的概率和P(x,y)为x和y同时出现的概率。
5.根据权利要求1所述的方法,所述左右熵的公式分别如下:
其中,EL(x)为单词x的左熵、a_x为单词x带有左边词的单词、A为左边词集合、ER(x)为单词x的右熵、x_b为单词x带有右边词的单词、B为右边词集合、p(x_a)为带有左边词的单词的概率、p(x_b)为带有右边词的单词的概率p(x_a|a)为带有左边词的单词的概率的条件概率和p(x_b|b)为带有右边词的单词的概率的条件概率。
6....
【专利技术属性】
技术研发人员:张书琦,王健一,程涣超,汪可,吴超,孙建涛,汤浩,刘雪丽,遇心如,赵志刚,徐征宇,赵晓宇,赵晓林,杨帆,王琳,梁宁川,吕晓露,
申请(专利权)人:中国电力科学研究院有限公司,国家电网有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。