【技术实现步骤摘要】
一种应用于核电行业的专业分词方法
[0001]本专利技术属于核电行业自然语言处理领域,具体涉及一种应用于核电行业语料的专业分词方法,它可实现对核电语料的中文分词、停用词处理、新词自动识别、实体自动识别、同义词自动识别等功能,满足核电语料的精准分词。
技术介绍
[0002]随着大数据、机器学习、知识图谱、搜索引擎、智能问答等技术在核电行业各个领域的应用,对核电行业文本处理(自然语言处理)的应用研究越来越多。从人工智能的发展历程来看,自然语言处理领域算比较难的,特别是对于中文的文本处理。自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成。造成自然语言处理困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。不像英文,中文句子中的词之间没有空格进行标识,因此中文分词被认为是中文自然语言处理中一个最基本的环节。分词不准确,特征工程就难以准确,就会影响机器对语义的理解,语义搜索、智能问答、机器学习等功能的准确性、用户体验也会受到很大的影响。
[0003]中文分词的难点主要有以下几个方面:
[0004]1、基于词库的分词方法往往不能识别新词、特定领域的专有词;
[0005]2、分词切分的歧义无法让机器判别。中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字组成词,由词组成词组,由词组组成句子,由句子组成段、节、章、篇。字(符)、词、词组、句子、段、节、章、篇都存在着歧义和多义现象,即形式上相同字符串,在不同的场景或不同的语境下,可以理解成不 ...
【技术保护点】
【技术特征摘要】
1.一种应用于核电行业的专业分词方法,其特征在于,包括如下步骤:步骤1:通过梳理语料,建立核电专业词库;步骤2:建立核电停用词词库;步骤3:建立核电同义词词库;步骤4:建立核电同一指代词词库;步骤5:将上述步骤1~4中构建的核电专业词库、核电停用词词库、核电同义词词库、核电同一指代词词库和jieba通用词库共同构成核电词库;步骤6:通过采用编码器
‑
解码器模型对核电行业语料进行机器学习,实现对核电行业语料的自动新词识别;步骤7:通过采用编码器
‑
解码器模型对核电行业语料进行有监督的机器学习,通过对核电实体类别进行部分核电行业语料的标注和学习,实现对核电行业语料的自动实体识别;步骤8:通过对上述语料构建的“NPP
‑
D”词库进行一次聚类,然后在每一个聚类簇上采用潜在语义检索模型、奇异值分解算法,以无监督学习的方式实现对核电行业语料的自动同义词识别,识别出的同义词通过专业人员校审后纳入核电同义词词库中;步骤9:通过对上述语料构建的“NPP
‑
D”词库进行一次聚类,然后在每一个聚类簇上采用潜在语义检索模型、奇异值分解算法,以无监督学习的方式对核电行业语料的自动同一指代词识别,识别出的同一指代词通过专业人员校审后纳入核电同一指代词词库中;步骤10:在“NPP
‑
D”词库的基础上,采用动态规划查找最大概率路径算法和隐型马尔科夫模型以无监督学习的方式构建核电分词模型;步骤11:在核电分词模型的基础上,建立核电分词工具,核电分词工具通过调用步骤10中的核电分词模型实现对核电语料的精准中文分词。2.如权利要求1所述的一种应用于核电行业的专业分词方法,其特征在于:所述的步骤1为通过查找核电厂中系统设计手册、设备交付手册、构筑物布置设计文档、设备故障模式文档,以及核电厂生产管理系统中设备清单、物料清单、组织机构清单、人员信息清单、风险清单,梳理各种类型的核电专业词库。3.如权利要求1所述的一种应用于核电行业的专业分词方法,其特征在于:所述的步骤2为所述的停用词的构建包括以下几个方面:将所有标点符号列为停用词;除“#”、大小写字母和数字除外的所有特殊符号列为停用词;将所有语气助词列为停用词;停用词词库由“停用词名称”、“创建日期”等字段组成。4.如权利要求1所述的一种应用于核电行业的专业分词方法,其特征在于:所述的步骤4中同一指代词词库是指两个词在核电行业中运用时,指的同一个事物,同一指代词的构建过程如下:将同一台设备的设备编码和设备名称归纳为同一指代词,并导入同一指代词词库中;将同一个系统的系统编号和系统名称归纳为同一指代词,并导入同一指代词词库中;将同一个厂房的厂房编码和厂房名称归纳为同一指代词,并导入同一指代词词库中;将同一个房间的房间编码和房间名称归纳为同一指代词,并导入同一指代词词库中;
将同一个制造商的核电厂制造商中文名称和核电厂制造商英文名称归纳为同一指代词,并导入同一指代词词库中;将同一个承包商的核电厂承包商中文名称和核电厂承包商英文名称归纳为同一指代词,并导入同一指代词词库中;将同一个物料的物料编码和物料名称归纳为同一指代词,并导入同一指代词词库中。同一指代词词库由“同义词列...
【专利技术属性】
技术研发人员:张廉,蔡汉坤,杨逗,王晓东,刘莉,杨朦,李贵莲,董宁,王奎,胡攀,
申请(专利权)人:中核武汉核电运行技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。