一种核电材料服役性能信息提取方法技术

技术编号:22565896 阅读:33 留言:0更新日期:2019-11-16 12:22
本发明专利技术涉及一种核电材料服役性能信息提取方法,包括以下步骤:步骤1:利用基于机器学习的信息清洗系统和术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,得到清洗后的信息;步骤2:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,获得若干信息样本,再按照对应的排布规则对信息样本进行排序,获得样本库;步骤3:利用样本库进行机器学习而得到信息提取系统,利用信息提取系统处理清洗后的信息,得到所要提取的信息。本发明专利技术利用机器学习后的系统实现对核电材料服役性能信息的提取,可以提高信息提取的效率和准确性,适用于核电厂中对各类与材料服役性能相关的信息的处理。

A method for extracting information of service performance of nuclear power materials

The invention relates to a method for extracting the service performance information of nuclear power materials, which comprises the following steps: Step 1: using the information cleaning system based on machine learning and the glossary of terms and expression rules to process all kinds of information related to the service performance of materials obtained by the nuclear power plant and obtain the cleaned information; step 2: using the manual method to process all kinds of information obtained by some nuclear power plants The information related to the service performance of materials is classified, marked and extracted to obtain a number of information samples, and then the information samples are sorted according to the corresponding arrangement rules to obtain the sample library; step 3: use the sample library for machine learning to obtain the information extraction system, and use the information extraction system to process the cleaned information to obtain the information to be extracted. The invention realizes the extraction of service performance information of nuclear power materials by using the system after machine learning, which can improve the efficiency and accuracy of information extraction, and is applicable to the processing of various information related to service performance of materials in nuclear power plants.

【技术实现步骤摘要】
一种核电材料服役性能信息提取方法
本专利技术属于核电厂信息处理领域,具体涉及一种核电材料服役性能信息提取方法。
技术介绍
核电厂的材料服役性能是关于核电厂运行的安全性、可靠性和经济性的研究内容,是核电领域重要的研究方向。进行相关研究所需的相关的数据,种类繁多,数量巨大。同时由于国内核电厂的建设、运行经历了从无到有的摸索过程,设备、材料的国产化程度也从低到高,所以整个过程中各种数据的记录方式并不统一,同时数据的产生、传递过程的巨大差别也造成了数据种类多,整体结构化程度低。针对现状,需要一种可以适用于大量、低结构化程度数据的核电厂服役性能信息提取方法。核电材料服役性能相关的数据描述的专业性、对于同类问题描述的差异性较大,还可能存在不同的缩写、简写、不规范表达等情况,现有的通用文本挖掘和处理技术无法直接应用,且面对核电厂与材料服役性能相关数据中普遍的短文本等问题也存在根本上的技术障碍。故需要一套适用于核电材料服役性能信息特征的数据清洗、模型训练方法和信息提取方法。
技术实现思路
本专利技术的目的是提供一种适用于核电厂信息处理,能够提高准确性和效率的核电材料服役性能信息提取方法。为达到上述目的,本专利技术采用的技术方案是:一种核电材料服役性能信息提取方法,包括以下步骤:步骤1:数据清洗:利用基于机器学习的信息清洗系统和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息;步骤2:建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项所述信息样本进行排序,从而获得样本库;步骤3:信息提取:利用所述样本库进行机器学习而得到用于提取信息的信息提取系统,利用所述信息提取系统处理清洗后的信息,从而得到所要提取的信息所述步骤1中,所述信息清洗系统进行机器学习的方法为:建立核电材料服役性能专用术语集以及惯用表达规则表,利用所述核电材料服役性能专用术语集和所述惯用表达规则表进行机器学习而得到所述信息清洗系统。所述步骤2包括以下子步骤:子步骤a:目标信息筛选:按照与材料服役性能的相关性强弱,从部分由核电厂获取的各类与材料服役性能相关的信息中筛选出若干类待处理的信息;子步骤b:确定分类方法:针对各类所述待处理的信息,确定其对应的分类原则和/或阈值;子步骤c:人工标记:对各类所述待处理的信息,依据其对应的分类原则和/或阈值结合指定的标记原则进行人工分类标记和信息提取,从而获得所述信息样本;子步骤d:样本排布:依据选定的排布规则将各项所述信息样本进行排序,从而获得所述样本库。所述子步骤a中,筛选出的所述待处理的信息包括核电厂设备材料/机理分析数据、核电厂运行经验反馈信息、设备专项评估结论和审查结论。所述子步骤b中,依据所述待处理信息的价值密度、获取形式、与材料服役性能表征之间的关系,确定其对应的分类原则和/或阈值。所述子步骤c中,随着分类标记的进行而优化所述标记原则。所述子步骤d中,以提高机器学习的准确性为目标而选定所述排布规则。所述步骤3中,采用通过所述样本库优化后的基于预训练的双向编码器表征方案,来进行机器学习。由于上述技术方案运用,本专利技术与现有技术相比具有下列优点:本专利技术利用机器学习后的系统实现对核电材料服役性能信息的提取,可以提高信息提取的效率和准确性,适用于核电厂中对各类材料服役性能相关信息进行处理。具体实施方式下面结合实施例对本专利技术作进一步描述。实施例一:一种核电材料服役性能信息提取方法,包括以下步骤:步骤1:数据清洗:利用基于机器学习的信息清洗系统和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息。在该步骤中,信息清洗系统进行机器学习的方法为:建立核电材料服役性能专用术语集以及惯用表达规则表,利用核电材料服役性能专用术语集和惯用表达规则表进行机器学习而得到信息清洗系统。进而利用信息清洗系统对由核电厂获取的各类信息,即原始数据进行处理,提取主题词和表达,将简写、缩写等标准化,并判断可能的笔误、遗漏等,从而提高信息的规范化程度和可用度。步骤2:建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项信息样本进行排序,从而获得样本库。该步骤具体包括以下子步骤:子步骤a:目标信息筛选:按照与材料服役性能的相关性强弱,从部分由核电厂获取的各类与材料服役性能相关的信息中筛选出若干类待处理的信息。筛选出的待处理的信息包括核电厂设备材料/机理分析数据、核电厂运行经验反馈信息、设备专项评估结论和审查结论等。子步骤b:确定分类方法:针对各类待处理的信息,依据待处理信息的价值密度、获取形式、与材料服役性能表征之间的关系,确定其对应的分类原则和/或阈值,其中阈值针对存在可量化数据的待处理的信息。例如,对于核电厂运行经验反馈等价值密度较低数据,其分类原则应尽可能普适,提高其可操作性,一般只注重其定性分类;对于机理分析数据、专项评估数据等高价值密度数据,应尽量提取其专业特征并充分利用可定量的特征以提高其与材料服役性能表征之间的相关性。子步骤c:人工标记:对各类待处理的信息,依据其对应的分类原则和/或阈值结合指定的标记原则进行人工分类标记和信息提取,从而获得信息样本。在人工标记过程中,首先,需要确定所需的人工标记资质,例如工作年限、专业、标记一致性等,并且需随着分类标记的进行而优化标记原则,通过有效的可追溯记录以及有反馈的优化体系保证其标记的持续有效性。在标记初期,可通过先验知识制定初始的标记原则,并通过渐进明细的方式不断优化标记原则来逼近其不同特征真实区别。对于标记原则的优化应反映至整个待标记的数据样本上,不断提升整个标记数据样本的价值。子步骤d:样本排布:以提高机器学习的准确性为目标而选定排布规则,依据选定的排布规则将各项信息样本进行排序,从而获得样本库。该子步骤中,对于子步骤c中人工标记后的信息样本,需要针对机器学习特点以及数据特点,确定其排布规则,以便提高利用其进行机器学习的准确性。例如通过不同的表达精度、覆盖度等进行合理排序,以充分利用标记后的数据价值。步骤3:信息提取:利用样本库进行机器学习,针对核电材料服役性能相关数据的特点,采用不同于传统技术的基于预训练的双向编码器表征,并使用步骤2中的样本库对其进行针对性优化,使之适用于核电厂的与材料服役性能相关信息的机器学习过程,而得到专门用于提取与材料服役性能相关信息的信息提取系统,利用信息提取系统处理清洗后的信息,从而得到所要提取的信息。上述实施例只为说明本专利技术本文档来自技高网...

【技术保护点】
1.一种核电材料服役性能信息提取方法,其特征在于:所述核电材料服役性能信息提取方法包括以下步骤:/n步骤1:数据清洗:利用基于机器学习的信息清洗系统和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息;/n步骤2:建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项所述信息样本进行排序,从而获得样本库;/n步骤3:信息提取:利用所述样本库进行机器学习而得到用于提取信息的信息提取系统,利用所述信息提取系统处理清洗后的信息,从而得到所要提取的信息。/n

【技术特征摘要】
1.一种核电材料服役性能信息提取方法,其特征在于:所述核电材料服役性能信息提取方法包括以下步骤:
步骤1:数据清洗:利用基于机器学习的信息清洗系统和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息;
步骤2:建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项所述信息样本进行排序,从而获得样本库;
步骤3:信息提取:利用所述样本库进行机器学习而得到用于提取信息的信息提取系统,利用所述信息提取系统处理清洗后的信息,从而得到所要提取的信息。


2.根据权利要求1所述的一种核电材料服役性能信息提取方法,其特征在于:所述步骤1中,所述信息清洗系统进行机器学习的方法为:建立核电材料服役性能专用术语集以及惯用表达规则表,利用所述核电材料服役性能专用术语集和所述惯用表达规则表进行机器学习而得到所述信息清洗系统。


3.根据权利要求1所述的一种核电材料服役性能信息提取方法,其特征在于:所述步骤2包括以下子步骤:
子步骤a:目标信息筛选:按照与材料服役性能的相关性强弱,从部分由核电厂获取的各类与材料服役性能相关的信息中筛选出若干类待处理的信息;
子步骤b:确定分类方法:...

【专利技术属性】
技术研发人员:刘啸天张彦召孙大健张晏玮薛飞遆文新
申请(专利权)人:苏州热工研究院有限公司中国广核集团有限公司中国广核电力股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1