基于成果转换标准的整合制定方法及系统技术方案

技术编号:37307320 阅读:14 留言:0更新日期:2023-04-21 22:51
本发明专利技术提供了一种基于成果转换标准的整合制定方法及系统,通过采集公开的标准文本,构建标准中各章节的长文本内容

【技术实现步骤摘要】
基于成果转换标准的整合制定方法及系统


[0001]本专利技术涉及深度学习应用、分布式大数据
,具体涉及一种基于成果转换标准的整合制定方法及系统。

技术介绍

[0002]成果转换标准的整合制定,是指通过网络爬虫等数据收集手段采集记录各种信息成果的公开的文本数据,再通过人工智能技术进行文本分析及文本生成,从而得到标准文本的结构化数据的一种大数据工业应用。标准文本是在全国范围内统一的技术要求,是定制其他标准的一个基石。通过办理标准文本,能够让参与企业拥有规则的话语权,引导同行业的发展方向,甚至引起行业的重新定位;同时能够帮助企业抢占市场先机,促进企业的发展。根据标准文本撰写的严格要求,标准文本最好能先形成初步的草稿。但是,不可避免的,草稿形成过程中需要进行大量的调研材料,大量的市场调查,以及大量的行业经验。更重要的是,标准文本需要严谨的章节组织结构,章节彼此间需要清晰的逻辑关系。这些使得标准文本草稿的形成具有很高的难度。因此,我们希望能够通过引入关键词以及相关文档生成方法,辅助生成标准文本草稿。
[0003]人工智能与各行业的结合是实现智能化方向发展的必然趋势,对推动行业朝智能化方面发展具有重要意义。人工智能领域中最主要的是针对不同的行业任务,设计相应的深度学习网络模型。随着计算机算力的提高,网络训练的难度大大减低,网络预测精度也在不断提高。深度学习网络的基本特点是模型拟合能力强、信息量大和精度高,能够满足不同行业中不同需求。
[0004]对于标准文本草稿的形成,其关键的问题是如何对浩瀚如烟的资料进行筛查获得摘要式文本,这将需要关键词的引导。另一方面,在获得相关摘要式文本后,还需要对不同摘要式文本之间的逻辑关系进行梳理,构建出合乎情理的标准文本章节结构,因此,需要设计相应的网络,保证不同摘要式文本的顺序。目前亟待针对这两个问题,设计相应合理的深度学习网络框架,利用计算机处理能力对网络进行训练,可以获得标准文本章节结构生成模型,进而可以通过相应的网络从复杂的文本中,获得具有清晰逻辑的标准文本章节结构。

技术实现思路

[0005]为了解决上述现有技术的不足,本专利技术提供一种基于成果转换标准的整合制定方法,用深度学习网络框架设计相关模型,进而可以获得标准文本章节结构生成模型,生成具有清晰逻辑的标准文本章节结构,为后续的标准文本撰写打下务实的基础。
[0006]本专利技术的第一个目的在于提供一种基于成果转换标准的整合制定方法。
[0007]本专利技术的第二个目的在于提供一种基于成果转换标准的整合制定系统。
[0008]本专利技术的第三个目的在于提供一种计算机设备。
[0009]本专利技术的第四个目的在于提供一种存储介质。
[0010]本专利技术的第一个目的可以通过采取如下技术方案达到:
[0011]一种基于成果转换标准的整合制定方法,所述方法包括如下步骤:
[0012]获取数据集,采集公开的标准文本,构建标准文本中各章节的长文本内容

章节摘要题目与章节结构顺序的数据集作为训练数据集;
[0013]结合关键词信息输入一个预训练语言模型作为生成模型以得到摘要式文本生成子网络,利用摘要式文本生成子网络来生成符合关键词要求的摘要式短文本;
[0014]以另一个预训练语言模型来学习章节结构顺序以此作为章节逻辑结构生成子网络,利用章节逻辑结构生成子网络对生成的多个摘要式短文本进行逻辑性重构,得到逻辑清晰的标准文本章节结构顺序;
[0015]结合摘要式文本生成子网络和章节逻辑结构生成子网络,根据所述生成的摘要式短文本、标准文本章节结构顺序与长文本内容对应的训练数据集中的章节摘要题目与章节结构顺序,来优化摘要式文本生成子网络和章节逻辑结构生成子网络的损失函数,得到训练好的网络模型;
[0016]将待测的多个文本数据以及关键词输入所述训练好的网络模型,生成具有清晰逻辑关系的标准文本章节结构框架。
[0017]进一步地,所述训练好的网络模型由摘要式文本生成子网络和章节逻辑结构生成子网络构成;摘要式文本生成子网络输出所述生成的多个摘要式短文本,其中,所述生成的多个摘要式短文本以多个预测词语的形式被序列化地输出,一个预测词语为一个字符串,摘要式文本生成子网络对各预测词语分别输出每个预测词语在生成过程中的预测的概率作为词语预测概率、以及统计该预测词语在训练数据集真实出现的概率作为词语真实概率;章节逻辑结构生成子网络将所述多个预测词语进行逻辑性重构,进行逻辑性重构即是章节逻辑结构生成子网络预测出所述多个预测词语对应需要的章节的数量,以一个章节在各个章节中的顺序按顺序作为一个节点,预测各个预测词语对应出现在各个节点中的概率作为章节预测概率、以及统计该预测词语在训练数据集真实出现在各节点对用顺序的概率作为章节真实概率;由此,所述训练好的网络模型输出所述多个预测词语。
[0018]进一步地,在得到所述训练好的网络模型后,当有不属于训练数据集的新的数据加入时,可以使用所述新的数据对所述训练好的网络模型进行微调,具体为:
[0019]根据加入的新的数据,所述训练好的网络模型再次进行优化,令训练好的网络模型输出多个预测词语,获取预测词语的词语预测概率记为P
short
、词语真实概率记为P
GTshort
、章节预测概率记为P
relate
以及章节真实概率记为P
GTrelate
,设置损失函数为:
[0020][0021]其中,上标的ji和li表示进行遍历的序号:j表示预测词语的数量,其中的序号为ji;li表示章节的数量,其中的序号为li;由此遍历加入的新的数据中各预测词语对应各章节的词语预测概率、词语真实概率、章节预测概率以及章节真实概率;
[0022]通过优化所述损失函数,以基于梯度下降的优化算法进行微调,从而实现网络模型的收敛。
[0023]进一步地,可优选地,在得到所述训练好的网络模型后,当有不属于训练数据集的新的数据加入时,不使用上述进行微调的方法,还可以根据预测词语的词语预测概率、词语真实概率、章节预测概率以及章节真实概率,构建预测搜索平面,再在预测搜索平面上进行预测搜索,然后输出各预测词语,传输至客户端或保存至数据库,具体为:
[0024]根据加入的新的数据,所述训练好的网络模型再次进行优化,令训练好的网络模型输出多个预测词语,获取预测词语的词语预测概率、词语真实概率、章节预测概率以及章节真实概率,
[0025]预测词语向量对应的词语预测概率章节预测概率章节真实概率设所述训练好的网络模型输出j个预测词语且每个预测词语分别对应L个节点而有了L个章节预测概率和章节真实概率,把一个预测词语分别对应L个节点的L个章节预测概率和章节真实概率作为一个概率对照数组,一个概率对照数组中含有L个元素而每个元素为一个二元数组,每个二元数组为该概率对照数组对应的预测词语对应L个节点中的一个节点的章节预测概率和章节真实概率,将j个预测词语对应的概率对照数组分别作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于成果转换标准的整合制定方法,其特征在于,所述方法包括如下步骤:获取数据集,采集公开的标准文本,构建标准文本中各章节的长文本内容

章节摘要题目与章节结构顺序的数据集作为训练数据集;结合关键词信息输入一个预训练语言模型作为生成模型以得到摘要式文本生成子网络,利用摘要式文本生成子网络来生成符合关键词要求的摘要式短文本;以另一个预训练语言模型来学习章节结构顺序以此作为章节逻辑结构生成子网络,利用章节逻辑结构生成子网络对生成的多个摘要式短文本进行逻辑性重构,得到逻辑清晰的标准文本章节结构顺序;结合摘要式文本生成子网络和章节逻辑结构生成子网络,根据所述生成的摘要式短文本、标准文本章节结构顺序与长文本内容对应的训练数据集中的章节摘要题目与章节结构顺序,来优化摘要式文本生成子网络和章节逻辑结构生成子网络的损失函数,得到训练好的网络模型;将待测的多个文本数据以及关键词输入所述训练好的网络模型,生成具有清晰逻辑关系的标准文本章节结构框架。2.根据权利要求1所述的一种基于成果转换标准的整合制定方法,其特征在于,所述训练好的网络模型由摘要式文本生成子网络和章节逻辑结构生成子网络构成;摘要式文本生成子网络输出所述生成的多个摘要式短文本,其中,所述生成的多个摘要式短文本以多个预测词语的形式被序列化地输出,一个预测词语为一个字符串,摘要式文本生成子网络对各预测词语分别输出每个预测词语在生成过程中的预测的概率作为词语预测概率、以及统计该预测词语在训练数据集真实出现的概率作为词语真实概率;章节逻辑结构生成子网络将所述多个预测词语进行逻辑性重构,进行逻辑性重构即是章节逻辑结构生成子网络预测出所述多个预测词语对应需要的章节的数量,以一个章节在各个章节中的顺序按顺序作为一个节点,预测各个预测词语对应出现在各个节点中的概率作为章节预测概率、以及统计该预测词语在训练数据集真实出现在各节点对用顺序的概率作为章节真实概率;由此,所述训练好的网络模型输出所述多个预测词语。3.根据权利要求2所述的一种基于成果转换标准的整合制定方法,其特征在于,在得到所述训练好的网络模型后,当有不属于训练数据集的新的数据加入时,使用所述新的数据对所述训练好的网络模型进行微调,具体为:根据加入的新的数据,所述训练好的网络模型再次进行优化,令训练好的网络模型输出多个预测词语,获取预测词语的词语预测概率记为P
short
、词语真实概率...

【专利技术属性】
技术研发人员:温峻峰付翊彤罗玉京罗海涛
申请(专利权)人:中科天网广东标准技术研究有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1