【技术实现步骤摘要】
基于成果转换标准的整合制定方法及系统
[0001]本专利技术涉及深度学习应用、分布式大数据
,具体涉及一种基于成果转换标准的整合制定方法及系统。
技术介绍
[0002]成果转换标准的整合制定,是指通过网络爬虫等数据收集手段采集记录各种信息成果的公开的文本数据,再通过人工智能技术进行文本分析及文本生成,从而得到标准文本的结构化数据的一种大数据工业应用。标准文本是在全国范围内统一的技术要求,是定制其他标准的一个基石。通过办理标准文本,能够让参与企业拥有规则的话语权,引导同行业的发展方向,甚至引起行业的重新定位;同时能够帮助企业抢占市场先机,促进企业的发展。根据标准文本撰写的严格要求,标准文本最好能先形成初步的草稿。但是,不可避免的,草稿形成过程中需要进行大量的调研材料,大量的市场调查,以及大量的行业经验。更重要的是,标准文本需要严谨的章节组织结构,章节彼此间需要清晰的逻辑关系。这些使得标准文本草稿的形成具有很高的难度。因此,我们希望能够通过引入关键词以及相关文档生成方法,辅助生成标准文本草稿。
[0003]人工智能与各行业的结合是实现智能化方向发展的必然趋势,对推动行业朝智能化方面发展具有重要意义。人工智能领域中最主要的是针对不同的行业任务,设计相应的深度学习网络模型。随着计算机算力的提高,网络训练的难度大大减低,网络预测精度也在不断提高。深度学习网络的基本特点是模型拟合能力强、信息量大和精度高,能够满足不同行业中不同需求。
[0004]对于标准文本草稿的形成,其关键的问题是如何对浩瀚如烟的资料进行 ...
【技术保护点】
【技术特征摘要】
1.一种基于成果转换标准的整合制定方法,其特征在于,所述方法包括如下步骤:获取数据集,采集公开的标准文本,构建标准文本中各章节的长文本内容
‑
章节摘要题目与章节结构顺序的数据集作为训练数据集;结合关键词信息输入一个预训练语言模型作为生成模型以得到摘要式文本生成子网络,利用摘要式文本生成子网络来生成符合关键词要求的摘要式短文本;以另一个预训练语言模型来学习章节结构顺序以此作为章节逻辑结构生成子网络,利用章节逻辑结构生成子网络对生成的多个摘要式短文本进行逻辑性重构,得到逻辑清晰的标准文本章节结构顺序;结合摘要式文本生成子网络和章节逻辑结构生成子网络,根据所述生成的摘要式短文本、标准文本章节结构顺序与长文本内容对应的训练数据集中的章节摘要题目与章节结构顺序,来优化摘要式文本生成子网络和章节逻辑结构生成子网络的损失函数,得到训练好的网络模型;将待测的多个文本数据以及关键词输入所述训练好的网络模型,生成具有清晰逻辑关系的标准文本章节结构框架。2.根据权利要求1所述的一种基于成果转换标准的整合制定方法,其特征在于,所述训练好的网络模型由摘要式文本生成子网络和章节逻辑结构生成子网络构成;摘要式文本生成子网络输出所述生成的多个摘要式短文本,其中,所述生成的多个摘要式短文本以多个预测词语的形式被序列化地输出,一个预测词语为一个字符串,摘要式文本生成子网络对各预测词语分别输出每个预测词语在生成过程中的预测的概率作为词语预测概率、以及统计该预测词语在训练数据集真实出现的概率作为词语真实概率;章节逻辑结构生成子网络将所述多个预测词语进行逻辑性重构,进行逻辑性重构即是章节逻辑结构生成子网络预测出所述多个预测词语对应需要的章节的数量,以一个章节在各个章节中的顺序按顺序作为一个节点,预测各个预测词语对应出现在各个节点中的概率作为章节预测概率、以及统计该预测词语在训练数据集真实出现在各节点对用顺序的概率作为章节真实概率;由此,所述训练好的网络模型输出所述多个预测词语。3.根据权利要求2所述的一种基于成果转换标准的整合制定方法,其特征在于,在得到所述训练好的网络模型后,当有不属于训练数据集的新的数据加入时,使用所述新的数据对所述训练好的网络模型进行微调,具体为:根据加入的新的数据,所述训练好的网络模型再次进行优化,令训练好的网络模型输出多个预测词语,获取预测词语的词语预测概率记为P
short
、词语真实概率...
【专利技术属性】
技术研发人员:温峻峰,付翊彤,罗玉京,罗海涛,
申请(专利权)人:中科天网广东标准技术研究有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。