【技术实现步骤摘要】
一种基于多任务特征协同的生成专利摘要的方法及系统
[0001]本专利技术涉及文献检索
,具体涉及一种基于多任务特征协同的生成专利摘要的方法及系统。
技术介绍
[0002]专利深加工针对专利文献特点利用文本生成技术获取高附加值的专利改写技术,专利摘要改写属于专利深加工组成部分。随着技术发展和专利数量迅速增多,国家和企业情报分析需要深入专利文本深层,迫切需要对专利大数据进行标注,由于人工标注存在成本高、速度慢等问题,自动标注技术也越来越受业界关注。目前较常用的几种处理方法如下:
[0003](一)基于词表和模板自动深加工方法(“中文专利信息资源深加工方案设计与实证研究”,《技术与应用》,2014年第07期),深入到专利内容层面细粒度标引,利用半自动化的模板构建方法抽取专利文本摘要中的指定信息,实现指定领域的专利术语识别,利用识别出的术语进行标引,模板是对句子中被抽取部分、特征词以及它们之间的次序的抽象,共设计了专利技术类型(是否属于产品、方法、设备、流程、工艺、材料等主题)、技术主题(专利全文描述的主要对象或主要技术)、专利技术改进、应用领域(用途)等四种信息的标引。
[0004](二)融合原文事实的中文专利摘要生成方法(崔卓,中文专利标题及摘要生成技术研究,北京信息科技大学专业硕士学位论文,2021年4月)使用文本排序TextRank算法(一种用于文本的基于图的排序算法)提取说明书中心句,提取中心句中三元组作为原文事实性描述,基于原文事实性描述进行指导利用转换器(Transformer)和指针神经 ...
【技术保护点】
【技术特征摘要】
1.一种基于多任务特征协同的生成专利摘要的方法,其特征在于,包括如下步骤:专利摘要组成部分的生成模型训练:基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化;基于迁移学习中在核心方案生成模型基础上进行训练评估得到发明点生成模型;对专利摘要组成部分在相关生成模型基础上分别进行训练评估得到专利摘要各组成部分生成模型;将待加工的专利文本进行拆分、压缩处理,并分别导入相应的专利摘要各组成部分生成模型;将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息的文本并汇总得到专利摘要;其中,所述专利摘要组成部分包括核心方案技术特征信息、发明点技术特征信息、其他技术方案中的发明信息、用途信息、要解决的技术问题和有益效果。2.如权利要求1所述的生成专利摘要的方法,其特征在于,所述基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化,包括:特征获取:根据词频进行筛选得到特征,经试验依据验证集损失、压缩文本权重和测试集评估值指标综合确定预定数量的特征;和/或协同:通过将所述专利摘要组成部分生成任务划分成目标任务和支持任务实现的,所述目标任务指当前选出的正在优化的某个任务,所述支持任务指被用来达成对目标任务进行优化目的而选择的其他若干任务,所述协同任务是实际进入协同压缩阶段的支持任务,根据协同任务筛选算法从支持任务中筛选得到。3.如权利要求2所述的生成专利摘要的方法,其特征在于,还包括压缩步骤:压缩过程中,任一支持任务的特征划被分成私有特征和公有特征,所述私有特征指某一支持任务存在的而其支持的当前目标任务不存在的特征,所述公有特征指某一支持任务和其支持的当前目标任务都存在的特征。4.如权利要求1所述的生成专利摘要的方法,其特征在于,其中,要解决的技术问题和有益效果生成任务,包括如下步骤:对样本库专利文献进行文本解析,拆分为名称、摘要、权利要求和说明书、背景技术、发明内容、有益效果;并进行清洗及预处理、压缩;利用要解决的技术问题和有益效果任务的高相关文本对压缩文本进行强调;在原文撰写了有益效果情况下,通过使用剩余压缩空间大小作为压缩长度阈值压缩原文撰写的有益效果,引入人类经验;针对相关性低的压缩文本,实施对未使用的内容,如:权利要求和说明书,进行压缩,补充压缩文本;确定支持任务,构建任务矩阵,经协同任务筛选算法得到协同任务,实施多任务协同压缩;利用压缩文本和标签构建数据集,通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到要解决的技术问题和有益效果生成模型。5.如权利要求1所述的生成专利摘要的方法,其特征在于,其中,用途生成任务,包括如
下步骤:对用途生成任务的各类目数据源进行清洗及预处理;对名称、摘要、技术领域、背景技术、发明内容、有益效果、正文末尾内容进行压缩;对于用途生成任务的高相关文本的类目数据源压缩后相关值最大的第一句文本拼接到一起构建文本得到用途生成高相关文本,用于强调;对摘要、技术领域、背景技术、发明内容、有益效果、正文末尾利用高相关文本强调;对权利要求和非正文末尾未使用文本进行压缩后补充低相关文本;确定支持任务,实施多任务特征协同压缩;利用压缩文本和标签构建数据集,通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到用途生成模型。6.如权利要求1所述的生成专利摘要的方法,其特征在于,其中,核心方案生成任务,包括如下步骤:对样本库专利文献进行文本解析,拆分为名称、摘要、权利要求和说明书,并进行清洗及预处理、压缩;核心方案生成任务的高相关文本的类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本,用于强调;对摘要、权利要求、说明书利用高相关文本强调;确定支持任务,实施多任务特征协同压缩;利用压缩文本和经过元件及编号处理过的标签构建数据集...
【专利技术属性】
技术研发人员:冯好国,裴非,徐青伟,严长春,范娥媚,
申请(专利权)人:知呱呱天津大数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。