一种基于单篇长文本的摘要生成方法技术

技术编号:26171163 阅读:33 留言:0更新日期:2020-10-31 13:42
本发明专利技术是一种基于单篇长文本的摘要生成方法。本发明专利技术涉及单篇长文本的摘要生成技术领域,本发明专利技术通过Bert算法构造文本句子的特征向量,确定句子间的余弦相似度;确定文本句子的权重得分,根据文本句子的位置、长度、与标题相似度特征,对文本句子进行权重修正;采用MMR算法对候选摘要句进行冗余度处理;根据冗余度处理的候选摘要句,进行专利文本的摘要提取。采用本发明专利技术所述方法获得摘要在各项指标上均大于其他现有同类方法。本发明专利技术所述的摘要生成方法应用于专利检索技术领域,能够有效提高专利降噪的工作效率和准确率。

A summary generation method based on single long text

【技术实现步骤摘要】
一种基于单篇长文本的摘要生成方法
本专利技术涉及专利摘要生成
,是一种基于单篇长文本的摘要生成方法。
技术介绍
随着信息化时代的到来,人们变得越来越依赖互联网获取所需要的信息,但其上的信息呈现爆炸式增长,如何有效地从海量信息中筛选出所需的有用信息成了关键性的技术问题,而在单篇长文本领域,也面临着类似的问题。专利文献作为技术信息最有效的载体,囊括了全球90%以上的最新技术情报,相比一般技术刊物所提供的信息早5-6年,而且70%-80%专利技术创造只通过专利文献公开,并不见诸于其他科技文献,相对于其他文献形式,专利更具有新颖、实用的特征。专利技术可以促进专利技术创造,推动技术进步,具有巨大的商业价值,是提升企业竞争力的重要手段。一个企业要想在行业内拥有核心竞争力,一个行业要想引领时代潮流,一个国家要想在立足于国际舞台,技术创新是关键、专利专利技术是载体。专利数据库中包含着海量的专利数据,在检索某一
的专利时,目前大多数的专利检索都是基于关键词匹配来获取相关
的专利,检索的结果往往包含很大的噪声,由于原始摘要往往不能准确的表本文档来自技高网...

【技术保护点】
1.一种基于单篇长文本的摘要生成方法,其特征是:包括以下步骤:/n步骤1:针对待处理的单篇长文本,通过Bert算法构造文本句子的特征向量,确定句子间的余弦相似度;/n步骤2:确定文本句子的权重得分,根据文本句子的位置、长度、与标题相似度特征,对文本句子进行权重修正;/n步骤3:采用MMR算法对文本句子进行冗余度处理;/n步骤4:根据冗余度处理的文本句子,进行单篇长文本摘要生成。/n

【技术特征摘要】
1.一种基于单篇长文本的摘要生成方法,其特征是:包括以下步骤:
步骤1:针对待处理的单篇长文本,通过Bert算法构造文本句子的特征向量,确定句子间的余弦相似度;
步骤2:确定文本句子的权重得分,根据文本句子的位置、长度、与标题相似度特征,对文本句子进行权重修正;
步骤3:采用MMR算法对文本句子进行冗余度处理;
步骤4:根据冗余度处理的文本句子,进行单篇长文本摘要生成。


2.根据权利要求1所述的一种基于单篇长文本的摘要生成方法,其特征是:所述步骤1具体为:
步骤1.1:基于待处理的单篇长文本,选用NLTK库中punkt分隔器中的sent_tokenize()函数来对英文文本进行句子分隔,punkt分隔器中的sent_tokenize()函数运用一种与文本语言无关的无监督方法对句子边界进行检测,使其能够准确地处理单词中带点号的情况;
对句子进行分词、大小写转换、去除停用词、数字和标点处理工作,使用NLTK库中的word_tokenize()函数来进行操作;在分词之后对文中句子进行大小写转换、去除标点和数字,同时使用NLTK库中自带的停用词库来去除停用词,得到单篇长文本特征词集合;
步骤1.2:通过Bert算法构造文本句子的特征向量,根据Bert算法进行语言模型预训练,采用了多层双向Tansformer编码进行预训练,采用微调的方式解决下游预测任务,采用Masked语言模型来学习融合两个不同方向的文本特征,采用Mask掩码来代替原始单词,在预训练过程中进行预测;
基于Pytorch平台,使用Python开发语言中的pytorch_transformers包来进行句向量训练,构造文本句子的特征向量;
将向量夹角的余弦值作为衡量两个个体间差异大小的度量,通过下式表示句子间的余弦相似度cosθ:



其中,X和Y均为单篇长文本向量。


3.根据权利要求1所述的一种基于单篇长文本的摘要生成方法,其特征是:所述步骤2具体为:
步骤2.1:单篇长文本共有n个句子,前三段共有u个句子,确定句子基于位置的权重调整系数,通过下式表示句子基于位置的权重调整系数Wposition:



权重调整系数值在前u个句子中采用依次递减的方式,剩余句子保持原来的权重值;
步骤2.2:基于句子与标题的相似度的权重改进,提高包含标题关键词语的句子的权重值,通过下式确定权重调整系数Wtitle:
Wtitle=1+sim(Si,Stitle)
其,中sim(Si,Stitle)为句子Si与标题句子Stitle的相似度;

【专利技术属性】
技术研发人员:石振锋王亚卓崔宝艳桑略
申请(专利权)人:黑龙江阳光惠远知识产权运营有限公司
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1