当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于云数据中心分布式文本摘要方法技术

技术编号:28674804 阅读:38 留言:0更新日期:2021-06-02 02:51
本发明专利技术提供一种基于云数据中心分布式文本摘要方法,该方法使用无监督学习的方法进行摘要生成,节省了在大规模数据集中收集标签数据所需的巨大人力成本;其次,获得句子向量表示的方法使用层级的BERT模型,即通过单词级别的BERT模型和句子级别的BERT模型来训练得到具有单词和句子两重上下文语义的句子向量,相较于绝大多数通过平均词向量得到句子向量的方法而言,具有更丰富的语义信息,能更好地进行文本摘要生成;使用基于云数据中心的分布式训练方法,流水线的模型并行方法,大大提高了BERT模型训练的速度。

【技术实现步骤摘要】
一种基于云数据中心分布式文本摘要方法
本专利技术涉及人工智能自然语言处理和并行分布式计算领域,更具体地,涉及一种基于云数据中心分布式文本摘要方法。
技术介绍
文本摘要生成是自然语言处理中的一个任务,目的是对长文本中的关键信息和内容进行提取,生成保留尽可能多的关键信息的短文本。文本摘要技术能够提取长文本中最关键的信息,在商品页面展示、新闻、资讯、科学研究等领域有着重要的作用,显著缩短人们获取信息的时间。现有的文本摘要生成方法中,训练神经网络模型往往使用有监督学习方法,该方法需要标签数据,即人工生成的摘要。为了提高神经网络模型的性能,需要使用数据量更大的数据集,这就要求每一个数据样本都需要有对应的人工生成摘要,由于文本摘要对人有较高的语言组织能力要求,使得获取标签数据需要消耗巨大的人力资源。而且,无监督学习的文本摘要生成方法需要借助句子的向量表示来进行,绝大多数获取句子向量的方法是通过平均词向量所得,这种方法仅仅了保留单词级别的语义,却丢失了文档中句子之间的语义信息,从而降低了无监督摘要生成的效果。另外,现有的文本摘要方法使本文档来自技高网...

【技术保护点】
1.一种基于云数据中心分布式文本摘要方法,其特征在于,包括以下步骤:/nS1:获得单词向量表示;/nS2:获得句子向量表示;/nS3:无监督文本摘要生成;/nS4:ROUGE指标评价摘要的质量。/n

【技术特征摘要】
1.一种基于云数据中心分布式文本摘要方法,其特征在于,包括以下步骤:
S1:获得单词向量表示;
S2:获得句子向量表示;
S3:无监督文本摘要生成;
S4:ROUGE指标评价摘要的质量。


2.根据权利要求1所述的基于云数据中心分布式文本摘要方法,其特征在于,所述步骤S1的具体过程是:
利用HuggingFace的单词分割器对文章中的单词进行分割,分割的过程把多余的标点符号去除,同时把单词映射到HuggingFace的BERT模型中的词汇表中,获得每个单词在词汇表中的序号,根据序号,匹配到HuggingFace已经预训练好的单词向量表示,进而获得文档中所有单词的单词向量表示。


3.根据权利要求2所述的基于云数据中心分布式文本摘要方法,其特征在于,所述步骤S2的具体过程是:
1)、在步骤S1得到单词表示后,得到初级的句子向量:
将句子中所有的单词向量取平均得到:其中Si表示文档中第i个句子,|Si|表示第i个句子所含的单词数量,表示第i个句子的初级向量表示;
2)、获取句子位置信息以及句子级别的遮掩令牌,将得到的句子的初级向量表示、句子位置信息以及句子级别的遮掩令牌输入到经过重新设计的句子级别BERT模型中进行训练,将得到富含上下文语义信息的高级句子向量表示


4.根据权利要求3所述的基于云数据中心分布式文本摘要方法,其特征在于,单词级别BERT模型设置“随机单词挖空”预训练任务,15%的单词会被挖空,其中这些挖空的单词80%用遮掩令牌代替,10%用随机单词代替,10%维持原有单词,预测出那些被挖空的单词,学习到单词的前后语义连贯性。


5.根据权利要求4所述的基于云数据中心分布式文本摘要方法,其特征在于,单词级别BERT模型设置“下一句子预测”预训练任务,输入两个句子,后输入的句子50%几率是前一个输入的句子的连续句子,50%是文档中的随机句子,目标是判断这两个句子是否是连续句子,用于学习句子上下文的连贯性。


6.根据权利要求5所述的基于云数据中心分布式文本摘要方法...

【专利技术属性】
技术研发人员:沈鸿黄观杰
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1