摘要生成的方法、装置及电子设备制造方法及图纸

技术编号:28674779 阅读:25 留言:0更新日期:2021-06-02 02:51
本发明专利技术提供了一种摘要生成的方法、装置及电子设备,涉及数据处理技术领域,该方法包括对待处理文档进行预处理;根据预先构建的该指定专业领域的语料库,将预处理后的该待处理文档转化为输入向量;将该输入向量输入预先训练的摘要模型,得到输出向量;根据该语料库将该输出向量转化为该待处理文档的摘要。本发明专利技术实施例通过预先建立指定专业领域的语料库,用于将该指定专业领域的待处理文档转化为输入向量,使其携带有该指定专业领域的特征信息,进而基于该输入向量生成的摘要更具备专业性,提高了该指定专业领域文章的摘要生成的准确性,缓解了基于词汇频率生成的摘要专业性较差,以及在有效文本表述内容占比较少时生成的摘要准确性较低的问题。

【技术实现步骤摘要】
摘要生成的方法、装置及电子设备
本专利技术涉及数据处理
,尤其是涉及一种摘要生成的方法、装置及电子设备。
技术介绍
自动摘要技术就是用一些精炼的话来概括整片文章的大意,用户通过摘要内容就可以了解到原文要表达的意思。目前,摘要生成的方法有很多种,主要依赖如下技术:其中一种是TF-IDF(TermFrequency–InverseDocumentFrequency,词频和逆文本频率)词频加权技术,使用该方法生成摘要时,依靠关键词出现的频率来进行词的加权,根据加权的内容获取词的上下文的语义段落,从而生成摘要。该方法的缺点是,关键词的频率并不能准确描述专业领域词语的权重,应用于专业领域的摘要生成时,生成的摘要往往专业性较差。另一种是TextSum技术,例如,在GoogleTensorflow中的Research中,即是利用TextSum算法,也即:Seq2Seq+Attention。该方法是目前比较先进的神经网络摘要生成方法,但是这种方法在文章专业领域过于复杂、段落较长、且文本表述中有效内容占比较少时,生成摘要的准确性较低。...

【技术保护点】
1.一种摘要生成的方法,其特征在于,包括:/n对待处理文档进行预处理;其中,所述待处理文档属于指定专业领域;/n根据预先构建的所述指定专业领域的语料库,将预处理后的所述待处理文档转化为输入向量;其中,所述语料库中包括所述指定专业领域的原始语料,以及每个所述原始语料对应的特征向量;/n将所述输入向量输入预先训练的摘要模型,得到输出向量;/n根据所述语料库将所述输出向量转化为所述待处理文档的摘要。/n

【技术特征摘要】
1.一种摘要生成的方法,其特征在于,包括:
对待处理文档进行预处理;其中,所述待处理文档属于指定专业领域;
根据预先构建的所述指定专业领域的语料库,将预处理后的所述待处理文档转化为输入向量;其中,所述语料库中包括所述指定专业领域的原始语料,以及每个所述原始语料对应的特征向量;
将所述输入向量输入预先训练的摘要模型,得到输出向量;
根据所述语料库将所述输出向量转化为所述待处理文档的摘要。


2.根据权利要求1所述的摘要生成的方法,其特征在于,所述特征向量包括所述原始语料的词向量特征和所述原始语料中指定文本信息的信息特征;
其中,所述指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。


3.根据权利要求2所述的摘要生成的方法,其特征在于,所述语料库通过下述方式建立:
获取所述指定专业领域的原始语料;
对所述原始语料进行分词处理,得到多个词单元;
确定所述原始语料中是否包含有指定文本信息;
如果有,提取所述指定文本信息;
根据所述词单元和所述指定文本信息生成所述原始语料的特征向量;
根据所述原始语料和所述特征向量,构建所述指定专业领域的语料库。


4.根据权利要求3所述的摘要生成的方法,其特征在于,所述根据所述词单元和所述指定文本信息生成所述原始语料的特征向量的步骤,包括:
向量化所述词单元和所述指定文本信息,分别得到所述原始语料的第一向量和第二向量;
根据所述第一向量和所述第二向量,生成所述原始语料的特征向量。


5.根据权利要求1所述的摘要生成的方法,其特征在于,所述摘要模型包括seq2seq模型和attention模型;其中,所述attention模型中的编码模型采用one-hot编码模型,所述attention模型中的解码模型采用前馈神经网络FFN+S...

【专利技术属性】
技术研发人员:关海南周一新赵恒
申请(专利权)人:北京金山云网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1