实现文本摘要抽取的方法、装置、计算机存储介质及终端制造方法及图纸

技术编号:24938140 阅读:39 留言:0更新日期:2020-07-17 20:58
一种实现文本摘要抽取的方法、装置、计算机存储介质及终端,包括:对从原始文本切分的语句,基于预设的语言模型进行语句嵌入获得各语句的语句向量;根据获得的语句向量计算语句间的相似度;根据计算的语句间的相似度进行摘要抽取;其中,语言模型用于生成预设维度的语句向量。本发明专利技术实施例通过语句嵌入获得预设维度的语句向量,基于语句向量维度的控制实现了运算维度的控制,提升了文本摘要的抽取效率。

【技术实现步骤摘要】
实现文本摘要抽取的方法、装置、计算机存储介质及终端
本文涉及但不限于自然语言分析技术,尤指一种实现文本摘要抽取的方法、装置、计算机存储介质及终端。
技术介绍
在能够保证给定的单个或者多个文档的重要内容的情况下,文本摘要用于尽可能简明扼要地对原文档进行概括总结。质量良好的文本摘要能够在信息检索过程中发挥重要的作用,比如利用文本摘要代替原文档参与索引,可以有效缩短检索的时间,也能减少检索结果中的冗余信息,提高用户体验。随着信息爆炸时代的到来,自动化文本摘要是指利用人工智能算法,自动抽取文本中的关键信息并生成指定长度的文本摘要的方法;自动化文本摘要逐渐成为自然语言处理领域的一项重要的研究课题。自动化文本摘要按照文本摘要的生成方式可分为:抽取式文本摘要、生成式文本摘要和压缩式文本摘要。抽取式文本摘要通过计算原始文本中语句成分的权重,从原始文本中提取现成的句子来生成文本摘要,因此,在语法和句法上错误率低,一定程度上保证了文本摘要的质量。当前,抽取式文本摘要方法主要基于词袋模型(BOW,bagofwords)对原始文本进行词频统计,根据词频本文档来自技高网...

【技术保护点】
1.一种实现文本摘要抽取的方法,包括:/n对从原始文本切分的语句,基于预设的语言模型进行语句嵌入获得各语句的语句向量;/n根据获得的语句向量计算语句间的相似度;/n根据计算的语句间的相似度进行摘要抽取;/n其中,所述语言模型用于生成预设维度的语句向量。/n

【技术特征摘要】
1.一种实现文本摘要抽取的方法,包括:
对从原始文本切分的语句,基于预设的语言模型进行语句嵌入获得各语句的语句向量;
根据获得的语句向量计算语句间的相似度;
根据计算的语句间的相似度进行摘要抽取;
其中,所述语言模型用于生成预设维度的语句向量。


2.根据权利要求1所述的方法,其特征在于,所述基于预设的语言模型进行语句嵌入获得各语句的语句向量之前,所述方法还包括:
对所述原始文本进行清理。


3.根据权利要求1所述的方法,其特征在于,所述基于预设的语言模型进行语句嵌入获得各语句的语句向量之前,所述方法还包括:
对所述原始文本进行语句切分。


4.根据权利要求1所述的方法,其特征在于,所述语言模型包括以下任一模型:
嵌入式语言模型ELMO和双向预训练语言模型Bert。


5.根据权利要求1~4任一项所述的方法,其特征在于,所述根据计算的语句间的相似度进行摘要抽取,包括:
根据计算的语句间的相似度,确定摘要抽取参考信息;
根据确定的所述摘要抽取参考信息进行语句抽取,以获得文本摘要;
其中,所述摘要抽取参考信息包括:语句的内容、语句的权重排序、语句在所述原始文本中的位置信息。


6.根据权利要求5所述的方法,其特征在于,所述根据计算的语句间的相似度确定摘要抽取参考信息,包括:
根...

【专利技术属性】
技术研发人员:陈栋付骁弈张杰
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1