System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于内容嵌入的文本摘要生成方法、存储介质及设备技术_技高网

一种基于内容嵌入的文本摘要生成方法、存储介质及设备技术

技术编号:40306111 阅读:8 留言:0更新日期:2024-02-07 20:51
本发明专利技术公开了一种基于内容嵌入的文本摘要生成方法、存储介质及设备,包括:将句子中的每个词输入训练好的词嵌入模型中,输出每个词对应的嵌入信息,将句子中每个词对应的嵌入信息进行算术平均,作为所述句子的嵌入信息;将段落中每个句子的嵌入信息进行算术平均,作为所述段落的嵌入信息,并更新所述段落的嵌入信息;将文档中所有段落的嵌入信息进行算术平均,得到所述文档的嵌入信息,并更新所述文档的嵌入信息;将参与计算所述文档最终的嵌入信息的所有段落,按照与所述文档最终的嵌入信息的相似度进行从大到小的顺序排序,依次从排序的每个段落中选择与所述段落最终的嵌入信息的相似度最高的句子,作为摘要的候选句子,形成最终的内容摘要。

【技术实现步骤摘要】

本专利技术属于知识管理,具体地,涉及一种基于内容嵌入的文本摘要生成方法、存储介质及设备


技术介绍

1、当今世界经济正在向经济一体化及知识经济方向发展,网络化、虚拟化、数字化、知识化正成为现代经济发展的重要特征,这使企业面临的经营环境日趋复杂多变。在市场竞争越来越激烈的情况下,知识已成为企业经营的首要资源,企业的竞争优势越来越体现在企业是否拥有雄厚的知识资本以及独特的经营能力,因此,知识管理正在成为企业最核心的管理内容。

2、近年来,大型企业和机构逐渐开始部署知识管理平台,随着平台的上线以及用户的快速增长,平台累积了大量的知识文档,且文档的保存数量快速增长。面对百万级别数量的文档,为了让用户快速从平台上找到自己感兴趣的内容,平台除了提供搜索功能,还要在搜索结果的页面为每个搜索项提供对应内容的文本摘要,方便用户快速了解文档的内容。

3、传统的抽取式摘要方法包括基于统计特征的方法和基于机器学习的方法。其中,基于统计特征的方法难以挖掘出文档内容深层次的语义特征;基于机器学习的方法,需要复杂的特征工程作为支撑,且模型的训练和推理的计算开销大。


技术实现思路

1、针对现有技术中存在的问题,本专利技术提供了一种基于内容嵌入的文本摘要生成方法、存储介质及设备,能够简单高效地挖掘和文档内容在语义上最相关的句子,组成摘要。

2、为实现上述技术目的,本专利技术采用如下技术方案:一种基于内容嵌入的文本摘要生成方法,具体包括如下步骤:

3、步骤1、提取知识管理平台上文档中的文本,形成语料库,并通过word2vec算法训练词嵌入模型;

4、步骤2、将一个句子中的每个词去除停用词后,输入训练好的词嵌入模型中,输出每个词对应的嵌入信息,将所述句子中每个词对应的嵌入信息进行算术平均,作为所述句子的嵌入信息;

5、步骤3、将段落中每个句子的嵌入信息进行算术平均,作为所述段落的嵌入信息,将所述段落中所有句子的嵌入信息依次与所述段落的嵌入信息进行相似度计算,更新所述段落的嵌入信息;

6、步骤4、将文档中所有段落的嵌入信息进行算术平均,得到所述文档的嵌入信息,将所述文档中所有段落的嵌入信息依次与所述文档的嵌入信息进行相似度计算,更新所述文档的嵌入信息;

7、步骤5、将参与计算所述文档最终的嵌入信息的所有段落,按照与所述文档最终的嵌入信息的相似度进行从大到小的顺序排序,依次从排序的每个段落中选择与所述段落最终的嵌入信息的相似度最高的句子,作为摘要的候选句子,按照各自在文档中出现的顺序依次排列,形成最终的内容摘要。

8、进一步地,步骤1包括如下子步骤:

9、步骤101、提取知识管理平台上文档中的文本,形成语料库;

10、步骤102、设置滑动窗口的大小,遍历语料库中所有文本中的所有句子,逐条形成训练数据;

11、步骤103、将形成的训练数据依次输入词嵌入模型中,通过word2vec算法采用反向传播法训练词嵌入模型。

12、进一步地,步骤3包括如下子步骤:

13、步骤301、将段落中每个句子的嵌入信息进行算术平均,作为所述段落的嵌入信息;

14、步骤302、将所述段落中所有句子的嵌入信息依次与所述段落的嵌入信息进行相似度计算,将相似度在第一阈值以上的句子的嵌入信息进行算术平均,更新所述段落的嵌入信息;

15、步骤303、重复步骤302,直至计算的相似度均在第一阈值以上,将相似度均在第一阈值以上的句子的嵌入信息进行算术平均,得到所述段落最终的嵌入信息。

16、进一步地,步骤4包括如下子步骤:

17、步骤401、将文档中所有段落的最终嵌入信息进行算术平均,得到所述文档的嵌入信息;

18、步骤402、将所述文档中所有段落的最终嵌入信息依次与所述文档的嵌入信息进行相似度计算,将相似度在第二阈值以上的段落的嵌入信息进行算术平均,更新所述文档的嵌入信息;

19、步骤403、重复步骤402,直至相似度均在第二阈值以上,将相似度均在第二阈值以上的段落的嵌入信息进行算术平均,得到所述文档最终的嵌入信息。

20、进一步地,所述相似度计算通过余弦相似度或欧式距离实现。

21、进一步地,步骤5包括如下子步骤:

22、步骤501、将参与计算所述文档最终的嵌入信息的所有段落,按照与所述文档最终的嵌入信息的相似度进行从大到小的顺序排序;

23、步骤502、依次从排序的每个段落中选择与所述段落最终的嵌入信息的相似度最高的句子,作为摘要的候选句子,放入摘要的候选句子集合中;

24、步骤503、重复从排序的每个段落中选择与所述段落最终的嵌入信息的相似度最高且不在摘的候选句子集合中的句子,放入摘要的候选句子集合中,直到字数满足摘要的要求,停止生成摘要;

25、步骤504、将摘要的候选句子集合中的所有句子,按照各自在文档中出现的顺序依次排列,组成一段文本,形成最终的内容摘要。

26、进一步地,本专利技术还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行所述的基于内容嵌入的文本摘要生成方法。

27、进一步地,本专利技术还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现所述的基于内容嵌入的文本摘要生成方法。

28、与现有技术相比,本专利技术具有如下有益效果:本专利技术基于内容嵌入的文本摘要生成方法通过多轮迭代,挖掘和段落内容在语义上最相关的句子,并生成段落最终的嵌入信息,从而忽略段落中与段落内容相关性不大的句子,使段落的嵌入信息的计算更加准确;通过多轮迭代,挖掘和文档内容在语义上最相关的段落,并生成文档最终的嵌入信息,从而忽略文档中与文档内容相关性不大的段落,使文档的嵌入信息计算更准确;此外,本专利技术依次从语义最相关的段落中,找出语义最相关的句子,直到字数满足摘要的要求后停止,将所有找出的句子按照在原文档中出现的顺序依次排列,形成最终的内容摘要,具有在语义层次上摘要信息更接近文档原文的优点。本专利技术通过简单的嵌入计算,找出在语义上最能代表文档内容的段落和其中的句子,构成文本摘要,算法结果更精准,计算开销低。

本文档来自技高网...

【技术保护点】

1.一种基于内容嵌入的文本摘要生成方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种基于内容嵌入的文本摘要生成方法,其特征在于,步骤1包括如下子步骤:

3.根据权利要求1所述的一种基于内容嵌入的文本摘要生成方法,其特征在于,步骤3包括如下子步骤:

4.根据权利要求1所述的一种基于内容嵌入的文本摘要生成方法,其特征在于,步骤4包括如下子步骤:

5.根据权利要求1所述的一种基于内容嵌入的文本摘要生成方法,其特征在于,所述相似度计算通过余弦相似度或欧式距离实现。

6.根据权利要求1所述的一种基于内容嵌入的文本摘要生成方法,其特征在于,步骤5包括如下子步骤:

7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如权利要求1-6任一项所述的基于内容嵌入的文本摘要生成方法。

8.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如权利要求1-6任一项所述的基于内容嵌入的文本摘要生成方法。

...

【技术特征摘要】

1.一种基于内容嵌入的文本摘要生成方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种基于内容嵌入的文本摘要生成方法,其特征在于,步骤1包括如下子步骤:

3.根据权利要求1所述的一种基于内容嵌入的文本摘要生成方法,其特征在于,步骤3包括如下子步骤:

4.根据权利要求1所述的一种基于内容嵌入的文本摘要生成方法,其特征在于,步骤4包括如下子步骤:

5.根据权利要求1所述的一种基于内容嵌入的文本摘要生成方法,其特征在于,所述相似度计算通过...

【专利技术属性】
技术研发人员:张宇
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1