一种基于句子语义模型的文本摘要生成方法和系统技术方案

技术编号:34149098 阅读:15 留言:0更新日期:2022-07-14 19:41
本申请涉及一种基于句子语义模型的文本摘要生成方法和系统,其中,该方法包括:获取文本与文本标签,对文本进行语句划分,并对划分后的文本语句进行切词处理,得到词向量;根据词向量聚合得到文本语句向量,根据文本语句向量与文本标签,获取待生成的文本摘要所在的段落;计算待生成的文本摘要所在的段落中每个文本语句向量与文本标签的语义距离,并对语义距离按照由近及远的规则进行排序,确定最终的文本摘要。通过本申请,不仅可以解决关键词频数方法的使用范围局限、逻辑不灵活和可扩展性差的问题,还能兼顾模型准确率与模型预测时间的平衡性,即能同时保证模型准确率与模型的预测时间可用性。时间可用性。时间可用性。

A method and system of text summarization generation based on sentence semantic model

【技术实现步骤摘要】
一种基于句子语义模型的文本摘要生成方法和系统


[0001]本申请涉及自然语言处理
,特别是涉及一种基于句子语义模型的文本摘要生成方法和系统。

技术介绍

[0002]现如今,对于文本摘要生成的方法,主要有关键词词频数方法与基于一般的机器学习方法。比如,专利《文本摘要生成方法、装置、设备及存储介质》通过Transformer和Seq2Seq模型获取丰富的编码向量进行文本摘要,提升文本摘要的准确性。专利《中文文本摘要生成系统及方法》利用神经网络让机器阅读全文,将理解后的文本表示在神经网络内,再序列化的输出简短精准的摘要。尽管采用机器学习可以更加精细的理解全文,但是对于这种基于一般的机器学习模型生成文本摘要的方法,其模型的准确率与模型预测时间的可用性很难平衡,会导致这类方法并不一定都适用于实际的大规模数据中,可应用性较低。而对于常见的关键词频数法,其缺点是使用范围有限、逻辑不灵活、可扩展性差。
[0003]因此,如何解决上述相关技术中存在的问题,是本领域亟待解决的技术问题。

技术实现思路

[0004]本申请实施例提供了一种基于句子语义模型的文本摘要生成方法和系统,以至少解决由于相关技术的限制和缺陷而导致的一个或者多个问题。
[0005]第一方面,本申请实施例提供了一种基于句子语义模型的文本摘要生成方法,所述方法包括:获取文本与文本标签,对所述文本进行语句划分,并对划分后的文本语句进行切词处理,得到词向量;根据所述词向量聚合得到文本语句向量,根据所述文本语句向量与所述文本标签,获取待生成的文本摘要所在的段落;计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离,并对所述语义距离按照由近及远的规则进行排序,确定最终的文本摘要。
[0006]在其中一些实施例中,根据所述词向量聚合得到文本语句向量包括:根据所述词向量,通过自定义计算方法聚合得到文本语句向量,其中,计算公式如下:其中,Wi(Wij)为文本句子分词后的第i个词向量,n为词向量的维度,L为文本语句中的词个数,V_SENTENCE
k
为聚合得到的文本语句向量。
[0007]在其中一些实施例中,根据所述文本语句向量与所述文本标签,获取待生成的文本摘要所在的段落包括:根据所述文本语句向量与所述文本标签,通过自定义计算方法,计算得到待生成
的文本摘要所在的段落,计算公式如下:其中,KS为段落Paragraph
k
的语句个数,KP为文本的段落个数, Wi 为文本句子分词后的第i个词向量,DISTANCE(TEXT, V_SENTENCE
k
)为句子V_SENTENCE
k
与标签向量TEXT的语义距离,DISTANCE(TEXT, Paragraph
k
)为段落Paragraph
k
与标签向量TEXT的语义距离,PARAGRAPH_SELECT为待生成的文本摘要所在的段落。
[0008]在其中一些实施例中,计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离包括:通过自定义计算方法,计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离,计算公式如下:其中,PS_V_SENTENCE
k
为待生成的文本摘要所在的段落中每个文本语句向量,TEXT为文本标签向量,Wi 为文本句子分词后的第i个词向量。
[0009]在其中一些实施例中,对所述语义距离按照由近及远的规则进行排序,生成TopK语句包括:通过自定义计算方法,对所述语义距离按照由近及远的规则进行排序,生成TopK语句,计算公式如下:其中,ORDER_DISTANCE(TEXT, PS_V_SENTENCE
k
)为每个文本语句与文本标签的语义距离排序。
[0010]在其中一些实施例中,对划分后的文本语句进行切词处理,得到词向量包括:对所述划分后的文本语句进行切词处理,得到多个词,通过词向量生成法将得到的词生成相应的词向量。
[0011]在其中一些实施例中,对所述文本进行语句划分包括:以句号为基准,对文本进行语句划分,每遇到一个句号则划分得到一个语句。
[0012]第二方面,本申请实施例提供了一种基于句子语义模型的文本摘要生成系统,所述系统包括:语句划分模块,用于获取文本与文本标签,对所述文本进行语句划分,并对划分后的文本语句进行切词处理,得到词向量;段落获取模块,用于根据所述词向量聚合得到文本语句向量,根据所述文本语句向量与所述文本标签,获取待生成的文本摘要所在的段落;摘要生成模块,用于计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离,并对所述语义距离按照由近及远的规则进行排序,确定最终
的文本摘要。
[0013]第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于句子语义模型的文本摘要生成方法。
[0014]第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于句子语义模型的文本摘要生成方法。
[0015]相比于相关技术,本申请实施例提供的基于句子语义模型的文本摘要生成方法,获取文本与文本标签,对文本进行语句划分,并对划分后的文本语句进行切词处理,得到词向量;根据词向量聚合得到文本语句向量,根据文本语句向量与文本标签,获取待生成的文本摘要所在的段落;计算待生成的文本摘要所在的段落中每个文本语句向量与文本标签的语义距离,并对语义距离按照由近及远的规则进行排序,确定最终的文本摘要。
[0016]通过本申请不仅可以解决关键词频数方法的使用范围局限、逻辑不灵活和可扩展性差的问题,还能兼顾模型准确率与模型预测时间的平衡性,即能同时保证模型准确率与模型的预测时间可用性。本申请方法的可扩展性、可解释性较强,覆盖范围较广,在不同类型的文本以及不同的项目中均可得到很好的实际应用。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的基于句子语义模型的文本摘要生成方法的应用环境示意图;图2是根据本申请实施例的基于句子语义模型的文本摘要生成方法的流程图;图3是根据本申请实施例的基于句子语义模型的文本摘要生成系统的结构框图;图4是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
[0018]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于句子语义模型的文本摘要生成方法,其特征在于,所述方法包括:获取文本与文本标签,对所述文本进行语句划分,并对划分后的文本语句进行切词处理,得到词向量;根据所述词向量聚合得到文本语句向量,根据所述文本语句向量与所述文本标签,获取待生成的文本摘要所在的段落;计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离,并对所述语义距离按照由近及远的规则进行排序,确定最终的文本摘要。2.根据权利要求1所述的方法,其特征在于,根据所述词向量聚合得到文本语句向量包括:根据所述词向量,通过自定义计算方法聚合得到文本语句向量,其中,计算公式如下:其中,Wi(Wij)为文本句子分词后的第i个词向量,n为词向量的维度,L为文本语句中的词个数,V_SENTENCE
k
为聚合得到的文本语句向量。3.根据权利要求1所述的方法,其特征在于,根据所述文本语句向量与所述文本标签,获取待生成的文本摘要所在的段落包括:根据所述文本语句向量与所述文本标签,通过自定义计算方法,计算得到待生成的文本摘要所在的段落,计算公式如下:其中,KS为段落Paragraph
k
的语句个数,KP为文本的段落个数, Wi 为文本句子分词后的第i个词向量,DISTANCE(TEXT, V_SENTENCE
k
)为句子V_SENTENCE
k
与标签向量TEXT的语义距离,DISTANCE(TEXT, Paragraph
k
)为段落Paragraph
k
与标签向量TEXT的语义距离,PARAGRAPH_SELECT为待生成的文本摘要所在的段落。4.根据权利要求1所述的方法,其特征在于,计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义距离包括:通过自定义计算方法,计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语...

【专利技术属性】
技术研发人员:周泽伟杨红飞金霞程东
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1