一种文本自动摘要方法、装置及一种电子设备制造方法及图纸

技术编号:19934093 阅读:25 留言:0更新日期:2018-12-29 04:30
本发明专利技术公开了一种文本自动摘要方法,包括将待摘要文档按照预定义的句子结束符号进行分割;根据已有的文本语料库计算分割后每个句子的主题向量;根据两两语句间共同出现的词语数量,确定两两语句的相关度;根据每个句子的主题向量计算两两语句间的语义相似度;利用各句子间的相关度及语义相似度计算每个句子的分值;选取分值满足阈值的句子,加入预设的连接词,并按照选定的输出顺序输出,得到摘要内容。本发明专利技术利用各句子间的相关度及相似度计算所述每个句子的分值,综合考虑句子词共线率和语义相关性,提高了句子评分的准确率。本发明专利技术提出的摘要方法计算方便,普适性强。本发明专利技术还公开了一种文本自动摘要装置及一种电子设备。

【技术实现步骤摘要】
一种文本自动摘要方法、装置及一种电子设备
本专利技术涉及自然语言理解
,主要涉及文本自动摘要方法、装置及一种电子设备。
技术介绍
摘要通过简短连贯的短文全面准确的反应原始文献的中心内容。由于信息的爆炸,人们在完成一项工作前需要阅读的文档数量不断增加,所花费的时间加长,自动摘要的应用能够有效减少阅读时间,能够提升诸多领域的工作效率,有着广阔的应用前景。按照原文和摘要的关系自动摘要技术可以划分为两种类别:抽取式摘要技术和生成式摘要技术。抽取式摘要是从原文的子句集合中抽取重点句,但不对其进行修改,然后组合重点句形成一个摘要,其本质是将摘要问题转换为一个排序问题,对每个句子进行打分,高分句组成对应文献的摘要。生成式摘要技术则试图理解文献的内容,并通过精炼的语句概括文献的中心内容,这种方式更符合摘要的本质,现阶段在短文本摘要问题上采用seq2seq的方法取得了一定的进展,但是在解决长文本摘要问题时,由于技术难度大,效果欠佳。目前,使用较为广泛的技术仍然为基于抽取式的摘要生成方法,一般通过组成句子的词语来衡量句子的相关性,然而在实际文档中,词语相关度高的句子和语义相关度高的句子都有可能为关键句,因此完全不考虑两者,或者仅考虑一种相关度都是不合理的。
技术实现思路
有鉴于此,实有必要提出一种文本自动摘要方法及装置,能解决现有抽取式摘要方法的缺陷,具有普适性且准确率较高的特点。本专利技术包括以下内容:一种文本自动摘要方法,包括以下步骤:将待摘要文档按照预定义的句子结束符号进行分割;根据已有的文本语料库计算分割后每个句子的主题向量;根据两两语句间共同出现的词语数量,确定两两语句的相关度;根据每个句子的主题向量计算两两语句间的语义相似度;利用所述各句子间的相关度及语义相似度计算所述每个句子的分值;选取分值满足阈值的句子,加入预设的连接词,并按照选定的输出顺序输出,得到摘要内容。另一方面,本专利技术还公开了一种文本自动摘要装置,其特征在于,所述装置包括:分割模块,用于将待摘要文档按照预定义的句子结束符号进行分割;第一计算模块,用于根据已有的文本语料库计算分割后每个句子的主题向量;第二计算模块,用于根据两两语句间共同出现的词语数量,确定两两语句的相关度;第三计算模块,用于根据每个句子的主题向量计算两两语句间的语义相似度;打分模块,用于利用所述各句子间的相关度及语义相似度计算所述每个句子的分值;摘要输出模块,用于选取分值满足阈值的句子,加入预设的连接词,并按照选定的输出顺序输出,得到摘要内容。本专利技术还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现所述的方法步骤。本专利技术相较于现有技术的有益效果:本专利技术利用所述各句子间的相关度及相似度计算所述每个句子的分值,综合考虑句子词共线率和语义相关性,提高了句子评分的准确率。本专利技术提出的摘要方法计算方便,普适性强。附图说明图1是在一些实施例中,一种文本自动摘要方法的流程图。图2是在另一些实施例中,一种文本自动摘要方法的流程图。图3是在中文文本情况下,一种文本自动摘要方法的流程图。图4是在一些实施例中,一种文本自动摘要装置的结构示意图。图5是在一些实施例中,一种电子设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例1在一些实施例中,如图1所示,一种文本自动摘要方法,包括以下步骤:Step110,将待摘要文档按照预定义的句子结束符号进行分割。比如分割后记为d={s1,s2,…sm},其中1,2,…,m表示句子被分割后的编号。在本实施例中,句子结束符号不做特定限制,可以是“。”、“!”、“?”,亦可以是“,”、“;”,甚至是指定的分割符号。Step120,根据已有的文本语料库计算分割后每个句子的主题向量。在一些实施例中,可以采用LDA(LatentDirichletAllocation)主题模型算法生成文本语料库,即统计若干带主题标签的文本语料库中“主题-词语”的共现矩阵,具体计算方法如公式(1)所示:其中,p表示概率,词语ω为文章d中的词语,t为文章的主题,n表示主题的数量,dk表示第k篇文档,ωi表示dk中的第i个词语。计算分割后每个句子的主题向量的方法包括:按预设的公式计算分割后每个句子中词语与主题的条件概率,重复此条件概率步骤,直至计算结果收敛,获得分割后每个句子的主题向量,分别为计算待摘要文档中词语与主题的条件概率的公式可以为如下公式:其中,p表示概率,词语ω为文章d中的词语,t为文章的主题,n表示主题的数量,dk表示第k篇文档,ωi表示dk中的第i个词语,表示文档与主题的相关概率,表示词语与主题的相关概率。其中,ar为和主题r相关的参数,一般设为bt为和词语t相关的参数,一般设为Step130,根据两两语句间共同出现的词语数量,确定两两语句的相关度。具体计算方法如公式(2)所示的计算方法:其中,si,sj为编号不同的句子,ωk为属于句子的词语,|si|为句子si的词语数量,|sj|为句子sj的词语数量,该公式计算结果数值越高表示句子相关度越高。Step140,根据每个句子的主题向量计算两两语句间的语义相似度。具体计算方法如公式(3)所示:其中,表示句子si、sj的主题向量,该公式的计算结果数值越高表示句子的语义相关度越高。可以理解的,Step130、Step140的步骤可以交换。Step150,各句子间的相关度及语义相似度计算所述每个句子的分值,重复迭代计算各句子的分值,直至结果收敛。计算所述每个句子的分值的方法如下所示:其中,TR(si)表示句子si的评分si、sj、sk分别表示编号为i、j、k的句子,OUT(j)表示除sj以外的句子,IN(i)表示包括si在内的所有句子,n表示主题的数量,α,e,β为计算参数,α和β取值范围为[0,1],e的取值范围为[0,1]。(1-e)/n为修正量,作为句子si被选为关键句的随机概率。本专利技术综合考虑句子词共线率和语义相关性对句子评分的影响,以提高句子评分的准确率。实施例2为了进一步提升句子评分的准确率,计算每个句子的分值时还可利用各句与待摘要文档的语义相似度作为修正参数。如图2所示,一种文本自动摘要方法,包括以下步骤:Step210,将待摘要文档d按照预定义的句子结束符号进行分割。比如分割后记为d={s1,s2,…sm},其中1,2,…,m表示句子被分割后的编号。在本实施例中,句子结束符号不做特定限制,可以是“。”、“!”、“?”,亦可以是“,”、“;”,甚至是指定的分割符号。Step220,根据已有的文本语料库分别计算所述待摘要文档的主题向量和分割后每个句子s1,s2,…sm的主题向量。在一些实施例中,可以采用LDA(LatentDirichletAllocation)主题模型算法生成文本语料库,即统计若干带主题标签的文本语料库中“主题-词语”的共现矩阵,具体计算方法如公式(1)所示:其中,p表示概率,词语ω为文章d中的词语,t为文章的主题,本文档来自技高网...

【技术保护点】
1.一种文本自动摘要方法,其特征在于,包括以下步骤:将待摘要文档按照预定义的句子结束符号进行分割;根据已有的文本语料库计算分割后每个句子的主题向量;根据两两句子间共同出现的词语数量,确定两两句子的相关度;根据每个句子的主题向量,计算两两句子的语义相似度;利用所述相关度及所述语义相似度计算每个句子的分值;选取分值满足阈值的句子,加入预设的连接词,并按照选定的输出顺序输出,得到摘要内容。

【技术特征摘要】
1.一种文本自动摘要方法,其特征在于,包括以下步骤:将待摘要文档按照预定义的句子结束符号进行分割;根据已有的文本语料库计算分割后每个句子的主题向量;根据两两句子间共同出现的词语数量,确定两两句子的相关度;根据每个句子的主题向量,计算两两句子的语义相似度;利用所述相关度及所述语义相似度计算每个句子的分值;选取分值满足阈值的句子,加入预设的连接词,并按照选定的输出顺序输出,得到摘要内容。2.如权利要求1所述的文本自动摘要方法,其特征在于,还包括:根据已有的文本语料库计算待摘要文档的主题向量,并利用待摘要文档的主题向量和分割后各句子的主题向量计算待摘要文档与各句子间的语义相似度;计算每个句子的分值时还包括:利用所述待摘要文档与各句子间的语义相似度作为修正量。3.如权利要求1所述的文本自动摘要方法,其特征在于,所述计算分割后每个句子的主题向量,包括:按预设的公式计算分割后每个句子中词语与主题的条件概率,重复此条件概率步骤,直至计算结果收敛,获得分割后每个句子的主题向量。4.如权利要求2所述的文本自动摘要方法,其特征在于,计算所述待摘要文档的主题向量的方法包括:按预设的公式计算待摘要文档中词语与主题的条件概率,重复此条件概率步骤,直至计算结果收敛,获得待摘要文档的主题向量。5.如权利要求1或2所述的文本自动摘要方法,其特征在于,通过所述待摘要文档中两两句子间共同出现的词语数量确定两两句子的相关度采用如下计算公式:其中,si,sj为编号不同的句子,ωk为属于句子的词语,|si|为句子si的词语数量,|sj|为句子sj的词语数量,计算结果数值越高则句子相关度越高。6.如权利要求5所述的文本自动摘要方法,其特征在于,通过所述分割后每个句子的主题向量计算两两句子间的语义相似度采用如下计算公式:其中,表示句子si、s...

【专利技术属性】
技术研发人员:文卫东刘健博王忠璐
申请(专利权)人:武汉数博科技有限责任公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1