一种摘要形成方法及装置制造方法及图纸

技术编号:19821731 阅读:32 留言:0更新日期:2018-12-19 14:41
本发明专利技术提供了一种摘要形成方法及装置,该方法包括:拆分输入文本以获得其包括的各个句子、各句子包括的各个词语;针对获得的全部句子中的各句子均执行:针对全部句子中除当前句子外的各其他句子均执行:根据当前句子包括的词语和当前其他句子包括的词语,计算当前句子指向当前其他句子的相似度;根据计算出的各相似度,分别计算全部句子中的各句子的得分;利用全部句子中的若干第一句子来形成输入文本的摘要,各第一句子的得分均不小于全部句子中任一非第一句子的得分。利用得分高的若干句子形成摘要,且任一句子的得分是基于各个其他句子而计算出的,故本方案可以基于输入文本的上下文信息以形成摘要,故能够提高所形成摘要的准确性。

【技术实现步骤摘要】
一种摘要形成方法及装置
本专利技术涉及计算机
,特别涉及一种摘要形成方法及装置。
技术介绍
当需要了解海量的输入文本以从中获取信息时,可以对各个输入文本进行分析,以从中摘取出简洁精炼重点内容而形成摘要。与了解海量输入文本相比,用户直接了解各输入文本的摘要,可以提高其信息获取的效率,节约资料阅读或其他过程中不必要的时间。目前,可以依靠词频来完成摘要的提取。比如,对于任一输入文本,可以对该输入文本进行分词处理,并计算各个词语的词频,并将包含高词频词语的若干句子组合成该输入文本的摘要。但是,依靠词频来完成摘要的提取时,并没有考虑输入文本的上下文信息,故不能保证所形成摘要的准确性。
技术实现思路
本专利技术提供了一种摘要形成方法及装置,可以基于输入文本的上下文信息以形成摘要,故能够提高所形成摘要的准确性。为了达到上述目的,本专利技术是通过如下技术方案实现的:一方面,本专利技术提供了一种摘要形成方法,包括:S1:拆分输入文本,以获得所述输入文本包括的每一个句子、每一个所述句子包括的每一个词语;S2:针对获得的全部句子中的每一个句子均执行:针对所述全部句子中除当前句子外的每一个其他句子均执行:根据当前句子包括的词语和当前其他句子包括的词语,计算所述当前句子指向所述当前其他句子的相似度;S3:根据计算出的每一个所述相似度,分别计算所述全部句子中的每一个句子的得分;S4:利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要,任一所述第一句子的得分,均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分。进一步地,在所述S1之后、所述S2之前,进一步包括:根据预设的至少一个无效词语,将获得的每一个句子中包括的每一个无效词语删除。进一步地,在所述S2之后、所述S3之前,进一步包括:将计算出的每一个不大于预设相似度阈值的所述相似度删除。进一步地,所述计算所述当前句子指向所述当前其他句子的相似度,包括:利用公式一或公式二,计算所述当前句子指向所述当前其他句子的相似度;所述公式一包括:所述公式二包括:其中,Va为所述全部句子中的第a个句子,Vb为所述全部句子中的第b个句子,similarity(Va,Vb)为所述第a个句子指向所述第b个句子的相似度,c为所述第a个句子包括的词语个数,d为所述第b个句子包括的词语个数,Sae为所述第a个句子包括的第e个词语的预设词向量,1≤e≤c,Sbf为所述第b句子包括的第f个词语的预设词向量,1≤f≤d,上标T意为转置。进一步地,所述S1,包括:拆分输入文本,以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语,其中,所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列;在所述S4之前,进一步包括:根据公式三,对计算出的每一个得分进行优化,并将优化前的各个得分更新替换为相应的优化后的各个得分;所述公式三包括:其中,Vi为所述全部句子中的第i个句子,WS(Vi)为所述第i个句子的优化前的得分,WS(Vi)′为所述第i个句子的优化后的得分,g1和g2均为预设调整阈值,p为获得的首段落包括的句子个数,q为获得的尾段落包括的句子个数,h为所述全部句子的个数。进一步地,所述分别计算所述全部句子中的每一个句子的得分,包括:根据公式四,分别计算所述全部句子中的每一个句子的得分;所述公式四包括:其中,Vm为所述全部句子中的第m个句子,Vn为所述全部句子中的第n个句子,Vk为所述全部句子中的第k个句子,WS(Vm)为所述第m个句子的得分,WS(Vn)为所述第n个句子的得分,x为预设的阻尼系数,similarity(Vn,Vm)为所述第n个句子指向所述第m个句子的相似度,similarity(Vn,Vk)为所述第n个句子指向所述第k个句子的相似度,Vn∈In(Vm),In(Vm)为所述全部句子中指向所述第m个句子的每一个句子的集合,且当前存在有In(Vm)中的任一句子指向所述第m个句子的相似度,Vk∈Out(Vn),Out(Vn)为所述全部句子中所述第n个句子指向的每一个句子的集合,且当前存在有所述第n个句子指向Out(Vn)中的任一句子的相似度,所述全部句子中任一句子的得分的初始值已预定。进一步地,在所述根据公式四,分别计算所述全部句子中的每一个句子的得分之后,进一步包括:A1:判断所述全部句子中是否存在待处理的句子,其中,所述待处理的句子为仅计算过一次得分的句子或被确定为待处理的句子,若是,执行A2,否则,执行S4;A2:针对每一个待处理的句子均执行:根据上一次计算出的每一个所述句子的得分,根据所述公式四,再一次迭代计算当前句子的得分;计算当前次计算出的所述当前句子的得分与上一次计算出的所述当前句子的得分的差值;判断所述差值的绝对值是否不大于预设误差值,若是,确定当前次计算出的所述当前句子的得分为所述当前句子的最终得分,确定所述当前句子不待处理,否则,确定所述当前句子待处理;A3:执行A1。另一方面,本专利技术提供了一种摘要形成装置,包括:拆分单元,用于拆分输入文本,以获得所述输入文本包括的每一个句子、每一个所述句子包括的每一个词语;相似度计算单元,用于针对获得的全部句子中的每一个句子均执行:针对所述全部句子中除当前句子外的每一个其他句子均执行:根据当前句子包括的词语和当前其他句子包括的词语,计算所述当前句子指向所述当前其他句子的相似度;得分计算单元,用于根据计算出的每一个所述相似度,分别计算所述全部句子中的每一个句子的得分;摘要形成单元,用于利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要,任一所述第一句子的得分,均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分。进一步地,该摘要形成装置还包括:无效词语筛除单元,用于根据预设的至少一个无效词语,将获得的每一个句子中包括的每一个无效词语删除;所述拆分单元执行完成后,所述无效词语筛除单元开始工作;所述无效词语筛除单元执行完成后,所述相似度计算单元开始工作。进一步地,该摘要形成装置还包括:相似度处理单元,用于将计算出的每一个不大于预设相似度阈值的所述相似度删除;所述相似度计算单元执行完成后,所述相似度处理单元开始工作;所述相似度处理单元执行完成后,所述得分计算单元开始工作。进一步地,所述相似度计算单元,具体用于利用公式一或公式二,计算所述当前句子指向所述当前其他句子的相似度;所述公式一包括:所述公式二包括:其中,Va为所述全部句子中的第a个句子,Vb为所述全部句子中的第b个句子,similarity(Va,Vb)为所述第a个句子指向所述第b个句子的相似度,c为所述第a个句子包括的词语个数,d为所述第b个句子包括的词语个数,Sae为所述第a个句子包括的第e个词语的预设词向量,1≤e≤c,Sbf为所述第b句子包括的第f个词语的预设词向量,1≤f≤d,上标T意为转置。进一步地,所述拆分单元,具体用于拆分输入文本,以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语,其中,所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列;该摘要形成装置还包括:得分优化更新单元,用于根据公式三,对计算出的每一个得分进行优化,并将本文档来自技高网...

【技术保护点】
1.一种摘要形成方法,其特征在于,包括:S1:拆分输入文本,以获得所述输入文本包括的每一个句子、每一个所述句子包括的每一个词语;S2:针对获得的全部句子中的每一个句子均执行:针对所述全部句子中除当前句子外的每一个其他句子均执行:根据当前句子包括的词语和当前其他句子包括的词语,计算所述当前句子指向所述当前其他句子的相似度;S3:根据计算出的每一个所述相似度,分别计算所述全部句子中的每一个句子的得分;S4:利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要,任一所述第一句子的得分,均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分。

【技术特征摘要】
1.一种摘要形成方法,其特征在于,包括:S1:拆分输入文本,以获得所述输入文本包括的每一个句子、每一个所述句子包括的每一个词语;S2:针对获得的全部句子中的每一个句子均执行:针对所述全部句子中除当前句子外的每一个其他句子均执行:根据当前句子包括的词语和当前其他句子包括的词语,计算所述当前句子指向所述当前其他句子的相似度;S3:根据计算出的每一个所述相似度,分别计算所述全部句子中的每一个句子的得分;S4:利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要,任一所述第一句子的得分,均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分。2.根据权利要求1所述的方法,其特征在于,在所述S1之后、所述S2之前,进一步包括:根据预设的至少一个无效词语,将获得的每一个句子中包括的每一个无效词语删除;和/或,在所述S2之后、所述S3之前,进一步包括:将计算出的每一个不大于预设相似度阈值的所述相似度删除。3.根据权利要求1所述的方法,其特征在于,所述计算所述当前句子指向所述当前其他句子的相似度,包括:利用公式一或公式二,计算所述当前句子指向所述当前其他句子的相似度;所述公式一包括:所述公式二包括:其中,Va为所述全部句子中的第a个句子,Vb为所述全部句子中的第b个句子,similarity(Va,Vb)为所述第a个句子指向所述第b个句子的相似度,c为所述第a个句子包括的词语个数,d为所述第b个句子包括的词语个数,Sae为所述第a个句子包括的第e个词语的预设词向量,1≤e≤c,Sbf为所述第b句子包括的第f个词语的预设词向量,1≤f≤d,上标T意为转置;和/或,所述S1,包括:拆分输入文本,以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语,其中,所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列;在所述S4之前,进一步包括:根据公式三,对计算出的每一个得分进行优化,并将优化前的各个得分更新替换为相应的优化后的各个得分;所述公式三包括:其中,Vi为所述全部句子中的第i个句子,WS(Vi)为所述第i个句子的优化前的得分,WS(Vi)′为所述第i个句子的优化后的得分,g1和g2均为预设调整阈值,p为获得的首段落包括的句子个数,q为获得的尾段落包括的句子个数,h为所述全部句子的个数。4.根据权利要求1至3中任一所述的方法,其特征在于,所述分别计算所述全部句子中的每一个句子的得分,包括:根据公式四,分别计算所述全部句子中的每一个句子的得分;所述公式四包括:其中,Vm为所述全部句子中的第m个句子,Vn为所述全部句子中的第n个句子,Vk为所述全部句子中的第k个句子,WS(Vm)为所述第m个句子的得分,WS(Vn)为所述第n个句子的得分,x为预设的阻尼系数,similarity(Vn,Vm)为所述第n个句子指向所述第m个句子的相似度,similarity(Vn,Vk)为所述第n个句子指向所述第k个句子的相似度,Vn∈In(Vm),In(Vm)为所述全部句子中指向所述第m个句子的每一个句子的集合,且当前存在有In(Vm)中的任一句子指向所述第m个句子的相似度,Vk∈Out(Vn),Out(Vn)为所述全部句子中所述第n个句子指向的每一个句子的集合,且当前存在有所述第n个句子指向Out(Vn)中的任一句子的相似度,所述全部句子中任一句子的得分的初始值已预定。5.根据权利要求4所述的方法,其特征在于,在所述根据公式四,分别计算所述全部句子中的每一个句子的得分之后,进一步包括:A1:判断所述全部句子中是否存在待处理的句子,其中,所述待处理的句子为仅计算过一次得分的句子或被确定为待处理的句子,若是,执行A2,否则,执行S4;A2:针对每一个待处理的句子均执行:根据上一次计算出的每一个所述句子的得分,根据所述公式四,再一次迭代计算当前句子的得分;计算当前次计算出的所述当前句子的得分与上一次计算出的所述当前句子的得分的差值;判断所述差值的绝对值是否不大于预设误差值,若是,确定当前次计算出的所述当前句子的得分为所述当前句子的最终得分,确定所述当前句子不待处理,否则,确定所述当前句子待处理;A3:执行A1。6.一种摘要形成装置,其特征在于,包括:拆分单元,用于拆分输入文本,以获得所述输入文本包括的每一个句子、每一个所述句子包括的每一个词语;相似度计算单元,用于针对获得的全部句子中的每一个句子均执行:针对所述全部句子中除当前句子外的每一个其他...

【专利技术属性】
技术研发人员:魏静如张娴
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1