一种文本自动摘要方法、装置及一种电子设备制造方法及图纸

技术编号：19934093 阅读：25 留言：0更新日期：2018-12-29 04:30

本发明专利技术公开了一种文本自动摘要方法，包括将待摘要文档按照预定义的句子结束符号进行分割；根据已有的文本语料库计算分割后每个句子的主题向量；根据两两语句间共同出现的词语数量，确定两两语句的相关度；根据每个句子的主题向量计算两两语句间的语义相似度；利用各句子间的相关度及语义相似度计算每个句子的分值；选取分值满足阈值的句子，加入预设的连接词，并按照选定的输出顺序输出，得到摘要内容。本发明专利技术利用各句子间的相关度及相似度计算所述每个句子的分值，综合考虑句子词共线率和语义相关性，提高了句子评分的准确率。本发明专利技术提出的摘要方法计算方便，普适性强。本发明专利技术还公开了一种文本自动摘要装置及一种电子设备。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本自动摘要方法、装置及一种电子设备
本专利技术涉及自然语言理解
，主要涉及文本自动摘要方法、装置及一种电子设备。
技术介绍
摘要通过简短连贯的短文全面准确的反应原始文献的中心内容。由于信息的爆炸，人们在完成一项工作前需要阅读的文档数量不断增加，所花费的时间加长，自动摘要的应用能够有效减少阅读时间，能够提升诸多领域的工作效率，有着广阔的应用前景。按照原文和摘要的关系自动摘要技术可以划分为两种类别：抽取式摘要技术和生成式摘要技术。抽取式摘要是从原文的子句集合中抽取重点句，但不对其进行修改，然后组合重点句形成一个摘要，其本质是将摘要问题转换为一个排序问题，对每个句子进行打分，高分句组成对应文献的摘要。生成式摘要技术则试图理解文献的内容，并通过精炼的语句概括文献的中心内容，这种方式更符合摘要的本质，现阶段在短文本摘要问题上采用seq2seq的方法取得了一定的进展，但是在解决长文本摘要问题时，由于技术难度大，效果欠佳。目前，使用较为广泛的技术仍然为基于抽取式的摘要生成方法，一般通过组成句子的词语来衡量句子的相关性，然而在实际文档中，词语相关度高的句子和语义相关度高的句子都有可能为关键句，因此完全不考虑两者，或者仅考虑一种相关度都是不合理的。
技术实现思路
有鉴于此，实有必要提出一种文本自动摘要方法及装置，能解决现有抽取式摘要方法的缺陷，具有普适性且准确率较高的特点。本专利技术包括以下内容：一种文本自动摘要方法，包括以下步骤：将待摘要文档按照预定义的句子结束符号进行分割；根据已有的文本语料库计算分割后每个句子的主题向量；根据两两语句间共同出现的词语数量，确定两...

【技术保护点】
1.一种文本自动摘要方法，其特征在于，包括以下步骤：将待摘要文档按照预定义的句子结束符号进行分割；根据已有的文本语料库计算分割后每个句子的主题向量；根据两两句子间共同出现的词语数量，确定两两句子的相关度；根据每个句子的主题向量，计算两两句子的语义相似度；利用所述相关度及所述语义相似度计算每个句子的分值；选取分值满足阈值的句子，加入预设的连接词，并按照选定的输出顺序输出，得到摘要内容。

【技术特征摘要】
1.一种文本自动摘要方法，其特征在于，包括以下步骤：将待摘要文档按照预定义的句子结束符号进行分割；根据已有的文本语料库计算分割后每个句子的主题向量；根据两两句子间共同出现的词语数量，确定两两句子的相关度；根据每个句子的主题向量，计算两两句子的语义相似度；利用所述相关度及所述语义相似度计算每个句子的分值；选取分值满足阈值的句子，加入预设的连接词，并按照选定的输出顺序输出，得到摘要内容。2.如权利要求1所述的文本自动摘要方法，其特征在于，还包括：根据已有的文本语料库计算待摘要文档的主题向量，并利用待摘要文档的主题向量和分割后各句子的主题向量计算待摘要文档与各句子间的语义相似度；计算每个句子的分值时还包括：利用所述待摘要文档与各句子间的语义相似度作为修正量。3.如权利要求1所述的文本自动摘要方法，其特征在于，所述计算分割后每个句子的主题向量，包括：按预设的公式计算分割后每个句子中词语与主题的条件概率，重复此条件概率步骤，直至计算结果收敛，获得分割后每个句子的主题向量。4.如权利要求2所述的文本自动摘要方法，其特征在于，计算所述待摘要文档的主题向量的方法包括：按预设的公式计算待摘要文档中词语与主题的条件概率，重复此条件概率步骤，直至计算结果收敛，获得待摘要文档的主题向量。5.如权利要求1或2所述的文本自动摘要方法，其特征在于，通过所述待摘要文档中两两句子间共同出现的词语数量确定两两句子的相关度采用如下计算公式：其中，si，sj为编号不同的句子，ωk为属于句子的词语，|si|为句子si的词语数量，|sj|为句子sj的词语数量，计算结果数值越高则句子相关度越高。6.如权利要求5所述的文本自动摘要方法，其特征在于，通过所述分割后每个句子的主题向量计算两两句子间的语义相似度采用如下计算公式：其中，表示句子si、s...

【专利技术属性】
技术研发人员：文卫东，刘健博，王忠璐，
申请(专利权)人：武汉数博科技有限责任公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人