关于特定主题类别的文本摘要提取方法、可读存储介质技术

技术编号:18018929 阅读:34 留言:0更新日期:2018-05-23 05:11
本发明专利技术提供一种关于特定主题类别的文本摘要提取方法、存储介质,通过建立对应主题的单词权值库,以对应特定主题的单词权重为驱动,计算得到每个句子的初始权值,以及两两句子的边权值,再采用改进的PageRank算法进行迭代计算生成文本中每个句子对应特定主题的权重,据此得到摘要。本发明专利技术区别于现有技术以当前文本为驱动,所获取的文本摘要不符合用户要求的不足,能够实现在大数据环境下,从各种综合文本中准确提取出与当前主题类别相关的高质量的文本摘要,满足用户对特定主题的文本摘要提取的需求;同时降低提取过程中单词向量空间的维度,降低计算的时间复杂度,满足大数据背景下海量文本处理时的性能需求,为后续文本分析做好铺垫。

【技术实现步骤摘要】
关于特定主题类别的文本摘要提取方法、可读存储介质
本专利技术涉及文本信息分析
,具体说的是一种关于特定主题类别的文本摘要提取方法、可读存储介质。
技术介绍
在当今时代,是一个信息数据大爆炸的年代,每天面对的网络文本信息也在急速变大,各类文本越来越多,一个文本内容可能分属不同类别,极可能存在对应若干主题的现象。在这种情况下一般的文本摘要算法不能正确反应用户所需要的主题内容。目前,市场上现有的同类文本摘要提取方法,主要是从当前文本的信息入手,进行对当前文本的主体内容进行识别提取,并结合包括标题、关键词等进行分析文本摘要,这些技术无法满足对指定的主题类别进行分析需求。针对以上问题,本专利技术提出一种关于特定主题类别的文本摘要提取方法,主要针对在大数据环境下各种综合文本准确提取出与当前主题类别相关的文本摘要,满足用户对于特定主题的文本摘要提取需求。例如:一篇文章有说假币,也有说涉黄的信息,当前主题类别为打击假币主题,会生成与假币相关的文本摘要,涉黄信息会由于权值不够而被忽略。
技术实现思路
本专利技术所要解决的技术问题是:提供一种关于特定主题类别的文本摘要提取方法、可读存储介质,实现准确地提取出与当前主题类别相关的文本摘要。为了解决上述技术问题,本专利技术采用的技术方案为:一种文本摘要提取方法,包括:依据预设的主题与文本数据的关联性,分别获取预设数量的正样本和反样本;对所述正样本和反样本进行分词处理,并过滤得到有效的单词集合;计算所述单词集合中各单词对应所述预设的主题的权值;存储权值高于第一阈值的单词及其对应的权值至权值库,得到对应所述主题的权值库;获取一文本数据;对所述一文本数据进行分句处理,并过滤得到仅包含有效单词的句子;依据每个所述句子中各单词在权值库中对应的权值,计算两两句子的边权值;依据所述句子中各单词在权值库中对应的权值,计算每个句子的初始权值;依据每个句子的初始权值,以及两两句子的边权值,运用PageRank算法,计算得到所述一文本数据中每个句子对应所述预设的主题的权重。本专利技术提供的另一个技术方案为:一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述步骤。本专利技术的有益效果在于:本专利技术提供一种文本摘要提取方法、存储介质,通过建立对应主题的单词权值库,能够以对应特定主题的单词权重为驱动,计算得到每个句子的初始权值,以及两两句子的边权值,再采用改进的PageRank算法进行迭代计算生成文本中每个句子对应特定主题的权重,据此得到摘要。本专利技术区别于现有技术以当前文本为驱动,所获取的文本摘要不符合用户要求的不足,能够实现在大数据环境下,从各种综合文本中准确提取出与当前主题类别相关的高质量的文本摘要,满足用户对特定主题的文本摘要提取的需求;同时降低提取过程中单词向量空间的维度,降低计算的时间复杂度,满足大数据背景下海量文本处理时的性能需求,为后续文本分析做好铺垫。附图说明图1为本专利技术一种文本摘要提取方法的流程示意图;图2为本专利技术实施例一的S1中针对一特定主题建立对应权值库的步骤流程示意图;图3为本专利技术实施例一中创建多主题对应的权值库的流程示意图;图4为本专利技术实施例一中使用改进PageRank算法提取一篇文本数据的文本摘要的流程示意图。具体实施方式为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图予以说明。本专利技术最关键的构思在于:通过建立对应主题的单词权值库,能够以对应特定主题的单词权重为驱动,计算得到每个句子的初始权值,以及两两句子的边权值,再采用改进的PageRank算法进行迭代计算生成文本中每个句子对应特定主题的权重请参照图1,本专利技术提供一种文本摘要提取方法,包括:依据预设的主题与文本数据的关联性,分别获取预设数量的正样本和反样本;对所述正样本和反样本进行分词处理,并过滤得到有效的单词集合;计算所述单词集合中各单词对应所述预设的主题的权值;存储权值高于第一阈值的单词及其对应的权值至权值库,得到对应所述主题的权值库;获取一文本数据;对所述一文本数据进行分句处理,并过滤得到仅包含有效单词的句子;依据每个所述句子中各单词在权值库中对应的权值,计算两两句子的边权值;依据所述句子中各单词在权值库中对应的权值,计算每个句子的初始权值;依据每个句子的初始权值,以及两两句子的边权值,运用PageRank算法,计算得到所述一文本数据中每个句子对应所述预设的主题的权重。从上述描述可知,本专利技术的有益效果在于:本专利技术采用主题类别的单词权值驱动来分析主题摘要,从本质上满足了用户对于不同文本对于不同主题类别的摘要需求,完成摘要后,可进行文本分类或情感分析等高级文本分析功能。在现实中将得到用户的欢迎与认可,极大地方便文本数据再加工的工作。进一步的,还包括:依据句子的权重排名,获取预设个数的句子作为所述一文本数据对应所述主题的文本摘要。由上述描述可知,权重越高的句子与当前确定的主题具有更高的关联性,据此生成的文本摘要更准确、更能符合用户需求。进一步的,还包括:计算文本摘要中两两句子之间的相似度;删除文本摘要中相似度超出第二阈值的两个句子中权重较低的句子;依据文本摘要中剩余句子的权重,以及剩余句子在所述一文本数据中的位置,确定核心句子;依据在所述一文本数据中的先后顺序对所述核心句子进行排序,得到最终的文本摘要。由上述描述可知,依据句子之间的相似度,有效去除重复的句子,以避免摘要出现多个重复或相似句子,实现文本摘要的精简;依据权重和位置进行排序,保证文本摘要的逻辑连贯。进一步的,还包括:对应不同的主题,分别构建对应的权值库。由上述描述可知,还能构建多主题的单词权值库,适应多主题类别的文本摘要提取,提升用户体验,同时满足用户更多需求。进一步的,所述过滤,具体为:删除包括停用词、长度为1的单词、表情符号、纯数字以及以数字开头的单词,得到有效的单词集合。由上述描述可知,能够按照词性对单词进行过滤,滤除无效单词,以此缩小单词数据量,达到降维提效的目的;针对有效单词进行分词,提高提取准确度。进一步的,所述依据每个句子的初始权值,以及两两句子的边权值,运用PageRank算法,计算得到所述一文本数据中每个句子对应所述预设的主题的权重,具体为:依据改进后的PageRank算法公式:进行迭代计算,得到所述一文本数据中每个句子对应所述预设的主题的权重;其中,所述WS(Vi)为句子Vi对应所述主题的初始权值;所述d是阻尼系数;所述wji为句子Vi与句子Vj的边权值;所述WS(Vj)为句子Vj上一次迭代j的权重。由上述描述可知,基于本专利技术的需求,能够灵活的对PageRank算法进行改进,代入每个句子的初始权值,以及两两句子的边权值进行计算,获取每个句子与特定主题的精准的关联度。进一步的,所述正样本为文本数据与预设的主题为正相关;所述反样本为文本数据与预设的主题为负相关。由上述描述可知,重视从样本中提出的低词频词有时候更能代表主题类别特征的现象,同时计算得到低词频的权值,保证权值库的全面性和准确性。进一步的,所述对所述一文本数据进行分句处理,并过滤得到仅包含有效单词的句子,具体为:依据段落以及一级标点符号,对所述一文本数据进行分句处理,得到第一句子集合;对所述第一句子集合内长度超过第三阈值的句子,依据二级标点符号进行分本文档来自技高网
...
关于特定主题类别的文本摘要提取方法、可读存储介质

【技术保护点】
一种关于特定主题类别的文本摘要提取方法,其特征在于,包括:依据预设的主题与文本数据的关联性,分别获取预设数量的正样本和反样本;对所述正样本和反样本进行分词处理,并过滤得到有效的单词集合;计算所述单词集合中各单词对应所述预设的主题的权值;存储权值高于第一阈值的单词及其对应的权值至权值库,得到对应所述主题的权值库;获取一文本数据;对所述一文本数据进行分句处理,并过滤得到仅包含有效单词的句子;依据每个所述句子中各单词在权值库中对应的权值,计算两两句子的边权值;依据所述句子中各单词在权值库中对应的权值,计算每个句子的初始权值;依据每个句子的初始权值,以及两两句子的边权值,运用PageRank算法,计算得到所述一文本数据中每个句子对应所述预设的主题的权重。

【技术特征摘要】
1.一种关于特定主题类别的文本摘要提取方法,其特征在于,包括:依据预设的主题与文本数据的关联性,分别获取预设数量的正样本和反样本;对所述正样本和反样本进行分词处理,并过滤得到有效的单词集合;计算所述单词集合中各单词对应所述预设的主题的权值;存储权值高于第一阈值的单词及其对应的权值至权值库,得到对应所述主题的权值库;获取一文本数据;对所述一文本数据进行分句处理,并过滤得到仅包含有效单词的句子;依据每个所述句子中各单词在权值库中对应的权值,计算两两句子的边权值;依据所述句子中各单词在权值库中对应的权值,计算每个句子的初始权值;依据每个句子的初始权值,以及两两句子的边权值,运用PageRank算法,计算得到所述一文本数据中每个句子对应所述预设的主题的权重。2.如权利要求1所述的关于特定主题类别的文本摘要提取方法,其特征在于,还包括:依据句子的权重排名,获取预设个数的句子作为所述一文本数据对应所述主题的文本摘要。3.如权利要求2所述的关于特定主题类别的文本摘要提取方法,其特征在于,还包括:计算文本摘要中两两句子之间的相似度;删除相似度超出第二阈值的两个句子中权重较低的句子;依据文本摘要中剩余句子的权重,以及剩余句子在所述一文本数据中的位置,确定核心句子;依据在所述一文本数据中的先后顺序对所述核心句子进行排序,得到最终的文本摘要。4.如权利要求1所述的关于特定主题类别的文本摘要提取方法,其特征在于,还包括:对应不同的主题,分别构建对应的权值库。5.如权利要求1所述的关于特定主题类别的文本摘要...

【专利技术属性】
技术研发人员:林志扬栾江霞王仁斌黄南松
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1