一种文档主题词自动提取方法技术

技术编号:21060363 阅读:31 留言:0更新日期:2019-05-08 07:04
本发明专利技术提供一种文档主题词自动提取方法的实现方法是一种非监督的方法,全程不需要人为干涉,从主题的划分还是关联词的寻找,都是根据文章自身的词语特征形成的;本发明专利技术提出了关联度来衡量主题词的关系,这种关联度充分考虑了共现度和词语间的互信息两种情况;本发明专利技术采用重叠矩阵来划分文章的主题,CPM算法作为社团划分的主流,用派系变异系数来衡量词语关联的稳定性,更有助于划分有效稳定的主题;采用重叠社区划分后结果的不同主题簇之间的连接词来反映不同主题之间的连接特征,这种连接特很好反映不同主题之间的承上启下的作用,有助于文章摘要顺序的生成。

An Automatic Extraction Method of Document Thesaurus

【技术实现步骤摘要】
一种文档主题词自动提取方法
本专利技术涉及进信息处理领域,更具体地,涉及一种文档主题词自动提取方法。
技术介绍
采用数据技术和计算机算法提取文档中具有特征意义和概括性质的主题词,即代替人脑进行内容的初步审阅,是编辑出版行业一直以来的需要。目前的文档主题词提取技术一般仅仅利用词语之间的关联度来衡量文本主题词关联度,在一定程度上体现该文档的主题词的重要性,但是它仅仅是从词语的本身来衡量,忽略了词语相邻之间的关系,以及词语与相邻词语出现的稳定性。共现度、互信息等关联度,它们仅仅关注词语在本文的一个句子或者一段话中一起出现的概率或者相似性,并没有从本质上衡量词语的相邻关系以及相邻关系的稳定性。或者采用关联度的主题词划分不能反映不同主题特征的承上启下作用,能够有助于中文摘要自动生成的主题转换。过分关注反映主题特征的承上启下作用,虽然能够有助于中文摘要自动生成的主题转换,但是没有体现每一个簇的中心性,也就是每一个主题的几个重要特征词。
技术实现思路
为解决现有文档主题词自动提取技术仅利用词语间的关联度来衡量文本主题词关联度,在一定程度上体现该文档的主题词的重要性,但是它仅仅是从词语的本身来衡量,忽略了词语相邻之间的关系,以及词语与相邻词语出现的稳定性或过分关注反映主题特征的承上启下作用,虽然能够有助于中文摘要自动生成的主题转换,但是没有体现每一个簇的中心性的问题。本专利技术提出一种文档主题词自动提取方法,本专利技术采用的技术方案是:一种文档主题词自动提取方法,包括以下步骤:S1.对文档进行预处理,包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集;S2.利用词汇之间的关联关系衡量文本主题词关联度;S3.构建词汇的网络空间模型,词的空间模型以词为节点,以关联性作为边的无向派系网络;S4.采用派系过滤算法,即CPM算法对词的网络空间模型图进行重叠社区划分;S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系;S42.构建基于词间关联性的带权派系,用派系变异系数来衡量词语关联稳定性;S5.根据S4所得的所有带权派系,建立带权派系重叠矩阵;S6.根据输入值k和带权派系重叠矩阵,构建带权派系连接矩阵,产生k个主题划分结果,即形成k个主题簇,构成文章表达的特定主题;S7.根据划分结果找到不同主题簇之间的连接特征,找到不同主题簇之间的连接词;S8.找到主题簇里面的主题词,通过对主题簇进行提取,根据S2所得的主题簇里面的关联度求出主题簇内的连接权重,比较主题簇里面的各个词语的连接性得出该主题簇的主题词,主题簇内连接权重最大的词语即为该主题簇的主题词;优选的,所述的S2包括以下步骤;S21.计算文档中每一个词的相对共现度C:其中wx表示词语a,wy表示词语b,(wx|wy)在一定的滑动窗口下表示在词语“词语b”出现的情况下,出现词语“词语a”的概率;S22.用互信息进行衡量词与词之间的相似性PMI:其中x表示词语c,y表示词语d;p(x)表示词语c在一段文本中出现的概率、p(x,y)表示在一段文本中词语c与词语d同时出现的概率、p(y|x)表示在一段文本中出现词语c的情况下出现词语d的概率、p(x|y)表示在一段文本中出现词语d的情况下出现词语c的概率;S23.根据S21所得的共现度与S22互信息定义,两个词汇之间的关联性S为:S(x,y)=αC(x,y)+βPMI(x,y)(4)其中,α和β是人为设定的参数,两者之和为1。优选的,所述的S4包括以下步骤:S411.按照迭代递归的方法找到满足度数要求的网络的大小不同派系,首先根据预知的k,提取复杂网络中度数大于k-1的节点,k为先验系数,缩小派系搜索过程所花费的时间;S412.寻找度数最大值为g-1的节点集合:从该集合中随机一个节点出发,找到包含该节点大小为g-1的派系后,g为当前网络中度的最大值,删除该节点以及其连接的边,再另选一个节点直至集合中没有节点为止;S413.g-2派系、g-3派系…、k派系的寻找方法按照上述步骤进行,当g=k时,停止寻找;S421.根据上述的方法找到了满足度数要求的大小不同的派系之后,引用词间关联性;接着根据关联性的公式计算每一个大小不同派系的关联性变异系数c.v;结合法卡斯的派系强度函数公式计算每一类派系的关联性变异系数阈值C.V*;如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于关联性变异系数的带权派系,否则,则忽略该k派系;该方法设置派系关联性变异系数的阈值C.V*,把派系变异系数大于该阈值的派系忽略掉,缩小整个算法的搜索空间,改进了空间网络的社团划分的流程,大大提升算法的速度。S422.采用变异系数来衡量词语之间的关联度的稳定性,其公式为:其中,σ表示该派系中权重的标准差,μ表示该派系中权重的平均值;S423.在求出每一个派系的变异系数后,借助法卡斯的派系强度函数计算派系权重变异系数阈值C.V*,其公式为:其中,c为派系集合,u和v表示派系,k表示集合中派系的个数;如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于变异系数的带权派系,否则,则忽略该k派系。优选的,还包括步骤S9.根据对主题词与连接词进行分析,获取主题词和连接词中关键句子的位置,提取相关句子生成文本摘要。优选的,所述的步骤S9步骤中,根据对主题词与连接词进行分析,提取相关句子后借助开源摘要自动生成算法——Sequence-to-Sequence序列,生成文本摘要。优选的,所述S8的连接权重为主题簇内一词语与其他词语关联度之和。优选的,所述的滑动窗口大小为4个词汇。与现有技术相比,本专利技术技术方案的有益效果是:(1)提出了一种主题词自动提取的方法;是一种非监督的方法,全程不需要人为干涉,从主题的划分还是关联词的寻找,都是根据文章自身的词语特征形成的。(2)提出了关联度来衡量主题词的关系,这种关联度充分考虑了共现度和词语间的互信息两种情况。(3)采用重叠矩阵来划分文章的主题,CPM作为社团划分的主流,采用,用派系变异系数来衡量词语关联的稳定性,更有助于划分有效稳定的主题。(4)采用重叠社区划分后结果的不同主题簇之间的连接词来反映不同主题之间的连接特征,这种连接特很好反映不同主题之间的承上启下的作用,有助于文章摘要顺序的生成。附图说明图1是本专利技术提供的一种文档主题词自动提取方法的流程示意图。图2是实施例1中通过共现度和互信息描述关键词的示意图。图3是实施例2中滑动窗口在文档中移动的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,仅用于示例性说明,不能理解为对本专利的限制。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1本实施例提供一种文档主题词自动提取方法,请参考图1,包括以下步骤:S1.对文档进行预处理,包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集;S2.利用词汇之间的关联关系衡量文本主题词关联度;S21.计算文档中每一个词的相对共现度C:其中wx表示词语a,wy表示词语b,(wx|wy)在一本文档来自技高网...

【技术保护点】
1.一种文档主题词自动提取方法,其特征在于,包括以下步骤:S1.对文档进行预处理,包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集;S2.利用词汇之间的关联关系衡量文本主题词关联度;S3.构建词汇的网络空间模型,词的空间模型以词为节点,以关联性作为边的无向派系网络;S4.采用派系过滤算法对词的网络空间模型图进行重叠社区划分;S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系;S42.构建基于词间关联性的带权派系,用派系变异系数来衡量词语关联稳定性;S5.根据S4所得的所有带权派系,建立带权派系重叠矩阵;S6.根据输入值k和带权派系重叠矩阵,构建带权派系连接矩阵,产生k个主题划分结果,即形成k个主题簇,构成文章表达的特定主题;S7.根据划分结果找到不同主题簇之间的连接特征,找到不同主题簇之间的连接词;S8.找到主题簇里面的主题词,通过对主题簇进行提取,根据S2所得的主题簇里面的关联度求出主题簇内的连接权重,比较主题簇里面的各个词语的连接性得出该主题簇的主题词,主题簇内连接权重最大的词语即为该主题簇的主题词。

【技术特征摘要】
1.一种文档主题词自动提取方法,其特征在于,包括以下步骤:S1.对文档进行预处理,包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集;S2.利用词汇之间的关联关系衡量文本主题词关联度;S3.构建词汇的网络空间模型,词的空间模型以词为节点,以关联性作为边的无向派系网络;S4.采用派系过滤算法对词的网络空间模型图进行重叠社区划分;S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系;S42.构建基于词间关联性的带权派系,用派系变异系数来衡量词语关联稳定性;S5.根据S4所得的所有带权派系,建立带权派系重叠矩阵;S6.根据输入值k和带权派系重叠矩阵,构建带权派系连接矩阵,产生k个主题划分结果,即形成k个主题簇,构成文章表达的特定主题;S7.根据划分结果找到不同主题簇之间的连接特征,找到不同主题簇之间的连接词;S8.找到主题簇里面的主题词,通过对主题簇进行提取,根据S2所得的主题簇里面的关联度求出主题簇内的连接权重,比较主题簇里面的各个词语的连接性得出该主题簇的主题词,主题簇内连接权重最大的词语即为该主题簇的主题词。2.根据权利要求1所述的文档主题词自动提取方法,其特征在于,所述的S2包括以下步骤;S21.计算文档中每一个词的相对共现度C:其中wx表示词语a,wy表示词语b,(wx|wy)在一定的滑动窗口下表示在词语“词语b”出现的情况下,出现词语“词语a”的概率;S22.用互信息进行衡量词与词之间的相似性PMI:其中x表示词语c,y表示词语d;p(x)表示词语c在一段文本中出现的概率、p(x,y)表示在一段文本中词语c与词语d同时出现的概率、p(y|x)表示在一段文本中出现词语c的情况下出现词语d的概率、p(x|y)表示在一段文本中出现词语d的情况下出现词语c的概率;S23.根据S21所得的共现度与S22互信息定义,两个词汇之间的关联性S为:S(x,y)=αC(x,y)+βPMI(x,y)(4)其中,α和β是人为设定的参数,两者之和为1。3.根据权利要求2所述...

【专利技术属性】
技术研发人员:陈雍军
申请(专利权)人:中国电子科技集团公司第七研究所
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1