一种文档主题词自动提取方法技术

技术编号：21060363 阅读：31 留言：0更新日期：2019-05-08 07:04

本发明专利技术提供一种文档主题词自动提取方法的实现方法是一种非监督的方法，全程不需要人为干涉，从主题的划分还是关联词的寻找，都是根据文章自身的词语特征形成的；本发明专利技术提出了关联度来衡量主题词的关系，这种关联度充分考虑了共现度和词语间的互信息两种情况；本发明专利技术采用重叠矩阵来划分文章的主题，CPM算法作为社团划分的主流，用派系变异系数来衡量词语关联的稳定性，更有助于划分有效稳定的主题；采用重叠社区划分后结果的不同主题簇之间的连接词来反映不同主题之间的连接特征，这种连接特很好反映不同主题之间的承上启下的作用，有助于文章摘要顺序的生成。

An Automatic Extraction Method of Document Thesaurus

全部详细技术资料下载

【技术实现步骤摘要】
一种文档主题词自动提取方法
本专利技术涉及进信息处理领域，更具体地，涉及一种文档主题词自动提取方法。
技术介绍
采用数据技术和计算机算法提取文档中具有特征意义和概括性质的主题词，即代替人脑进行内容的初步审阅，是编辑出版行业一直以来的需要。目前的文档主题词提取技术一般仅仅利用词语之间的关联度来衡量文本主题词关联度，在一定程度上体现该文档的主题词的重要性，但是它仅仅是从词语的本身来衡量，忽略了词语相邻之间的关系，以及词语与相邻词语出现的稳定性。共现度、互信息等关联度，它们仅仅关注词语在本文的一个句子或者一段话中一起出现的概率或者相似性，并没有从本质上衡量词语的相邻关系以及相邻关系的稳定性。或者采用关联度的主题词划分不能反映不同主题特征的承上启下作用，能够有助于中文摘要自动生成的主题转换。过分关注反映主题特征的承上启下作用，虽然能够有助于中文摘要自动生成的主题转换，但是没有体现每一个簇的中心性，也就是每一个主题的几个重要特征词。
技术实现思路
为解决现有文档主题词自动提取技术仅利用词语间的关联度来衡量文本主题词关联度，在一定程度上体现该文档的主题词的重要性，但是它仅仅是从词语的本身来衡量，忽略了词语相邻之间的关系，以及词语与相邻词语出现的稳定性或过分关注反映主题特征的承上启下作用，虽然能够有助于中文摘要自动生成的主题转换，但是没有体现每一个簇的中心性的问题。本专利技术提出一种文档主题词自动提取方法，本专利技术采用的技术方案是：一种文档主题词自动提取方法，包括以下步骤：S1.对文档进行预处理，包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集；S2....

【技术保护点】
1.一种文档主题词自动提取方法，其特征在于，包括以下步骤：S1.对文档进行预处理，包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集；S2.利用词汇之间的关联关系衡量文本主题词关联度；S3.构建词汇的网络空间模型，词的空间模型以词为节点，以关联性作为边的无向派系网络；S4.采用派系过滤算法对词的网络空间模型图进行重叠社区划分；S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系；S42.构建基于词间关联性的带权派系，用派系变异系数来衡量词语关联稳定性；S5.根据S4所得的所有带权派系，建立带权派系重叠矩阵；S6.根据输入值k和带权派系重叠矩阵，构建带权派系连接矩阵，产生k个主题划分结果，即形成k个主题簇，构成文章表达的特定主题；S7.根据划分结果找到不同主题簇之间的连接特征，找到不同主题簇之间的连接词；S8.找到主题簇里面的主题词，通过对主题簇进行提取，根据S2所得的主题簇里面的关联度求出主题簇内的连接权重，比较主题簇里面的各个词语的连接性得出该主题簇的主题词，主题簇内连接权重最大的词语即为该主题簇的主题词。

【技术特征摘要】
1.一种文档主题词自动提取方法，其特征在于，包括以下步骤：S1.对文档进行预处理，包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集；S2.利用词汇之间的关联关系衡量文本主题词关联度；S3.构建词汇的网络空间模型，词的空间模型以词为节点，以关联性作为边的无向派系网络；S4.采用派系过滤算法对词的网络空间模型图进行重叠社区划分；S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系；S42.构建基于词间关联性的带权派系，用派系变异系数来衡量词语关联稳定性；S5.根据S4所得的所有带权派系，建立带权派系重叠矩阵；S6.根据输入值k和带权派系重叠矩阵，构建带权派系连接矩阵，产生k个主题划分结果，即形成k个主题簇，构成文章表达的特定主题；S7.根据划分结果找到不同主题簇之间的连接特征，找到不同主题簇之间的连接词；S8.找到主题簇里面的主题词，通过对主题簇进行提取，根据S2所得的主题簇里面的关联度求出主题簇内的连接权重，比较主题簇里面的各个词语的连接性得出该主题簇的主题词，主题簇内连接权重最大的词语即为该主题簇的主题词。2.根据权利要求1所述的文档主题词自动提取方法，其特征在于，所述的S2包括以下步骤；S21.计算文档中每一个词的相对共现度C：其中wx表示词语a，wy表示词语b，(wx|wy)在一定的滑动窗口下表示在词语“词语b”出现的情况下，出现词语“词语a”的概率；S22.用互信息进行衡量词与词之间的相似性PMI：其中x表示词语c，y表示词语d；p(x)表示词语c在一段文本中出现的概率、p(x，y)表示在一段文本中词语c与词语d同时出现的概率、p(y|x)表示在一段文本中出现词语c的情况下出现词语d的概率、p(x|y)表示在一段文本中出现词语d的情况下出现词语c的概率；S23.根据S21所得的共现度与S22互信息定义，两个词汇之间的关联性S为：S(x,y)＝αC(x,y)+βPMI(x,y)(4)其中，α和β是人为设定的参数，两者之和为1。3.根据权利要求2所述...

【专利技术属性】
技术研发人员：陈雍军，
申请(专利权)人：中国电子科技集团公司第七研究所，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人