基于LDA和词向量的文档关键词抽取方法和装置制造方法及图纸

技术编号:21141299 阅读:21 留言:0更新日期:2019-05-18 05:13
本发明专利技术涉及自然语言处理和深度学习技术领域,特别涉及一种基于LDA和词向量的文档关键词抽取方法,包括以下步骤:(A)使用标题判别器判断文档标题和内容是否相符,如果相符,则执行下一步;(B)计算文档中主题的权重和文档中词汇对主题的权重;(C)计算文档中词汇的权重,并根据权重值大小排序,生成文档的候选关键词集合;(E)将词汇映射到词向量空间中;(F)计算词向量空间中词向量之间的距离,并按照距离排序,选择排序后的前M个词汇作为文档的关键词;还公开一种抽取装置。本方法相比于传统的方法所提取的文档关键词精度高,可靠性强,且过滤掉了“标题党”文档,避免了噪声数据的干扰,进一步提高了准确度。

【技术实现步骤摘要】
基于LDA和词向量的文档关键词抽取方法和装置
本专利技术涉及自然语言处理和深度学习
,特别涉及一种基于LDA和词向量的文档关键词抽取方法和装置。
技术介绍
关键词能够简洁准确地描述文本的内容,一般由数个词和短语构成。关键词抽取也称为关键词标注,是指从文本或文本集合中抽取出若干有代表性的词或短语,用以反映文本的主要语义信息,是信息时代人们从海量文档数据中快速掌握感兴趣信息的重要的途径。互联网时代的到来为关键词提取工作提出了新的要求,所提取的关键词应该具备以下三个特点:显著性,可读性和全面性。显著性是指所提取出的关键词应该反映文档的核心内容,例如:在双语语料库价值介绍的文档中提取出“机器翻译”,它并非此文档讨论的核心,不符合显著性的特点,因此不能被选取作为此文档的关键词;可读性指的是关键词本身应该有完全含义的词或短语,即含义明确,具有实际的意义;全面性是指所提取出的关键词必须全面反映文档的所有核心主题,不能只集中于某个主题而忽略了其他主题,且关键词或短语不能出现冗余。关键词提取方法可分为有监督方法和无监督方法两种,主要区别在于是否需要带标签的训练文本集合。有监督关键词抽取方法的核心是用标注好的训练文本集合来进行训练关键词抽取器,这种方法可以看成二分类问题,即训练时提取关键词特征构造分类模型,分类时根据模型判断词语是否为关键词。Nguyen等使用显著的形态特征抽取科学文献的关键词;李素建等利用最大熵模型来提取关键词;Treeratpituk等使用随机深林来识别关键词。有监督的方法虽然准确度较高,但标注的训练集耗时耗力,分类器受限于特定领域且存在过拟合问题,因此目前关键词抽取大多采用无监督的方法。无监督的关键词抽取方法主要包括3种:基于统计信息的方法、基于图模型的方法和基于语义的方法。统计方法主要利用词频(TF)、词频逆文档频率(TFIDF)、词性、词语位置、词语同现频率等抽取关键词,Hurst等使用多个语言模型间的KL散度评价短语的信息量。基于图模型的方法是对文本的处理转化成网络图的连续分析,Mihalcea等基于词汇的共现链提出TextRank模型排序关键词;Litvak等将网页排序的HITS算法引入关键词抽取。在基于语义的研究方法中,胡学钢等利用词语在文档中语义联系将文档表示成词汇链的形式抽取关键词。现有的无论是有监督的方法还是无监督的方法,它们都缺乏从文档主题的角度对文档进行显著性、可读性和全面性的综合分析和考察。而现有的基于主题模型的研究,大都通过大规模文档集学习隐含主题。Chen等利用候选关键词在潜在语义索引权重的频率来选择关键词;Liu等根据文档主题和候选关键词主题分布的相似度抽取关键词。这些研究中都存在着一些不足:其一,在主题层次推荐的关键词倾向于文档常用词,无法突出每个文档的核心内容;其二,提取出的主题词汇可能含有其他不相关词汇,造成关键词的偏移;其三,主题相关性最大的同义词或近义词出现,导致推荐的关键词出现冗余,无法实现关键词对文档主题的全面性。
技术实现思路
本专利技术的首要目的在于提供一种基于LDA和词向量的文档关键词抽取方法,提取的精度高、可靠性强。为实现以上目的,本专利技术采用的技术方案为:一种基于LDA和词向量的文档关键词抽取方法,包括以下步骤:(A)使用标题判别器判断文档标题和内容是否相符,如果不相符,则跳过,如果相符,则执行下一步;(B)使用LDA主题模型计算文档中主题的权重;并使用TF-IDF算法计算文档中词汇对主题的权重;(C)根据步骤B的结果计算文档中词汇的权重,并根据权重值按权重从大到小对词汇进行排序,取排序后的N个词汇生成文档的候选关键词集合;(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中;(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离,并按照距离从小到大对关键词集合中词汇进行排序,选择排序后的前M个词汇作为文档的关键词。与现有技术相比,本专利技术存在以下技术效果:本方法采用人工智能技术将词映射为词向量,在数学层面结合主题模型解决语义问题,相比于传统的方法所提取的文档关键词精度高,可靠性强,更能体现文档的主旨内容;且训练了一个神经网络用于判断文档的标题和内容是否相符,过滤掉了“标题党”文档,避免了噪声数据的干扰,进一步提高了准确度。本专利技术的另一个目的在于提供一种基于LDA和词向量的文档关键词抽取装置,提取的精度高、可靠性强。为实现以上目的,本专利技术采用的技术方案为:一种基于LDA和词向量的文档关键词抽取装置,包括标题判别器、候选关键词生成器以及关键词生成器;所述的标题判别器用于判别文档的标题和内容是否相符并将判别结果输出至候选关键词生成器中;候选关键词生成器通过LDA主题模型和IFIDF权值计算生成候选关键词集合;关键词生成器通过词向量空间中的距离从候选关键词集合中挑选出与标题接近的词汇作为文档的关键词后输出。与现有技术相比,本专利技术存在以下技术效果:本装置采用人工智能技术将词映射为词向量,在数学层面结合主题模型解决语义问题,相比于传统的方法所提取的文档关键词精度高,可靠性强,更能体现文档的主旨内容;且训练了一个神经网络用于判断文档的标题和内容是否相符,过滤掉了“标题党”文档,避免了噪声数据的干扰,进一步提高了准确度。附图说明图1是本专利技术的流程图;图2是LDA主题模型生成图;图3是本专利技术的结构框图。具体实施方式下面结合图1至图3,对本专利技术做进一步详细叙述。参阅图1,一种基于LDA和词向量的文档关键词抽取方法,包括以下步骤:(A)使用标题判别器10判断文档标题和内容是否相符,如果不相符,则跳过,如果相符,则执行下一步;(B)使用LDA主题模型计算文档中主题的权重;并使用TF-IDF算法计算文档中词汇对主题的权重;(C)根据步骤B的结果计算文档中词汇的权重,并根据权重值按权重从大到小对词汇进行排序,取排序后的N个词汇生成文档的候选关键词集合;(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中;(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离,并按照距离从小到大对关键词集合中词汇进行排序,选择排序后的前M个词汇作为文档的关键词。本方法采用人工智能技术将词映射为词向量,在数学层面结合主题模型解决语义问题,相比于传统的方法所提取的文档关键词精度高,可靠性强,更能体现文档的主旨内容;且训练了一个神经网络用于判断文档的标题和内容是否相符,过滤掉了“标题党”文档,避免了噪声数据的干扰,进一步提高了准确度。这里的文档可以是新闻,也可以是其他文本、论文等。优选地,所述的步骤C和步骤E之间还包括如下步骤:(D)用同义词词典对候选关键词集合中的词汇进行处理,去掉同义词中权重较低的词汇;所述的步骤E和F中的关键词集合为去同义词后的剩余词汇生成的关键词集合。这里对同义词进行去除,避免了最后抽取的关键字中存在多个相同意思的词汇。标题和内容是否相符的判定方案有很多,本专利技术中优选地,所述的步骤A中,按如下步骤判断文档标题和内容是否相符:(A1)建立一个二分类神经网络,该神经网络由包含两个隐层的多层感知机组成,输出层使用softmax激活函数进行类别的判断;(A2)使用S1条标题和内容相符的语料以及S2条标题和内容不相符的语料对二分类神经网本文档来自技高网
...

【技术保护点】
1.一种基于LDA和词向量的文档关键词抽取方法,其特征在于:包括以下步骤:(A)使用标题判别器(10)判断文档标题和内容是否相符,如果不相符,则跳过,如果相符,则执行下一步;(B)使用LDA主题模型计算文档中主题的权重;并使用TF‑IDF算法计算文档中词汇对主题的权重;(C)根据步骤B的结果计算文档中词汇的权重,并根据权重值按权重从大到小对词汇进行排序,取排序后的N个词汇生成文档的候选关键词集合;(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中;(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离,并按照距离从小到大对关键词集合中词汇进行排序,选择排序后的前M个词汇作为文档的关键词。

【技术特征摘要】
1.一种基于LDA和词向量的文档关键词抽取方法,其特征在于:包括以下步骤:(A)使用标题判别器(10)判断文档标题和内容是否相符,如果不相符,则跳过,如果相符,则执行下一步;(B)使用LDA主题模型计算文档中主题的权重;并使用TF-IDF算法计算文档中词汇对主题的权重;(C)根据步骤B的结果计算文档中词汇的权重,并根据权重值按权重从大到小对词汇进行排序,取排序后的N个词汇生成文档的候选关键词集合;(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中;(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离,并按照距离从小到大对关键词集合中词汇进行排序,选择排序后的前M个词汇作为文档的关键词。2.如权利要求1所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤C和步骤E之间还包括如下步骤:(D)用同义词词典对候选关键词集合中的词汇进行处理,去掉同义词中权重较低的词汇;所述的步骤E和F中的关键词集合为去同义词后的剩余词汇生成的关键词集合。3.如权利要求1或2所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤A中,按如下步骤判断文档标题和内容是否相符:(A1)建立一个二分类神经网络,该神经网络由包含两个隐层的多层感知机组成,输出层使用softmax激活函数进行类别的判断;(A2)使用S1条标题和内容相符的语料以及S2条标题和内容不相符的语料对二分类神经网络进行训练;(A3)将文档标题和内容输入训练好的二分类神经网络中后即可输出判断结果。4.如权利要求2所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤B中,按如下步骤计算文档中主题的权重:(B1)在语料库中选择多篇采样文档来训练LDA主题模型;(B2)将待判别文档代入LDA主题模型中得到每个词汇的隐含主题概率;(B3)通过Gibbs采样方法对隐含主题概率进行处理得到每个词汇的主题标号;(B4)对每个词汇的主题标号进行计数累加后再除以总的词汇数量计算得到文档中每个主题的权重。5.如权利要求4所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤B中,按如下公式计算词汇对主题的权重:式中,WTk,n为词汇ωn对主题Zk的权重,...

【专利技术属性】
技术研发人员:胡泽林曹宜超高翊李淼冯韬付莎李华龙杨选将刘先旺郭盼盼曾伟辉
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1