利用分布式语义信息的论文标题生成方法技术

技术编号:14602686 阅读:69 留言:0更新日期:2017-02-09 09:39
本发明专利技术涉及一种利用分布式语义信息的论文标题生成方法,属于自然语言处理领域。本发明专利技术首先利用TextRank算法获取论文摘要的前k个关键词,训练GloVe模型得到词向量,对提取的关键词进行向量初始化,然后利用基于长短期记忆单元的循环神经网络标题生成模型获取标题,最后进行标题构建。本发明专利技术利用深度学习的方法挖掘标题的深层语义信息,使生成的标题可读性强,且符合标题的语义规则。

【技术实现步骤摘要】

本专利技术涉及一种利用分布式语义信息的论文标题生成方法,属于自然语言处理领域。
技术介绍
标题是一篇文章的主题思想。由于处理大批量文章是一个繁琐和耗时的过程。因此,自动生成标题技术可以让人们快速掌握信息,对其研究具有十分重要的现实意义。标题生成方法主要有两类:抽取式生成标题方法和摘要式生成标题方法。1.抽取式生成标题方法:抽取式生成标题方法是在候选集中选择一组突出的句子,然后利用句子压缩技术来实现标题生成。(1)如Dorr等人提出一种语义分析和修剪相结合的标题生成方法,该方法使用语言动机的启发作为引导,选出潜在的新闻标题。(2)Zajic等人提出一种基于噪声信道模型生成标题的统计方法,该方法利用噪声信道模型生成由标题词或标题词形态的变体组成的标题。(3)Schwartz等人提出一种无监督主题发现的方法,该方法将大量未标注语料作为输入,自动创建一组有意义名字的主题模型。(4)Dorr和Zajic等人提出一种修剪和无监督主题发现的结合方法,该组合方法生成的标题往往比一个完全流利的句子更简洁,并弥补主题和所发生的事实描述不会出现在原来故事的同一个句子中。抽取式生成标题方法可以产生更具可读性的标题。然而,抽取生成标题方法得到的模型所含的信息量较少,一些重要的成分在修剪的过程中可能被错误地删除掉。2.摘要式生成标题方法:摘要式生成标题的方法是选择一组信息量大的词组作为候选,然后利用句子合成技术来实现标题生成。(1)如Soricut等人提出一种生成摘要式标题的WIDL-expression,利用该表达式可以将相关的文本信息转换成符合一定结构特征的标题。(2)Xu等人提出一种利用新的词汇特征来进行关键词提取和标题生成的方法,该方法从维基百科搜索结果的文本集中提取输入链、输出链、类别和资讯信息来推导出一组反映文本背景信息的新的词汇特征,新推出的词汇特征能够为输入文档中传统词汇补充更明确的信息,有助于更好地提取关键词和生成标题。(3)Woodsend等人提出用准同步语法生成标题,利用该方法融合PCFG句法树和依赖图得到基于短语表示的文本,在满足长度、主题覆盖和语法约束的基础上训练生成准同步模型,实现标题生成。摘要式生成标题的方法使用词组作为基本处理单元,这种方法生成标题能解决稀疏的问题。然而,对于摘要式标题来说,由词组合成的句子包含较少的语法信息,因此生成的标题难以符合语义规则,不能确保标题的可读性。综上所述,对于标题生成这一应用场景,抽取式方法生成的标题包含的信息量较少,摘要式方法生成的标题难以符合语义规则,由此看出,利用现有方法生成的标题无法同时满足信息量大且符合语义规则这两个条件。
技术实现思路
为解决抽取式方法生成的标题信息量少、基于统计学习的摘要式方法生成的标题难以符合语义规则的问题,本专利技术提出一种利用分布式语义信息的论文标题生成方法。本专利技术的技术方案包括如下内容:首先对标题集和摘要进行句子清洗、分词和去除停用词,得到预处理结果;利用TextRank算法对预处理后的摘要进行词权重计算、词权重排序和前k个词选取,得到关键词;选择10万篇包含标题、摘要和正文的论文集训练GloVe(GlobalVectorsforwordrepresentation)模型,得到m维特征的词向量,对预处理的标题集中的词语和提取的关键词进行向量初始化,利用向量初始化后的标题集训练基于长短期记忆(LongShort-termmemory,LSTM)单元的循环神经网络(Recurrentneuralnetwork,RNN)模型,简称为LSTM-RNN模型,得到标题生成模型;将向量初始化后的关键词作为标题生成模型的输入,应用该模型生成相应的论文标题,如图1所示。本专利技术的技术方案是通过如下步骤实现的:步骤1,对标题集进行分词、对摘要进行分词和去除停用词,得到预处理结果。步骤1.1,使用结巴分词系统对标题集和摘要进行分词处理。步骤1.2,在步骤1.1的基础上,去除摘要中的停用词。步骤2,进行关键词提取,包含三个过程,词权重计算、词权重排序和前k个词选取。步骤2.1,词权重计算:利用TextRank算法对摘要中词语的权重进行计算,比较权重的大小,词语权重计算方法为:W(Vi)=(1-d)+d*ΣVj∈In(Vi)wjiΣVk∈Out(vj)wjkW(Vj)---(1)]]>其中,Vi表示第i个词;wji表示点Vi到点Vj连接的权重;Out(Vj)表示从点Vj指出的所有Vj的集合;In(Vj)表示指向点Vj的所有边的集合;W(Vi)表示第i个词的权重;d是阻尼因数,表示某一特定点指向其他任意点的概率,取值范围为0到1之间。步骤2.2,根据词权重的计算结果,首先把权重最高的词语放入关键词序列中,按权重递减的顺序依次选取候选词语与关键词序列中的词语的权重进行比较,若该候选词语和关键词序列中的任意一个词语是同义词,那就选取下一个候选词语和关键词序列中的词语的权重比较;若不是同义词,则把这个词语放入关键词序列中,完成对该词在摘要中重要程度的排序。步骤2.3,选择关键词序列中前k个词语为关键词,其中k的选取依据论文标题的平均长度以及标题中关键词的平均长度确定。步骤3,进行标题生成,包含两个基本的过程,训练过程和标题生成过程。步骤3.1,选择10万篇包含标题、摘要和正文的论文集训练GloVe模型,得到论文集中所有词语的m维特征的词向量,利用得到的词向量对标题集中的词语和提取的关键词进行向量初始化,其中m的取值范围一般为[50,1000],具体依据GloVe模型的应用效果确定,本专利技术中m取值为100。步骤3.2,利用步骤3.1中向量初始化后的标题集训练LSTM-RNN模型,得到标题生成模型。步骤3.3,应用步骤3.2训练得到的标题生成模型,将步骤3.1中初始化的关键词的词向量输入模型中,得到相应的论文标题。首先,将步骤3.1中初始化后的关键词的词向量作为输入,应用该模型生成下一个词语的词向量,并将生成的词向量与步骤3.1中利用GloVe模型生成的词向量进行向量相似度的计算,得到该词向量所对应的词语;然后,将该词语的词向量作为标题生成模型的输入,预测下一个生成的词语,以此类推,直到生成标题结束符的词向量,即表示标题生成结束;最后,将关键词与基于关键词生成的词语拼接在一起作为标题生成模型的输出,从而得到相应的论文标题。有益效果相比于抽取式生成标题的方法,本专利技术生成的标题信息量丰富。相比于基于统计学习的摘要式生成标题的方法,本专利技术生成的标题包含更多语义信息,符合语义规则。附图说明图1为本专利技术的论文标题生成方法原理图;图2为具体实施方式中论文标题实验结果图。具体实施方式为了更好的说明本专利技术的目的和优点,下面结合附图和实施例对本专利技术方法的实施方式做进一步详细说明。以摘要为输入,设计并部署1项测试:针对500条论文摘要生成标题的测试。实验采用知网上的10万篇包含标题、摘要和正文的论文作为训练GloVe模型的训练语料,并选取其中的2万条标题作为标题生成模型的训练语料,选取其中的500篇摘要进行生成标题的测试语料。实验以ROUGE值和人工评价标准作为评价指标:1.ROUGE值评价ROUGE方法通过计算生成标题和标准本文档来自技高网
...

【技术保护点】
利用分布式语义信息的论文标题生成方法,所述方法包括以下步骤:步骤1,对标题集和摘要进行句子清洗、分词和去除停用词得到预处理后的结果;步骤2,对预处理后的摘要提取关键词,利用TextRank算法,计算摘要中词语的权重,根据词语的权重对词语进行排序,选取前k个词语作为摘要的关键词;步骤3,利用预处理后的标题集训练标题生成模型,在步骤2的基础上,将提取的关键词输入到该模型中,得到相应的论文标题,具体步骤如下:步骤3.1,选择10万篇包含标题、摘要和正文的论文集来训练GloVe(Global Vectors for word representation)模型,得到论文集中所有词语的m维特征词向量,利用得到的词向量对步骤1中预处理后的标题集中的词语和步骤2中提取的关键词进行向量初始化,其中m的取值范围为[50,1000],可根据应用效果选择最佳值;步骤3.2,利用向量初始化后的标题集训练基于长短期记忆(Long‑Short Term Memory,LSTM)单元的循环神经网络(Recurrent neural network,RNN)模型,得到标题生成模型;步骤3.3,将向量初始化后的关键词作为标题生成模型的输入,应用该模型得到相应的论文标题。...

【技术特征摘要】
1.利用分布式语义信息的论文标题生成方法,所述方法包括以下步骤:步骤1,对标题集和摘要进行句子清洗、分词和去除停用词得到预处理后的结果;步骤2,对预处理后的摘要提取关键词,利用TextRank算法,计算摘要中词语的权重,根据词语的权重对词语进行排序,选取前k个词语作为摘要的关键词;步骤3,利用预处理后的标题集训练标题生成模型,在步骤2的基础上,将提取的关键词输入到该模型中,得到相应的论文标题,具体步骤如下:步骤3.1,选择10万篇包含标题、摘要和正文的论文集来训练GloVe(GlobalVectorsforwordrepresentation)模型,得到论文集中所有词语的m维特征词向量,利用得到的词向量对步骤1中预处理后的标题集中的词语和步骤2中提取的关键词进行向量初始化,其中m的取值范围为[50,1000],可根据应用效果选择最佳值;步骤3.2,利用向量初始化后的标题集训练基于长短期记忆(Long-ShortTermMemory,LSTM)单元的循环神经网络(Recurrentneuralnetwork,RNN)模型,得到标题生成模型;步骤3.3,将向量初始化后的关键词作为标题生成模型的输入,应用该模型得到相应的论文标题。2.根据权利要求1所述的方法,其特征在于,步骤2中提取关键词的具体步骤包括:步骤2.1,利用TextRank算法对摘要中词语的权重进行计算,词语权重计算方法为W(Vi)=(1-d)+d*Σvj∈In(Vi)wjiΣVk∈Out(Vj)wjkW(Vj)---(1)]]>其中,Vi表示第i个词语;wji表示点Vi到点Vj连接的权重;Out(Vj)表示从点Vj指出的所有Vj的集合;In(Vi)表...

【专利技术属性】
技术研发人员:罗森林潘丽敏王睿怡吴舟婷
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1