利用分布式语义信息的论文标题生成方法技术

技术编号：14602686 阅读：69 留言：0更新日期：2017-02-09 09:39

本发明专利技术涉及一种利用分布式语义信息的论文标题生成方法，属于自然语言处理领域。本发明专利技术首先利用TextRank算法获取论文摘要的前k个关键词，训练GloVe模型得到词向量，对提取的关键词进行向量初始化，然后利用基于长短期记忆单元的循环神经网络标题生成模型获取标题，最后进行标题构建。本发明专利技术利用深度学习的方法挖掘标题的深层语义信息，使生成的标题可读性强，且符合标题的语义规则。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种利用分布式语义信息的论文标题生成方法，属于自然语言处理领域。
技术介绍
标题是一篇文章的主题思想。由于处理大批量文章是一个繁琐和耗时的过程。因此，自动生成标题技术可以让人们快速掌握信息，对其研究具有十分重要的现实意义。标题生成方法主要有两类：抽取式生成标题方法和摘要式生成标题方法。1.抽取式生成标题方法：抽取式生成标题方法是在候选集中选择一组突出的句子，然后利用句子压缩技术来实现标题生成。(1)如Dorr等人提出一种语义分析和修剪相结合的标题生成方法，该方法使用语言动机的启发作为引导，选出潜在的新闻标题。(2)Zajic等人提出一种基于噪声信道模型生成标题的统计方法，该方法利用噪声信道模型生成由标题词或标题词形态的变体组成的标题。(3)Schwartz等人提出一种无监督主题发现的方法，该方法将大量未标注语料作为输入，自动创建一组有意义名字的主题模型。(4)Dorr和Zajic等人提出一种修剪和无监督主题发现的结合方法，该组合方法生成的标题往往比一个完全流利的句子更简洁，并弥补主题和所发生的事实描述不会出现在原来故事的同一个句子中。抽取式生成标题方法可以产生更具可读性的标题。然而，抽取生成标题方法得到的模型所含的信息量较少，一些重要的成分在修剪的过程中可能被错误地删除掉。2.摘要式生成标题方法：摘要式生成标题的方法是选择一组信息量大的词组作为候选，然后利用句子合成技术来实现标题生成。(1)如Soricut等人提出一种生成摘要式标题的WIDL-expression，利用该表达式可以将相关的文本信息转换成符合一定结构特征的标题。(2)Xu等人...

【技术保护点】
利用分布式语义信息的论文标题生成方法，所述方法包括以下步骤：步骤1，对标题集和摘要进行句子清洗、分词和去除停用词得到预处理后的结果；步骤2，对预处理后的摘要提取关键词，利用TextRank算法，计算摘要中词语的权重，根据词语的权重对词语进行排序，选取前k个词语作为摘要的关键词；步骤3，利用预处理后的标题集训练标题生成模型，在步骤2的基础上，将提取的关键词输入到该模型中，得到相应的论文标题，具体步骤如下：步骤3.1，选择10万篇包含标题、摘要和正文的论文集来训练GloVe(Global Vectors for word representation)模型，得到论文集中所有词语的m维特征词向量，利用得到的词向量对步骤1中预处理后的标题集中的词语和步骤2中提取的关键词进行向量初始化，其中m的取值范围为[50，1000]，可根据应用效果选择最佳值；步骤3.2，利用向量初始化后的标题集训练基于长短期记忆(Long‑Short Term Memory，LSTM)单元的循环神经网络(Recurrent neural network，RNN)模型，得到标题生成模型；步骤3.3，将向量初始化后的关键词作...

【技术特征摘要】
1.利用分布式语义信息的论文标题生成方法，所述方法包括以下步骤：步骤1，对标题集和摘要进行句子清洗、分词和去除停用词得到预处理后的结果；步骤2，对预处理后的摘要提取关键词，利用TextRank算法，计算摘要中词语的权重，根据词语的权重对词语进行排序，选取前k个词语作为摘要的关键词；步骤3，利用预处理后的标题集训练标题生成模型，在步骤2的基础上，将提取的关键词输入到该模型中，得到相应的论文标题，具体步骤如下：步骤3.1，选择10万篇包含标题、摘要和正文的论文集来训练GloVe(GlobalVectorsforwordrepresentation)模型，得到论文集中所有词语的m维特征词向量，利用得到的词向量对步骤1中预处理后的标题集中的词语和步骤2中提取的关键词进行向量初始化，其中m的取值范围为[50，1000]，可根据应用效果选择最佳值；步骤3.2，利用向量初始化后的标题集训练基于长短期记忆(Long-ShortTermMemory，LSTM)单元的循环神经网络(Recurrentneuralnetwork，RNN)模型，得到标题生成模型；步骤3.3，将向量初始化后的关键词作为标题生成模型的输入，应用该模型得到相应的论文标题。2.根据权利要求1所述的方法，其特征在于，步骤2中提取关键词的具体步骤包括：步骤2.1，利用TextRank算法对摘要中词语的权重进行计算，词语权重计算方法为W(Vi)=(1-d)+d*Σvj∈In(Vi)wjiΣVk∈Out(Vj)wjkW(Vj)---(1)]]>其中，Vi表示第i个词语；wji表示点Vi到点Vj连接的权重；Out(Vj)表示从点Vj指出的所有Vj的集合；In(Vi)表...

【专利技术属性】
技术研发人员：罗森林，潘丽敏，王睿怡，吴舟婷，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人