当前位置: 首页 > 专利查询>辽宁大学专利>正文

基于词频和语义的图模型文本摘要生成方法技术

技术编号:24091471 阅读:51 留言:0更新日期:2020-05-09 08:16
一种基于词频和语义的图模型文本摘要生成方法。其步骤如下:1)将文本中的句子进行分词,并进行词性标注。2)对词项进行过滤,只保留特定词性的词项。3)利用Word2Vec模型和BM25算法训练词向量,形成特征词向量集,进而表示句子,构建句子‑词文本矩阵。4)通过文本矩阵,构建文本无向图模型。5)利用TextRank算法进行句子结点权值的迭代计算,直至收敛,选取TOP‑K句子生成文本摘要。6)实验结果表明,相比传统鉴于文本单一词频特征和基于文本语义特征的文本自动摘要方法,本文方法在最佳调节因子组合下,取得了更高的Rouge值,证明本文方法有效整合了文本词频和语义特征,进而通过基于上下文信息的TextRank算法提高了摘要生成的准确率。

Graph model text summarization generation method based on word frequency and semantics

【技术实现步骤摘要】
基于词频和语义的图模型文本摘要生成方法
本专利技术涉及一种文本摘要生成方法,尤其是一种基于词频和语义的图模型文本摘要生成方法。
技术介绍
文本摘要生成常用BM25算法或传统神经网络算法来评价搜索词和文档之间相关性,然而用在文本摘要生成的文本相似度的选择阶段会凸显出如下问题,使文本的相似度在性能上有欠缺。1.传统神经网络算法需要语料库大,训练时间长,生成摘要较慢,应用性差。采用浅层神经网络,对词的维度进行压缩,可以缩短训练时间,生成摘要的速度更快。2.以前有监督的算法,需要训练语料库,进行人工标注语料等,不实用;相对于监督学习,无监督学习使用的是没有标签的数据。机器会主动学习数据的特征,并将它们分为若干类别,相当于形成未知的标签。以前有监督的算法需要的语料库较大时,训练时间长,生成摘要较慢,应用性差。无监督自动文摘无需训练语料库,也不需要学习过程,可以直接使用。3.基于机器学习的摘要生成方法通过训练语料库能充分获得词和句子的语义信息,但此类方法过于依赖包含多目标词的语料库,且只适用于处理短文本,过长的文本输入序列会导致学习本文档来自技高网...

【技术保护点】
1.基于词频和语义的图模型文本摘要生成方法,其特征在于,其步骤为:/n1)分词:将每个句子进行分词并进行词性标注;/n2)过滤:进行停用词过滤、低频词过滤和词性过滤;/n3)词向量训练:/n3.1)采用BM25算法,利用词频的信息表现一个词的词向量的词频信息;/n3.2)通过Word2Vec模型,利用语义信息来表示一个词的词向量的语义信息;/n3.3)利用两个调节因子α和β,调整两个算法得到的特征词向量的权值比重,然后进行相加得到最后的特征词向量,最后用特征词向量集表示文本的每一个句子,构建文本矩阵;/n4)构建文本无向图模型:通过步骤3.3)中的文本矩阵,以句子作为图的结点,以句子间的相似关...

【技术特征摘要】
1.基于词频和语义的图模型文本摘要生成方法,其特征在于,其步骤为:
1)分词:将每个句子进行分词并进行词性标注;
2)过滤:进行停用词过滤、低频词过滤和词性过滤;
3)词向量训练:
3.1)采用BM25算法,利用词频的信息表现一个词的词向量的词频信息;
3.2)通过Word2Vec模型,利用语义信息来表示一个词的词向量的语义信息;
3.3)利用两个调节因子α和β,调整两个算法得到的特征词向量的权值比重,然后进行相加得到最后的特征词向量,最后用特征词向量集表示文本的每一个句子,构建文本矩阵;
4)构建文本无向图模型:通过步骤3.3)中的文本矩阵,以句子作为图的结点,以句子间的相似关系作为结点之间的边,利用余弦定理得到句子间的相似度作为图模型中对应边的权重,构建文本无向图模型;
5)摘要生成:利用TextRank算法对句子结点权值进行迭代计算,直至收敛,选取TOP-K句子作为文本摘要。


2.根据权利要求1所述的基于词频和语义的图模型文本摘要生成方法,其特征在于,所述的步骤3.1)中具体方法为:
1)BM25算法的公式如下:



其中,Q为查询语句,qi为对Q的分词;d为整篇文档;
Wi为判断一个词与一个文档的相关性的权重;公式如下:



其中,N为文本中所有的句子数量,n(qi)为包含了qi的句子数量;
R(qi,d)为词qi与文档d的相关性得分;






其中:k1,k2,b为调节因子,k1=2,b=0.75;fi为在d中的出现频率;qfi为在Q中的出现频率;dl为文档d的长度;avgdl为文档中句子的平均长度;通过参数b调整文档长度对相关性影响的大小,b越大,词的长度对相关性得分的影响越大,反之越小;
BM25算法的相关性得分公式可总结为:





3.根据权利要求1所述的基于词频和语义的图模型文本摘要生成方法,其特征在于,所述的步骤3.2)中,具体方法为:
3.2.1)首先,对中文语料库要进行分词处理;
3.2.2)将每一个词进行one-hot编码得到预处理后的语料库,将每个词的one-hot编码作为Word2Vec的输入;
3.2.3)通过Word2Vec训练词向量,...

【专利技术属性】
技术研发人员:王青松马腾张衡张鑫琪王军接磊刘庆楠王雪彤祝慷骏
申请(专利权)人:辽宁大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1