一种文本信息提取方法、装置、服务器及存储介质制造方法及图纸

技术编号:20485362 阅读:17 留言:0更新日期:2019-03-02 19:10
本发明专利技术实施例提供的一种文本信息提取方法、装置、服务器及存储介质。该方法包括:通过Word2Vec模型确定文本中候选词的词向量,并确定不同词向量之间的相似度值;将词向量作为节点,并根据词向量之间的相似度值构建节点之间的边,得到候选词图集;通过TextRank算法,根据所述候选词图集,确定候选词权重;根据候选词权重,确定文本的关键词。通过采用Word2Vec模型将候选词转换为词向量,能够使候选词通过低维的向量进行表示,提高处理效率,通过相似度值计算,并构建图集,能够形象地反映出候选词之间的关联关系,最后通过TextRank算法计算候选词的权重值,从而更加准确全面地确定文本的关键词。

【技术实现步骤摘要】
一种文本信息提取方法、装置、服务器及存储介质
本专利技术实施例涉及文本提取
,尤其涉及一种文本信息提取方法、装置、服务器及存储介质。
技术介绍
随着互联网的快速发展,网络的功能越来越全面,网络文章信息的量也快速增长。但是,很多网络文章存在较大的篇幅,人们通常需要消耗大量的时间来阅读整篇文章才能获得关键的新闻信息。对于需要提取文章信息的编辑或者网络的监控人员来说,为了获得关键的文章信息,需要花费大量的时间来阅读大篇幅的文章,大大降低了工作效率。因此,文本关键词和文本摘要的自动提取大大的缩短了人们从大篇幅网络文章中获得关键信息的时间,同时也很好的节约了一些公司或者企业的人力成本。目前常用的关键词和摘要提取方法为基于TextRank算法的排序方法,TextRank的基本思想基于谷歌的PageRank算法。TextRank一般模型可以表示为一个有向有权图G=(V,E),由点集合V和边集合E组成,E是V×V的子集。In(Vi)为指向该点Vi的点集合,Out(Vi)为点Vi指向的点集合。点Vi的得分定义如下:其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率。根据上述算法计算权重值需要根据共现关系构建图集,但是这种方法需要事先建立所有点集之间的边,再在其中通过设置的窗口进行选取,得到存在关联关系的边与候选词节点,构建过程繁琐,处理效率低,并且无法得到每条边权重值的相对大小,导致通过TextRank算法得到的关键词或摘要并不全面精准。另外,传统的文字数字化方法形式简单,转换的向量维度较大,不利于计算与处理。
技术实现思路
本专利技术实施例提供了一种文本信息提取方法、装置、服务器及存储介质,解决目前应用TextRank算法进行信息提取过程中关键词或摘要获取不全面精准,处理效率低的问题。第一方面,本专利技术实施例提供了一种文本信息提取方法,包括:通过Word2Vec模型确定文本中候选词的词向量,并确定不同词向量之间的相似度值;将词向量作为节点,并根据词向量之间的相似度值构建节点之间的边,得到候选词图集;通过TextRank算法,根据所述候选词图集,确定候选词权重;根据候选词权重,确定文本的关键词。第二方面,本专利技术实施例提供了一种文本信息提取装置,所述装置包括:第一确定模块,用于通过Word2Vec模型确定文本中候选词的词向量,并确定不同词向量之间的相似度值;第一构建模块,用于将词向量作为节点,并根据词向量之间的相似度值构建节点之间的边,得到候选词图集;第一权重确定模块,用于通过TextRank算法,根据所述候选词图集,确定候选词权重;关键词确定模块,用于根据候选词权重,确定文本的关键词。第三方面,本专利技术实施例提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术实施例中任一种文本信息提取方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术实施例中任一种文本信息提取方法。本专利技术实施例提供的一种文本信息提取方法、装置、服务器及存储介质,通过采用Word2Vec模型将候选词转换为词向量,能够使候选词通过低维的向量进行表示,提高处理效率,通过相似度值计算,并构建图集,能够形象地反映出候选词之间的关联关系,并且通过TextRank算法计算候选词的权重值,从而更加准确全面地确定文本的关键词。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的一种文本信息提取方法流程图;图2是本专利技术实施例二提供的一种文本信息提取方法流程图;图3是本专利技术实施例三提供的一种文本信息提取装置结构示意图;图4是本专利技术实施例四提供的一种服务器结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,以下将参照本专利技术实施例中的附图,通过实施方式清楚、完整地描述本专利技术的技术方案,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1是本专利技术实施例一提供的一种文本信息提取方法流程图。本实施例的技术方案可以适用于对文本中的关键词等关键信息进行提取的情况。该方法可以由文本信息提取装置执行,该装置可由软件和/或硬件的方式实现,并集成于服务器中。该方法具体包括如下操作:S110、通过Word2Vec模型确定文本中候选词的词向量,并确定不同词向量之间的相似度值。具体的,通过网络爬虫爬取文本作为待处理文本,其中,所述文本可以为不同领域的新闻文本。对待处理文本进行数据清理,去掉待处理文本中的非文本信息,例如标点符号,得到纯文本,并将纯文本拆分为完整的句子。采用分词工具对纯文本进行分词并进行词性标注,去掉停用词,留下名词、形容词、动词等常用词作为候选词。可选的,分词工具可以为Ansj分词工具或jieba分词工具。通过Word2Vec模型确定文本候选词的词向量。其中,Word2Vec模型为在确定文本候选词的词向量之前经过训练得到,示例性的,选取大量不同类型的文本数据,例如社会、民生、体育、音乐等新闻文本,进行数据清洗,以及分词得到候选词,并将候选词放入文件中,其中,文件中每一行为一个句子的候选词。采用Word2Vec算法中的模型进行训练,可选的,采用基于hierarchicalsoftmax的CBOW模型或基于hierarchicalsoftmax的Skip-Gram模型进行训练,得到Word2Vec模型。映射得到候选词的词向量之后,确定不同词向量之间的相似度值。其中,相似度值可以用两个不同词向量的余弦值表示,即:其中,a,b表示两个不同的候选词,similarity(“a”,“b”)表示两个候选词之间的相似度值,A,B表示两个候选词对应的词向量,A·B表示两个词向量的点积,‖A‖和‖B‖表示两个词向量的向量长度,n表示词向量的维度。根据上述公式得到两个候选词的相似度值,例如:similarity(“山东”,“江苏”)=0.41542658similarity(“山东”,“北京”)=0.19865009similarity(“山东”,“男篮”)=0.16770135。其中,山东与江苏两个候选词的相似度值较大,则说明这两个候选词之间的关联度较高,山东与男篮两个候选词的相似度值较小,说明这两个候选词之间的关联度较小。S120、将词向量作为节点,并根据词向量之间的相似度值构建节点之间的边,得到候选词图集。具体的,将词向量作为节点,组成点集,可以表示为V。可选的,根据词向量之间的相似度值构建节点之间的边,包括:若两个词向量之间的相似度值大于预设的第一相似度阈值,则构建所述两个词向量之间的边,组成边集,可以表示为E,E为V×V的子集。其中,所述预设的第一相似度阈值可以由技术人员根据需要进行设置,示例性的,将预设的第一相似度阈值设置为0.450,当两个本文档来自技高网...

【技术保护点】
1.一种文本信息提取方法,其特征在于,所述方法包括:通过Word2Vec模型确定文本中候选词的词向量,并确定不同词向量之间的相似度值;将词向量作为节点,并根据词向量之间的相似度值构建节点之间的边,得到候选词图集;通过TextRank算法,根据所述候选词图集,确定候选词权重;根据候选词权重,确定文本的关键词。

【技术特征摘要】
1.一种文本信息提取方法,其特征在于,所述方法包括:通过Word2Vec模型确定文本中候选词的词向量,并确定不同词向量之间的相似度值;将词向量作为节点,并根据词向量之间的相似度值构建节点之间的边,得到候选词图集;通过TextRank算法,根据所述候选词图集,确定候选词权重;根据候选词权重,确定文本的关键词。2.根据权利要求1所述的方法,其特征在于,根据词向量之间的相似度值构建节点之间的边,包括:若两个词向量之间的相似度值大于预设的第一相似度阈值,则构建所述两个词向量之间的边。3.根据权利要求1所述的方法,其特征在于,根据候选词权重,确定文本的关键词,包括:根据候选词权重对候选词按照倒序进行排序;选择排序在前的候选词作为文本的关键词。4.根据权利要求1所述的方法,其特征在于,通过Word2Vec模型确定文本中候选词的词向量之后,还包括:根据文本中句子所包括的候选词的词向量,确定句子的向量表示,并确定不同句子的向量表示之间的相似度值;将句子的向量表示作为节点,并根据句子的向量表示之间的相似度构建节点之间的边,得到句子图集;通过TextRank算法,根据所述句子图集,确定句子权重;根据句子权重,确定文本的摘要。5.根据权利要求1所述的方法,其特征在于,根据候选词权重,确定文本的关键词之后,...

【专利技术属性】
技术研发人员:谢永恒段小文万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1