一种文本信息提取方法、装置、服务器及存储介质制造方法及图纸

技术编号：20485362 阅读：17 留言：0更新日期：2019-03-02 19:10

本发明专利技术实施例提供的一种文本信息提取方法、装置、服务器及存储介质。该方法包括：通过Word2Vec模型确定文本中候选词的词向量，并确定不同词向量之间的相似度值；将词向量作为节点，并根据词向量之间的相似度值构建节点之间的边，得到候选词图集；通过TextRank算法，根据所述候选词图集，确定候选词权重；根据候选词权重，确定文本的关键词。通过采用Word2Vec模型将候选词转换为词向量，能够使候选词通过低维的向量进行表示，提高处理效率，通过相似度值计算，并构建图集，能够形象地反映出候选词之间的关联关系，最后通过TextRank算法计算候选词的权重值，从而更加准确全面地确定文本的关键词。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本信息提取方法、装置、服务器及存储介质
本专利技术实施例涉及文本提取
，尤其涉及一种文本信息提取方法、装置、服务器及存储介质。
技术介绍
随着互联网的快速发展，网络的功能越来越全面，网络文章信息的量也快速增长。但是，很多网络文章存在较大的篇幅，人们通常需要消耗大量的时间来阅读整篇文章才能获得关键的新闻信息。对于需要提取文章信息的编辑或者网络的监控人员来说，为了获得关键的文章信息，需要花费大量的时间来阅读大篇幅的文章，大大降低了工作效率。因此，文本关键词和文本摘要的自动提取大大的缩短了人们从大篇幅网络文章中获得关键信息的时间，同时也很好的节约了一些公司或者企业的人力成本。目前常用的关键词和摘要提取方法为基于TextRank算法的排序方法，TextRank的基本思想基于谷歌的PageRank算法。TextRank一般模型可以表示为一个有向有权图G＝(V,E),由点集合V和边集合E组成，E是V×V的子集。In(Vi)为指向该点Vi的点集合,Out(Vi)为点Vi指向的点集合。点Vi的得分定义如下：其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率。根据上述算法计算权重值需要根据共现关系构建图集，但是这种方法需要事先建立所有点集之间的边，再在其中通过设置的窗口进行选取，得到存在关联关系的边与候选词节点，构建过程繁琐，处理效率低，并且无法得到每条边权重值的相对大小，导致通过TextRank算法得到的关键词或摘要并不全面精准。另外，传统的文字数字化方法形式简单，转换的向量维度较大，不利于计算与处理。
技术实现思路
本专利技术实施例提...

【技术保护点】
1.一种文本信息提取方法，其特征在于，所述方法包括：通过Word2Vec模型确定文本中候选词的词向量，并确定不同词向量之间的相似度值；将词向量作为节点，并根据词向量之间的相似度值构建节点之间的边，得到候选词图集；通过TextRank算法，根据所述候选词图集，确定候选词权重；根据候选词权重，确定文本的关键词。

【技术特征摘要】
1.一种文本信息提取方法，其特征在于，所述方法包括：通过Word2Vec模型确定文本中候选词的词向量，并确定不同词向量之间的相似度值；将词向量作为节点，并根据词向量之间的相似度值构建节点之间的边，得到候选词图集；通过TextRank算法，根据所述候选词图集，确定候选词权重；根据候选词权重，确定文本的关键词。2.根据权利要求1所述的方法，其特征在于，根据词向量之间的相似度值构建节点之间的边，包括：若两个词向量之间的相似度值大于预设的第一相似度阈值，则构建所述两个词向量之间的边。3.根据权利要求1所述的方法，其特征在于，根据候选词权重，确定文本的关键词，包括：根据候选词权重对候选词按照倒序进行排序；选择排序在前的候选词作为文本的关键词。4.根据权利要求1所述的方法，其特征在于，通过Word2Vec模型确定文本中候选词的词向量之后，还包括：根据文本中句子所包括的候选词的词向量，确定句子的向量表示，并确定不同句子的向量表示之间的相似度值；将句子的向量表示作为节点，并根据句子的向量表示之间的相似度构建节点之间的边，得到句子图集；通过TextRank算法，根据所述句子图集，确定句子权重；根据句子权重，确定文本的摘要。5.根据权利要求1所述的方法，其特征在于，根据候选词权重，确定文本的关键词之后，...

【专利技术属性】
技术研发人员：谢永恒，段小文，万月亮，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人