一种基于神经网络的学者用户画像信息抽取方法及模型技术

技术编号:20916747 阅读:31 留言:0更新日期:2019-04-20 09:44
本发明专利技术涉及一种基于神经网络的学者用户画像信息抽取方法,包含以下步骤:对网页进行文本预处理,并对网页进行结构调整和实体标注;对已识别网页所有文本节点及其字符分别构建词库表;对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分,计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建并进行模型训练。本发明专利技术能够实现模型的端到端训练,而且利用LSTM网络本身的序列记忆特性,有效地解决目标抽取实体间的长时期依赖关系问题。

A Method and Model for Extracting Scholar User Portrait Information Based on Neural Network

The present invention relates to a method for extracting scholar user portrait information based on neural network, which includes the following steps: text preprocessing, structural adjustment and entity annotation of web pages; construction of thesaurus for all text nodes and their characters of recognized web pages; extraction of context features of text nodes and front and back nodes; and sequencing of text nodes. The word vector h containing the context information of the sequence of nodes is obtained by training, and the output of the word vector is decoded. The score of each word vector to the target tag is obtained correspondingly. The probability distribution of the label of the sequence of nodes is calculated, and the output result of the model is decoded, so that the optimal predictive label sequence can be obtained when the objective function is minimum. The model is constructed and the model is trained. The invention can realize the end-to-end training of the model, and effectively solve the long-term dependence relationship between object extraction entities by utilizing the sequence memory characteristics of LSTM network itself.

【技术实现步骤摘要】
一种基于神经网络的学者用户画像信息抽取方法及模型
本专利技术涉及画像信息抽取领域,特别涉及一种基于神经网络的学者用户画像信息抽取方法及模型。
技术介绍
随着互联网、移动互联网、物联网等应用的飞速发展,全球数据量出现了大幅度增长,用户画像成为大数据技术背景下最为重要的应用之一。作为用户画像提取的首要环节,用户信息抽取为之后的用户画像挖掘和分析奠定了基础,在很大程度上决定了最终模型的准确性和完整性。近年来,随着大数据技术的发展,也涌现了许多关于用户信息抽取模型的研究。在学者信息抽取方面,目前大部分研究是将其抽象为序列标注(SequenceLabel)问题加以解决。Tang等人最早提出了基于树形条件随机场(ConditionalRandomField,CRF)的模型对学者用户画像信息进行抽取。Collobert等人最早提出了基于窗口和句子维度的两种神经网络结构构建的序列标注模型。Gu等人则将主页识别和用户信息抽取整合为一个步骤,通过自定义Web检索规则和一种马尔可夫概率模型对文本实体进行分类抽取。在构建学者用户画像时,传统的基于人工编写规则或机器学习方法的信息抽取模型所面临的技术挑战有:1)学者个人主页的格式各式各样,有的是自定义制作的,有的是统一模版编写的,还有的是由学术搜索引擎自动生成的,传统基于规则和CRF模型的抽取方法无法自适应多种学者主页类型;2)传统信息抽取技术对抽取长度较短且具有固定模版特征的网页较为有效,而在识别网页中所在片段距离较长的文本节点时效果较差。传统模型将无法发现所在片段间隔较远的实体之间的依赖关系。现如今Web中学术数据爆炸式增长,其中只有3%的学术数据包括语义标注信息,语义严重缺失阻碍了学术大数据进一步的探究和发展,也给学者用户信息抽取带来了全新的挑战。人工编写规则的抽取方法需要针对每一类页面编写特定的规则,且依赖于特定的领域知识,因此通用性非常差;传统机器学习方法虽然在一定程度上对该问题有所改善,但依然没有办法很好地处理网页中距离较长的文本节点。随着Web网页越来越多样化和复杂化,这些问题也越来越凸显出来,现有的方法不能很好地实现学者用户信息抽取。
技术实现思路
本专利技术的目的在于克服现有技术方法的不足,提供一种基于神经网络的学者用户画像信息抽取方法,该方法基于Bi-LSTM-CRF神经网络,通过循环神经网络自动提取文本实体的字符级和上下文特征,实现模型的端到端训练,而且利用LSTM网络本身的序列记忆特性,有效地解决目标抽取实体间的长时期依赖关系问题。本专利技术的另一目的在于提供一种基于神经网络的学者用户画像信息抽取模型。本专利技术的目的通过以下的技术方案实现:一种基于神经网络的学者用户画像信息抽取方法,所述神经网络为Bi-LSTM-CRF神经网络,包括以下步骤:S1.通过文本预处理过滤掉网页中的文本信息,并删除空白和注释字符,提取得到简化后的内容体;网页文本嵌入在HTML格式标签中,且短文本节点对应一个实体,将标签的文本节点作为基本抽取单元;S2.对已识别网页所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w;S3.对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;S4.用一个全连接层对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分s,增加一层线性CRF层来计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建;S5.采用优化算法进行模型训练。加快模型的学习速率,选取出效果最佳的优化算法。所述步骤S2,具体包含以下步骤:S201.采用Word2Vec算法对文本节点进行训练得到词向量ww2v,ww2v构成词向量的第一部分;S202.通过Bi-LSTM网络对单词进行字母级别的映射,合并最后的隐状态输出,得到一个固定长度的词向量wchars,该词向量代表了词语中字符级层面的特征,wchars构成词向量第二部分;S203.将ww2v和wchars合并得到一个n维词向量w。步骤S202中,所述词语中字符级层面的特征包括首字母大小写、字母顺序。所述步骤S4,具体包含以下步骤:S401.假设已经定义好了r种学者用户目标标签类型,对应有偏置矩阵b∈Rr,有权重矩阵W∈Rr×k,每个词的得分向量为s∈Rr,计算公式s=W×h+b;S402.设输入为节点序列w1,w2,...,wm∈Rn,对应的得分向量为s1,s2,...,sm,以及每个实体所对应的标签为y1,y2,...,ym,在这里增加一层线性CRF层来计算节点序列的标签概率分布,线性CRF层的损失计算公式如下:其中,b和e分别对应起始标签和结尾标签的特征向量,T是状态转移矩阵,表示相邻标签之间的关联和转换关系;S403.利用该式的递归性质,采用动态规划算法进行求解,时间步[t+1,...,m]的解为每个时间步对应有r种状态转移,则时间步[t,...,m]的解可递归推算公式如下:S404.将结果输入到softmax函数,得到标签序列的得分概率分布,定义所有可能序列的概率之和为下式:设Zt(yt)为第t步时,以yt为标签起始的序列,同样根据递归的性质,将该步的概率分布计算过程转换公式如下:最后得到标签序列的概率计算公式S405.设为正确的标注序列,定义模型的目标函数为上述序列概率的交叉熵(cross-entropy),交叉熵计算公式为:对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列。步骤S1中,所述文本信息包括头信息、无效标签、样式表、JS脚本。本专利技术的另一目的通过以下的技术方案实现:一种基于神经网络的学者用户画像信息抽取模型,包括输入层、词向量表示层、节点序列表示层、标签序列CRF计算层和输出层;其中,输入层负责接收预处理后的网页文本节点序列;词向量表示层将每个标签的文本节点转为一个n维向量,表示为词向量;节点序列表示层对文本节点和前后节点的上下文特征进行提取,对文本节点序列进行训练,得到包含节点序列上下文信息的词向量;标签序列CRF计算层计算节点序列的标签概率分布;输出层将模型输出训练;其中所述神经网络为Bi-LSTM-CRF神经网络。本专利技术与现有技术相比,具有如下优点和有益效果:(1)本专利技术是基于Bi-LSTM-CRF神经网络,与传统信息抽取模型相比,本模型和方法利用长短期记忆网络(LSTM)本身具有序列特性,有效地解决了长文本网页中文本实体之间的长时期依赖关系问题。(2)传统信息抽取模型依赖于模型特征和特定的领域知识,无法自适应多种学者网页类型,而本专利技术的模型无需人为定义模型特征,可以通过深度神经网络自动提取网页中文本节点的字符级和上下文特征,实现端到端的模型训练。附图说明图1为本专利技术所述一种基于神经网络的学者用户画像信息抽取方法的流程图。图2为本专利技术所述一种基于神经网络的学者用户画像信息抽取方法的模型示意图。图3为学者网页文本预处理示意图。图4为标签文本节点表示为词向量示意图。图5为标签序列CRF计算层计算标签概率示意图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。如图1所示,一种基于神经网络的学者用户画像信息抽本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的学者用户画像信息抽取方法,其特征在于,所述神经网络为Bi‑LSTM‑CRF神经网络,包括以下步骤:S1.通过文本预处理过滤掉网页中的文本信息,并删除空白和注释字符,提取得到简化后的内容体;网页文本嵌入在HTML格式标签中,且短文本节点对应一个实体,将标签的文本节点作为基本抽取单元;S2.对已识别网页所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w;S3.对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;S4.用一个全连接层对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分s,增加一层线性CRF层来计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建;S5.采用优化算法进行模型训练。

【技术特征摘要】
1.一种基于神经网络的学者用户画像信息抽取方法,其特征在于,所述神经网络为Bi-LSTM-CRF神经网络,包括以下步骤:S1.通过文本预处理过滤掉网页中的文本信息,并删除空白和注释字符,提取得到简化后的内容体;网页文本嵌入在HTML格式标签中,且短文本节点对应一个实体,将标签的文本节点作为基本抽取单元;S2.对已识别网页所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w;S3.对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;S4.用一个全连接层对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分s,增加一层线性CRF层来计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建;S5.采用优化算法进行模型训练。2.根据权利要求1所述基于神经网络的学者用户画像信息抽取方法,其特征在于,所述步骤S2,具体包含以下步骤:S201.采用Word2Vec算法对文本节点进行训练得到词向量ww2v,ww2v构成词向量的第一部分;S202.通过Bi-LSTM网络对单词进行字母级别的映射,合并最后的隐状态输出,得到一个固定长度的词向量wchars,该词向量代表了词语中字符级层面的特征,wchars构成词向量第二部分;S203.将ww2v和wchars合并得到一个n维词向量w。3.根据权利要求2所述基于神经网络的学者用户画像信息抽取方法,其特征在于,步骤S202中,所述词语中字符级层面的特征包括首字母大小写、字母顺序。4.根据权利要求1所述基于神经网络的学者用户画像信息抽取方法,其特征在于,所述步骤S4,具体包含以下步骤:S401.假设已经定义好了r种学者用户目标标签类型,对应有偏置矩阵b∈Rr,有权重矩阵W...

【专利技术属性】
技术研发人员:林伟伟游德光吴梓明温昂展
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1