The present invention relates to a method for extracting scholar user portrait information based on neural network, which includes the following steps: text preprocessing, structural adjustment and entity annotation of web pages; construction of thesaurus for all text nodes and their characters of recognized web pages; extraction of context features of text nodes and front and back nodes; and sequencing of text nodes. The word vector h containing the context information of the sequence of nodes is obtained by training, and the output of the word vector is decoded. The score of each word vector to the target tag is obtained correspondingly. The probability distribution of the label of the sequence of nodes is calculated, and the output result of the model is decoded, so that the optimal predictive label sequence can be obtained when the objective function is minimum. The model is constructed and the model is trained. The invention can realize the end-to-end training of the model, and effectively solve the long-term dependence relationship between object extraction entities by utilizing the sequence memory characteristics of LSTM network itself.
【技术实现步骤摘要】
一种基于神经网络的学者用户画像信息抽取方法及模型
本专利技术涉及画像信息抽取领域,特别涉及一种基于神经网络的学者用户画像信息抽取方法及模型。
技术介绍
随着互联网、移动互联网、物联网等应用的飞速发展,全球数据量出现了大幅度增长,用户画像成为大数据技术背景下最为重要的应用之一。作为用户画像提取的首要环节,用户信息抽取为之后的用户画像挖掘和分析奠定了基础,在很大程度上决定了最终模型的准确性和完整性。近年来,随着大数据技术的发展,也涌现了许多关于用户信息抽取模型的研究。在学者信息抽取方面,目前大部分研究是将其抽象为序列标注(SequenceLabel)问题加以解决。Tang等人最早提出了基于树形条件随机场(ConditionalRandomField,CRF)的模型对学者用户画像信息进行抽取。Collobert等人最早提出了基于窗口和句子维度的两种神经网络结构构建的序列标注模型。Gu等人则将主页识别和用户信息抽取整合为一个步骤,通过自定义Web检索规则和一种马尔可夫概率模型对文本实体进行分类抽取。在构建学者用户画像时,传统的基于人工编写规则或机器学习方法的信息抽取模型所面临的技术挑战有:1)学者个人主页的格式各式各样,有的是自定义制作的,有的是统一模版编写的,还有的是由学术搜索引擎自动生成的,传统基于规则和CRF模型的抽取方法无法自适应多种学者主页类型;2)传统信息抽取技术对抽取长度较短且具有固定模版特征的网页较为有效,而在识别网页中所在片段距离较长的文本节点时效果较差。传统模型将无法发现所在片段间隔较远的实体之间的依赖关系。现如今Web中学术数据爆炸式增长,其 ...
【技术保护点】
1.一种基于神经网络的学者用户画像信息抽取方法,其特征在于,所述神经网络为Bi‑LSTM‑CRF神经网络,包括以下步骤:S1.通过文本预处理过滤掉网页中的文本信息,并删除空白和注释字符,提取得到简化后的内容体;网页文本嵌入在HTML格式标签中,且短文本节点对应一个实体,将标签的文本节点作为基本抽取单元;S2.对已识别网页所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w;S3.对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;S4.用一个全连接层对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分s,增加一层线性CRF层来计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建;S5.采用优化算法进行模型训练。
【技术特征摘要】
1.一种基于神经网络的学者用户画像信息抽取方法,其特征在于,所述神经网络为Bi-LSTM-CRF神经网络,包括以下步骤:S1.通过文本预处理过滤掉网页中的文本信息,并删除空白和注释字符,提取得到简化后的内容体;网页文本嵌入在HTML格式标签中,且短文本节点对应一个实体,将标签的文本节点作为基本抽取单元;S2.对已识别网页所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w;S3.对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;S4.用一个全连接层对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分s,增加一层线性CRF层来计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建;S5.采用优化算法进行模型训练。2.根据权利要求1所述基于神经网络的学者用户画像信息抽取方法,其特征在于,所述步骤S2,具体包含以下步骤:S201.采用Word2Vec算法对文本节点进行训练得到词向量ww2v,ww2v构成词向量的第一部分;S202.通过Bi-LSTM网络对单词进行字母级别的映射,合并最后的隐状态输出,得到一个固定长度的词向量wchars,该词向量代表了词语中字符级层面的特征,wchars构成词向量第二部分;S203.将ww2v和wchars合并得到一个n维词向量w。3.根据权利要求2所述基于神经网络的学者用户画像信息抽取方法,其特征在于,步骤S202中,所述词语中字符级层面的特征包括首字母大小写、字母顺序。4.根据权利要求1所述基于神经网络的学者用户画像信息抽取方法,其特征在于,所述步骤S4,具体包含以下步骤:S401.假设已经定义好了r种学者用户目标标签类型,对应有偏置矩阵b∈Rr,有权重矩阵W...
【专利技术属性】
技术研发人员:林伟伟,游德光,吴梓明,温昂展,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。