【技术实现步骤摘要】
一种基于表示学习的实体发现和实体链接联合优化方法
[0001]本专利技术涉及深度学习和自然语言处理
,尤其是一种基于表示学习的实体发现和实体链接联合优化方法。
技术介绍
[0002]随着越来越多网络平台的兴起,例如新闻网、微博、博客、百度百科等,产生了海量的数据,其中文本形式的数据占了很大比例,可以说各种形式的数据其实都有相应的文本描述,如:音乐有乐评,视频有影评等,对于这些以文本形式存在的数据,其中蕴含着大量有价值的信息,如何能够快速便捷的分析出这些海量文本所蕴含的信息,变得非常重要。自然语言处理(NLP)应运而生,旨在利用计算机帮助人们更快、更便捷分析文本信息中所蕴含的意想不到的联系。
[0003]实体发现和实体链接作为自然语言处理的基本技术,是近几年的研究热点。围绕实体发现和实体链接主要的难点和挑战,进行了实体发现和实体链接联合方法的研究。
技术实现思路
[0004]本专利技术需要解决的技术问题是提供一种基于表示学习的实体发现和实体链接联合优化方法,针对实体发现和实体链接之间的结果相互影响 ...
【技术保护点】
【技术特征摘要】
1.一种基于表示学习的实体发现和实体链接联合优化方法,其特征在于:实体链接的结果能够对实体发现进行优化,包括以下步骤:步骤1,获取数据集;步骤2,构建锚文本词典;步骤3,定义并构建片段循环神经网络模型进行实体提取算法;步骤4,实体链接的特征选取;步骤5,神经排序模型的构建。2.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法,其特征在于:步骤2中,具体包括:2.1,通过抽取百度百科的锚文本,构建锚文本词典,词典中的每个键看作是一个实体的提及,对应的值看作是知识库中对应该实体的提及;2.2,引入实体提及m的先验概率,定义所述先验概率为:link_prob(m)=freq(m)|count(m)式中,freq(m)是m作为锚文本出现的次数,count(m)是m在语料库中所有出现的次数;2.3,进行过滤,去除噪声。3.根据权利要求1所述的一种基于表示学习的实体发现和实体链接联合优化方法,其特征在于:步骤3中,具体包括:3.1,输入层w1,w2,
…
,wm是字符向量和预先训练的词向量的拼接,字符向量通过一个双向的LSTM网络进行学习,上下文LSTM模型对上下文特征进行建模;3.2,将实体发现的处理单元由单个词转化为词序列片段,将输入序列进行切分,直接预测词序列片段的长度,并给每个片段标记一个标签,对实体进行分类,利用片段循环神经网络进行实体发现,标签空间是y={LOC,ORG,PER,MISC,O},目的是在输入的词序列<w1,w2,
…
,wm>上的最大化联合概率分布:p(y,z|x)。4.根据权利要求1所述的一种基于表示学习...
【专利技术属性】
技术研发人员:宫继兵,李青,赵金烨,房小涵,赵祎,丛方鹏,
申请(专利权)人:燕山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。