一种基于词向量表示的条件随机场的命名实体识别方法技术

技术编号:15878650 阅读:52 留言:0更新日期:2017-07-25 16:38
本发明专利技术提供了一种基于词向量表示的条件随机场的命名实体识别方法,属于自然语言处理技术领域。本发明专利技术包括基于词向量表示的条件随机场算法、利用融入词向量表示的条件随机场算法与采用B/S结构设计的提供图形交互界面的在线命名实体识别系统。使用本发明专利技术可以对用户待解析的生物医学文本进行生物医学命名实体进行识别,识别过程发挥了词向量的语义表示的特点,较少的依赖人工特征参与,并解决了条件随机场只对离散的特征表示有效的问题,而且也发挥了条件随机场算法这种判别式无向图模型的优点;本发明专利技术为用户提供命名实体交互关系数据检索的服务;另外,本发明专利技术还为用户提供了对自动解析结果的修正功能。

A named entity recognition method for conditional random fields based on word vector representation

The invention provides a named entity recognition method of conditional random field based on word vector representation, belonging to the technical field of Natural Language Processing. The invention includes a random algorithm, using vector representation into the word word based vector representation of the conditions with the airport by B/S algorithm and structure design of the online interactive graphics interface named entity recognition system. The present invention may be used in biomedical text to be analyzed by the user biomedical named entity recognition. The recognition process features of the semantic representation of the word vector, less reliance on artificial feature participation, and solve the CRFs have only indicated efficiency of the discrete characteristic, but also has the advantages of CRFs this algorithm the discriminant of undirected graph model; the invention provides named entity interaction data retrieval service for the user; in addition, the invention also provides a correction function to automatically parse results for users.

【技术实现步骤摘要】
一种基于词向量表示的条件随机场的命名实体识别方法
本专利技术属于自然语言处理领域,涉及一种对生物医学文本进行高质量的生物命名实体识别的方法,具体是指基于条件随机场(CRF)模型与词表示方法相融合的生物命名实体识别方法。
技术介绍
命名实体识别的任务是对文本中出现的人名、地名、机构名等具有特定意义的词或短语进行识别。在生物医学领域进行的命名实体识别被称为生物命名实体识别(BiomedicalNamedEntityRecognition,Bio-NER),旨在利用生物医学文本挖掘技术对生物医学文献中出现的指定类型的实体名称,如蛋白质、基因、疾病、细胞等进行自动识别和分类。生物命名实体识别是生物医学文本挖掘的关键步骤,是实现关系抽取、假设发现、文本分类等深层次文本挖掘技术的先决条件,例如,要想得到基因、蛋白质以及疾病等生物实体之间的关系,首先必须能够从文本中正确地识别出这些生物实体。目前使用最广泛的基于机器学习方法的基本过程包括:语料预处理、抽取特征、模型训练、预测。语料预处理步骤包括对生物医学文本的操作,如大小写转换、分词、词干化、去停用词等步骤。运用到的特征主要包括:核心词特征、字典特本文档来自技高网...

【技术保护点】
一种基于词向量表示的条件随机场的命名实体识别方法,其特征在于,步骤如下:(一)语料的提取与预处理用word2vec工具中的Skip‑gram语言模型将待处理语料中的每一个单词转化为d维的词向量;(二)标记计划给单词分配不同的标签,采用IOBES标记计划对语料进行标记;IOBES标记计划:表一

【技术特征摘要】
1.一种基于词向量表示的条件随机场的命名实体识别方法,其特征在于,步骤如下:(一)语料的提取与预处理用word2vec工具中的Skip-gram语言模型将待处理语料中的每一个单词转化为d维的词向量;(二)标记计划给单词分配不同的标签,采用IOBES标记计划对语料进行标记;IOBES标记计划:表一BeginInsideEndSingleOtherBIESO对于由几个单词表示的命名实体:用B对表示该命名实体开始的单词进行标注,用I对表示该命名实体中间的单词进行标注,用E对表示该命名实体结尾的单词进行标注;对于由一个单词表示的命名实体:用S对表示该命名实体的单词进行标注;对于非命名实体:用O对表示非命名实体的单词进行标注;标签的个数为5,用labelnum表示;(三)由词向量到状态特征权重的计算本命名实体识别方法以线性链条件随机场模型为基础,对于语料的处理是以句子为单位进行的;对于任意句子即任意单词序列:L为句子的长度;X={X1,X2,X3,……,Xn},X表示句子即单词序列,Xi表示句子中的第i个单词;Y={Y1,Y2,Y3,……,Yn},Y表示句子对应的标签序列,Yi表示句子中的第i个单词所对应的标签,它的取值为I、O、B、E、S五种,表示句子中的第i个单词所对应的标签为标签j,即Yi=label[j];1.由词向量到特征矩阵FeatureMatrix的计算利用窗口法将每个单词与它周围几个单词的词向量拼接起来构建单词的特征向量;窗口法:确定固定窗口的大小为M,以句子为单位,对于每个单词Xi,用Xi-(M-1)/2,……,Xi,……,Xi+(M-1)/2连续M个单词的词向量依次拼接,再在每个单词Xi末尾加上1作为这个单词的特征向量;然而,若在句子开头处和结尾处的一些单词左右两边没有足够相邻的(M-1)/2个单词,用none的词向量,也就是零向量,作为填补,其与用‘start’和‘stop’标记起到了相同的效果;用窗口法对句子中的每一个单词进行处理,即得到句子对应的特征矩阵FeatureMatrix,它的大小为(d×M+1)×L;2.由特征矩阵FeatureMatrix到状态特征权重的计算由于采用IOBES标记计划,对任意单词Xi,Yi有五种可能,本步骤将介绍Yi在取值为IOBES的不同的情况下对应的状态特征权重的大小;将大小为labelnum×(d×M+1)的参数矩阵θ与上个步骤得到的特征矩阵FeatureMatrix点乘,结果为一个大小为labelnum×L的矩阵μ′,并且对μ′中的每一个数值用Hardtanh函数处理,最终得到大小为labelnum×L的状态特征权重矩阵μ;μ中的第j行、第i列个元素的大小表示句子中的第i个单词Xi的标签Yi为时的状态特征权重大小,用表示;(四)对标签序列Y进行估计,以识别命名实体对标签序列进行估计,找出所有被标记为S的单词以及被标记为B、零个或多个I、E组合的单词串,也就找到了命名实体;对句子所对应的标签序列进行估计,即在已知句子X的情况下,找出标签序列Y*,使得当Y=Y*时,条件概率P(Y|X)达到最大;首先介绍大小为(labelnum+1)×labelnum的状态转移权重矩阵AA:A的前labelnum行分别表示一种标签情况,最后一行表示无标签的情况,A的每一列分别表示一种标签情况,Am,n:即A的第m行第n列个元素,它表示Xi-1对应的标签且Xi对应的标签时的状态转移权重;为了将句子中的单词位置也体现出来,状态转移权重用符号表示;1.势函数:exp(∑jλjtj(Yi-1,Yi,X,i)+∑kμksk(Yi,X,i))势函数中符号的定义及解释如下:j:当Xi在句首时,1≤j≤labelnum;当Xi不在句首时,1≤j≤labelnum×labelnum;j是整数,每一个不同的j表示一种特定的由标签p转移到标签q的状态转移情况;k:1≤k≤labelnum,k是整数,每一个不同的k表示一种特定的标签状态q;tj(Yi-1,Yi,X,i):两个相邻标记位置上的状态转移特征函数,sk(Yi,X,i):序列位置i上的状态特征函数,λj:状态转移特征权重函数,对与某个特定的j,它表示的标签状态转移情况为Yi-1=lable[p],Yi=lable[q],则μk:状态特征权重函数,对于某个特定的k,它表示的标签状态情况为Yi=lable[q],则∑jλjtj(Yi-1,Yi,X,i)的计算结果:在给定句子序列X与对应的给定标签序列Y的情况下,位置i上的单词与它前面的单词的状态转移特征权重λ(Yi-1,Yi,Xi),即状态转移权重矩阵...

【专利技术属性】
技术研发人员:李丽双姜宇新陈曦冯轶然
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1