构建命名实体标注资源库方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:16528916 阅读:35 留言:0更新日期:2017-11-09 20:39
本发明专利技术涉及一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。本发明专利技术使用少量种子库与未标注文本集中的未标注文本构成本轮迭代的资源库进行计算,通过计算未标注文本中每个命名实体的平均效用值,生成下一轮迭代的种子库,再将生成的种子库与其他未标注文本构成下一轮迭代的资源库进行计算出再下一轮的种子库,就这样一直计算直到将未标注文本全部计算,发现新的命名实体,并生成命名实体标注资源库。这种方法计算简单,所得结果的置信度高,适合处理大规模文本。文本数据为一种非结构化数据,通常对非结构化数据进行效果评估都比较困难,而该方法可以实现对文本命名实体进行量化评估。

【技术实现步骤摘要】
构建命名实体标注资源库方法、装置、存储介质和计算机设备
本专利技术涉及信息处理
,特别是涉及一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。
技术介绍
命名实体(namedentity)就是指人名、机构名、地名以及其他所有以名称为标识的实体,广义的命名实体还包括数字、日期、货币、地址等。命名实体识别(NamedEntityRecognition,NER)是自然语言处理的基础技术之一,对于提高许多自然语言处理应用系统的性能都有重要作用。目前NER主要使用统计模型作为处理技术,比如隐马尔可夫模型(HiddenMarkovModel,HMM)、条件随机场模型(ConditionalRandomField,CRF)等统计模型,这类统计模型都需要大量的标注资源库作为训练集,一般常采用人民日报语料资源库等人工标注的资源库作为训练集。这些人工标注的资源库中的资源是非常有限的,不足以适应大规模应用场景比如机器翻译,且随着社会的发展,不断地有新的命名实体诞生,比如机构名、电影名称、产品名称、图书名称等,所以采用人工标注的资源库远远无法满足命名实体识别的需求。因此,建立并维护命名实体标注资源库是众多自然语言处理领域应用(例如搜索系统,机器翻译系统等)的核心。
技术实现思路
基于此,有必要针对上述技术问题,提供一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。一种构建命名实体标注资源库方法,所述方法包括:获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;计算所述未标注文本中每个命名实体的平均效用值;对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;对所述标注资源库中的候选词进行评分;获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。在其中一个实施例中,所述计算所述未标注文本中每个命名实体的平均效用值,包括:对所述资源库中的未标注文本进行分词,得到分词后的未标注文本;采用条件随机场CRF模型训练所述资源库中的已标注文本,得到预测模型,利用预测模型预测所述资源库中的未标注文本的标注序列,从所述未标注文本的标注序列中获取最优及次优标注序列及所述最优及次优标注序列的条件概率;对每个未标注文本,根据所述条件概率通过效用评估函数计算所述未标注文本中的每个命名实体的效用值;获取每个命名实体在包含所述命名实体的未标注文本中的效用值,根据所述效用值计算每个命名实体的平均效用值。在其中一个实施例中,所述获取已标注文本集作为本轮迭代的种子库之前,还包括:采集文本信息;从所述采集的文本信息中选取预设数量的文本信息,对所述预设数量的文本信息中的命名实体进行标注,生成已标注文本集,所述采集的文本信息中余下的未标注文本构成未标注文本集。在其中一个实施例中,所述效用评估函数为其中为x的最优标注序列,为x的次优标注序列,θ为模型参数,0≤λ≤1为调节因子,为x的最优标注序列的条件概率,为x的次优标注序列的条件概率,x是一个文本标注序列样例。在其中一个实施例中,所述平均效用计算公式为其中Xt是含有实体候选词t的样例集,|Xt|是含有实体候选词t样例的个数,是实体候选词t在Xt样例集上的平均效用值,xt是含有实体候选词t的一个文本标注序列样例。一种构建命名实体标注资源库装置,所述装置包括:种子库获取模块,用于获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;资源库获取模块,用于获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;平均效用值计算模块,用于计算所述未标注文本中每个命名实体的平均效用值;命名实体候选词获取模块,用于对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;标注资源库生成模块,用于选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;候选词评分模块,用于对所述标注资源库中的候选词进行评分;命名实体标注资源库生成模块,用于获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。在其中一个实施例中,所述平均效用值计算模块包括:分词模块,用于对所述资源库中的未标注文本进行分词,得到分词后的未标注文本;条件概率计算模块,用于采用条件随机场CRF模型训练所述资源库中的已标注文本,得到预测模型,利用预测模型预测所述资源库中的未标注文本的标注序列,从所述未标注文本的标注序列中获取最优及次优标注序列及所述最优及次优标注序列的条件概率;效用值计算模块,用于对每个未标注文本,根据所述条件概率通过效用评估函数计算所述未标注文本中的每个命名实体的效用值;平均效用值获取模块,用于获取每个命名实体在包含所述命名实体的未标注文本中的效用值,根据所述效用值计算每个命名实体的平均效用值。在其中一个实施例中,所述装置还包括:文本信息采集模块,用于采集文本信息;文本信息分类模块,用于从所述采集的文本信息中选取预设数量的文本信息,对所述预设数量的文本信息中的命名实体进行标注,生成已标注文本集,所述采集的文本信息中余下的未标注文本构成未标注文本集。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;计算所述未标注文本中每个命名实体的平均效用值;对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;对所述标注资源库中的候选词进行评分;获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。一种计算机设备,所述计算机设备包括存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;计算所述未标注文本文档来自技高网...
构建命名实体标注资源库方法、装置、存储介质和计算机设备

【技术保护点】
一种构建命名实体标注资源库方法,所述方法包括:获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;计算所述未标注文本中每个命名实体的平均效用值;对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;对所述标注资源库中的候选词进行评分;获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。

【技术特征摘要】
1.一种构建命名实体标注资源库方法,所述方法包括:获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;计算所述未标注文本中每个命名实体的平均效用值;对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;对所述标注资源库中的候选词进行评分;获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。2.根据权利要求1所述的方法,其特征在于,所述计算所述未标注文本中每个命名实体的平均效用值,包括:对所述资源库中的未标注文本进行分词,得到分词后的未标注文本;采用条件随机场CRF模型训练所述资源库中的已标注文本,得到预测模型,利用预测模型预测所述资源库中的未标注文本的标注序列,从所述未标注文本的标注序列中获取最优及次优标注序列及所述最优及次优标注序列的条件概率;对每个未标注文本,根据所述条件概率通过效用评估函数计算所述未标注文本中的每个命名实体的效用值;获取每个命名实体在包含所述命名实体的未标注文本中的效用值,根据所述效用值计算每个命名实体的平均效用值。3.根据权利要求1所述的方法,其特征在于,所述获取已标注文本集作为本轮迭代的种子库之前,还包括:采集文本信息;从所述采集的文本信息中选取预设数量的文本信息,对所述预设数量的文本信息中的命名实体进行标注,生成已标注文本集,所述采集的文本信息中余下的未标注文本构成未标注文本集。4.根据权利要求2所述的方法,其特征在于,所述效用评估函数为:其中为x的最优标注序列,为x的次优标注序列,θ为模型参数,0≤λ≤1为调节因子,为x的最优标注序列的条件概率,为x的次优标注序列的条件概率,x是一个文本标注序列样例。5.根据权利要求2所述的方法,其特征在于,所述平均效用计算公式为:其中Xt是含有实体候选词t的样例集,|Xt|是含有实体候选词t样例的个数,是实体候选词t在...

【专利技术属性】
技术研发人员:秦兴德秦祎晗刘奕慧郭玮
申请(专利权)人:深圳市牛鼎丰科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1