构建命名实体标注资源库方法、装置、存储介质和计算机设备制造方法及图纸

技术编号：16528916 阅读：35 留言：0更新日期：2017-11-09 20:39

本发明专利技术涉及一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。本发明专利技术使用少量种子库与未标注文本集中的未标注文本构成本轮迭代的资源库进行计算，通过计算未标注文本中每个命名实体的平均效用值，生成下一轮迭代的种子库，再将生成的种子库与其他未标注文本构成下一轮迭代的资源库进行计算出再下一轮的种子库，就这样一直计算直到将未标注文本全部计算，发现新的命名实体，并生成命名实体标注资源库。这种方法计算简单，所得结果的置信度高，适合处理大规模文本。文本数据为一种非结构化数据，通常对非结构化数据进行效果评估都比较困难，而该方法可以实现对文本命名实体进行量化评估。

全部详细技术资料下载

【技术实现步骤摘要】
构建命名实体标注资源库方法、装置、存储介质和计算机设备
本专利技术涉及信息处理
，特别是涉及一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。
技术介绍
命名实体(namedentity)就是指人名、机构名、地名以及其他所有以名称为标识的实体，广义的命名实体还包括数字、日期、货币、地址等。命名实体识别(NamedEntityRecognition，NER)是自然语言处理的基础技术之一，对于提高许多自然语言处理应用系统的性能都有重要作用。目前NER主要使用统计模型作为处理技术，比如隐马尔可夫模型(HiddenMarkovModel，HMM)、条件随机场模型(ConditionalRandomField，CRF)等统计模型，这类统计模型都需要大量的标注资源库作为训练集，一般常采用人民日报语料资源库等人工标注的资源库作为训练集。这些人工标注的资源库中的资源是非常有限的，不足以适应大规模应用场景比如机器翻译，且随着社会的发展，不断地有新的命名实体诞生，比如机构名、电影名称、产品名称、图书名称等，所以采用人工标注的资源库远远无法满足命名实体识别的需求。因此，建立并维护命名实体标注资源库是众多自然语言处理领域应用(例如搜索系统，机器翻译系统等)的核心。
技术实现思路
基于此，有必要针对上述技术问题，提供一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。一种构建命名实体标注资源库方法，所述方法包括：获取已标注文本集作为本轮迭代的种子库，所述已标注文本集包括已标注文本；获取未标注文本集，所述未标注文本集包括未标注文本，从所述未标注文本集中选取预设数量...
构建命名实体标注资源库方法、装置、存储介质和计算机设备

【技术保护点】
一种构建命名实体标注资源库方法，所述方法包括：获取已标注文本集作为本轮迭代的种子库，所述已标注文本集包括已标注文本；获取未标注文本集，所述未标注文本集包括未标注文本，从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库；计算所述未标注文本中每个命名实体的平均效用值；对所述平均效用值按照从大到小进行排序，获取排名靠前的预设数量的命名实体作为候选词；选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库，再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库，直到将所述未标注文本集中的所有未标注文本全部迭代，得到标注资源库；对所述标注资源库中的候选词进行评分；获取评分超过设定阈值的候选词对应的包含所述候选词的文本，将所述文本构成的集合作为命名实体标注资源库。

【技术特征摘要】
1.一种构建命名实体标注资源库方法，所述方法包括：获取已标注文本集作为本轮迭代的种子库，所述已标注文本集包括已标注文本；获取未标注文本集，所述未标注文本集包括未标注文本，从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库；计算所述未标注文本中每个命名实体的平均效用值；对所述平均效用值按照从大到小进行排序，获取排名靠前的预设数量的命名实体作为候选词；选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库，再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库，直到将所述未标注文本集中的所有未标注文本全部迭代，得到标注资源库；对所述标注资源库中的候选词进行评分；获取评分超过设定阈值的候选词对应的包含所述候选词的文本，将所述文本构成的集合作为命名实体标注资源库。2.根据权利要求1所述的方法，其特征在于，所述计算所述未标注文本中每个命名实体的平均效用值，包括：对所述资源库中的未标注文本进行分词，得到分词后的未标注文本；采用条件随机场CRF模型训练所述资源库中的已标注文本，得到预测模型，利用预测模型预测所述资源库中的未标注文本的标注序列，从所述未标注文本的标注序列中获取最优及次优标注序列及所述最优及次优标注序列的条件概率；对每个未标注文本，根据所述条件概率通过效用评估函数计算所述未标注文本中的每个命名实体的效用值；获取每个命名实体在包含所述命名实体的未标注文本中的效用值，根据所述效用值计算每个命名实体的平均效用值。3.根据权利要求1所述的方法，其特征在于，所述获取已标注文本集作为本轮迭代的种子库之前，还包括：采集文本信息；从所述采集的文本信息中选取预设数量的文本信息，对所述预设数量的文本信息中的命名实体进行标注，生成已标注文本集，所述采集的文本信息中余下的未标注文本构成未标注文本集。4.根据权利要求2所述的方法，其特征在于，所述效用评估函数为：其中为x的最优标注序列，为x的次优标注序列，θ为模型参数，0≤λ≤1为调节因子，为x的最优标注序列的条件概率，为x的次优标注序列的条件概率，x是一个文本标注序列样例。5.根据权利要求2所述的方法，其特征在于，所述平均效用计算公式为：其中Xt是含有实体候选词t的样例集，|Xt|是含有实体候选词t样例的个数，是实体候选词t在...

【专利技术属性】
技术研发人员：秦兴德，秦祎晗，刘奕慧，郭玮，
申请(专利权)人：深圳市牛鼎丰科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人