一种实用有效的命名实体识别的计算方法技术

技术编号:22055712 阅读:58 留言:0更新日期:2019-09-07 15:24
本发明专利技术公开了一种实用有效的命名实体识别的计算方法,其具体步骤如下:第一步,向命名实体识别系统内输入一段文字,句子的数目计为m;第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;第三步,使用基于词表的方法进行识别得到结果标记为K1;第四步,使用基于规则的方法进行识别得到结果标记为K2;第五步,使用基于模型的方法进行识别得到结果标记为K3;第六步,进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。本发明专利技术灵活使用三个方法,并通过逻辑来解决他们的冲突,从而达到较高的命名实体识别的准确率。

A Practical and Effective Method for Named Entity Recognition

【技术实现步骤摘要】
一种实用有效的命名实体识别的计算方法
本专利技术涉及自然语言理解
,具体为一种实用有效的命名实体识别的计算方法。
技术介绍
命名实体识别(NamedEntityRecognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。其过程通常包括两部分:(1)实体边界识别;(2)确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。然而对于汉语,(1)汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词;(2)汉语分词和命名实体识别互相影响;(3)除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型;(4)现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体;(5)不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。目前的很多论文都是关于使用模型进行识别的方法,比如条件随机场模型(CRF),深度学习模型等,我们统称为基于模型的识别方法,但是只是这些模型的应用还不能解决所有的命名实体识别的问题,它的准确率都无法达到实际应用场景的要求。基于模型的方法是现在比较流行的命名实体识别方法,但是它受限于训练数据的覆盖率,受限于训练数据的准确性,是无法提供较高的识别准确率的。
技术实现思路
本专利技术的目的在于提供一种实用有效的命名实体识别的计算方法,以解决上述
技术介绍
中提出的问题。命名实体识别是自然语言理解中比较重要的问题之一,在实际的应用中也是被用到较多的功能。命名实体识别的方法包括:基于规则的方法,基于词表的方法,基于模型的方法;单单使用基于模型的方法无法达到实际应用场景的要求,为了更好的识别命名实体,我们需要使用所有的三种方法,在实际的应用中就可以提供较高的命名实体识别的准确率。为实现上述目的,本专利技术提供如下技术方案:一种实用有效的命名实体识别的计算方法,其具体步骤如下:第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;第三步,使用基于词表的方法进行识别得到结果标记为K1;第四步,使用基于规则的方法进行识别得到结果标记为K2;第五步,使用基于模型的方法进行识别得到结果标记为K3;第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。优选的,所述的结果K的结算公式为:K=a/m·K1·A%+b/m·K2·B%+c/m·K3·C%;优选的,所述的A%、B%、C%为计算系数,针对不同的文体,计算系数不同;再将获得结果K与标准阀值K0进行比较,判断K与K0之间的大小,优选的,所述的K大于等于K0时,则判断该段文字重复度高。优选的,所述的K小于K0时,,则判断该段文字重复度低。与现有技术相比,本专利技术的有益效果是:本专利技术提供了一种实用有效的命名实体识别的计算方法,在这个算法中会灵活使用基于规则的方法,基于词表的方法和基于模型的方法,并有一个逻辑来解决他们的冲突,从而达到较高的命名实体识别的准确率。具体实施方式下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供了一种实用有效的命名实体识别的计算方法,其具体步骤如下:第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;第三步,使用基于词表的方法进行识别得到结果标记为K1;第四步,使用基于规则的方法进行识别得到结果标记为K2;第五步,使用基于模型的方法进行识别得到结果标记为K3;第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。优选的,所述的结果K的结算公式为:K=a/m·K1·A%+b/m·K2·B%+c/m·K3·C%;优选的,所述的A%、B%、C%为计算系数,针对不同的文体,计算系数不同;再将获得结果K与标准阀值K0进行比较,判断K与K0之间的大小,优选的,所述的K大于等于K0时,则判断该段文字重复度高。优选的,所述的K小于K0时,,则判断该段文字重复度低。实施例1第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;第三步,使用基于词表的方法进行识别得到结果标记为K1;第四步,使用基于规则的方法进行识别得到结果标记为K2;第五步,使用基于模型的方法进行识别得到结果标记为K3;第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。优选的,所述的结果K的结算公式为:K=a/m·K1·A%+b/m·K2·B%+c/m·K3·C%;K≥K0时,则判断该段文字重复度高。K<K0时,则判断该段文字重复度低。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网
...

【技术保护点】
1.一种实用有效的命名实体识别的计算方法,其特征在于,其具体步骤如下:第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;第三步,使用基于词表的方法进行识别得到结果标记为K1;第四步,使用基于规则的方法进行识别得到结果标记为K2;第五步,使用基于模型的方法进行识别得到结果标记为K3;第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。

【技术特征摘要】
1.一种实用有效的命名实体识别的计算方法,其特征在于,其具体步骤如下:第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;第三步,使用基于词表的方法进行识别得到结果标记为K1;第四步,使用基于规则的方法进行识别得到结果标记为K2;第五步,使用基于模型的方法进行识别得到结果标记为K3;第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行...

【专利技术属性】
技术研发人员:简仁贤刘小杰
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1