基于无监督模型与状态感知机的命名实体抽取系统及方法技术方案

技术编号：26971340 阅读：28 留言：0更新日期：2021-01-06 00:02

本发明专利技术公开了一种基于无监督模型与状态感知机的命名实体抽取系统及方法。本发明专利技术中提供了不依赖训练数据的地名、时间及日期抽取的优化方案。本发明专利技术所述的状态感知机以及词典泛化匹配的设计架构避免了现有实体识别抽取需依赖大量经过人工标注的训练语料模式，即自动从目标文本中抽取出相应地名，时间，及日期。

全部详细技术资料下载

【技术实现步骤摘要】
基于无监督模型与状态感知机的命名实体抽取系统及方法
本专利技术涉及计算机人工智能
，尤其涉及命名实体识别的计算机程序

技术介绍
在计算机人工智能领域，使计算机程序进行命名实体识别(NamedEntityRecognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。通常包括两部分：(1)实体边界识别；(2)确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写)，所以实体边界识别相对容易，任务的重点是确定实体的类别。和英语相比，汉语命名实体识别任务更加复杂，而且相对于实体类别标注子任务，实体边界的识别更加困难。故结合上述说明，计算机程序进行命名实体识别的难点包括：(1)汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符，命名实体识别的第一步就是确定词的边界，即分词；(2)汉语分词和命名实体识别互相影响；(3)除了英语中定义的实体，外国人名译名和地名译名是存在于汉语中的两类特殊实体类型；(4)现代汉语文本，尤其是网络汉语文本，常出现中...

【技术保护点】
1.一种基于无监督模型与状态感知机的命名实体抽取系统，其特征在于，/n包括日期抽取模块、时间抽取模块、地名抽取模块；/n日期抽取模块包括日期正则表达模块、日期搜索模块、连续日期数据合并模块、日期实体数据合并模块；/n日期正则表达模块内设有若干种日期格式模板；日期搜索模块用以依据日期格式模板搜索文本中符合日期格式的日期数据；连续日期数据合并模块用以将搜索出的在文本中连续的日期数据合并为一个完整的日期数据；日期实体数据合并模块设有若干种连词模板，用以将具有连词的日期数据、隔一个连词的两个相邻日期数据合并；/n时间抽取模块包括时间正则表达模块、时间搜索模块、连续时间数据合并模块、时间数据筛选模块、时间实体数据合并模块；/n时间正则表达模块内设有若干种时间格式模板；时间搜索模块用以依据时间格式模板搜索文本中符合时间格式的时间数据；连续时间数据合并模块用以将搜索出的在文本中连续的时间数据合并为一个完整的时间数据；时间数据筛选模块中设有若干种语义不为时间的格式模板，并将搜索出的时间数据及合并后的时间数据与语义不为时间的格式模板对比，符合语义不为时间的格式模板的时间数据删除；时间实体数据合并模块用以...

【技术特征摘要】
1.一种基于无监督模型与状态感知机的命名实体抽取系统，其特征在于，
包括日期抽取模块、时间抽取模块、地名抽取模块；
日期抽取模块包括日期正则表达模块、日期搜索模块、连续日期数据合并模块、日期实体数据合并模块；
日期正则表达模块内设有若干种日期格式模板；日期搜索模块用以依据日期格式模板搜索文本中符合日期格式的日期数据；连续日期数据合并模块用以将搜索出的在文本中连续的日期数据合并为一个完整的日期数据；日期实体数据合并模块设有若干种连词模板，用以将具有连词的日期数据、隔一个连词的两个相邻日期数据合并；
时间抽取模块包括时间正则表达模块、时间搜索模块、连续时间数据合并模块、时间数据筛选模块、时间实体数据合并模块；
时间正则表达模块内设有若干种时间格式模板；时间搜索模块用以依据时间格式模板搜索文本中符合时间格式的时间数据；连续时间数据合并模块用以将搜索出的在文本中连续的时间数据合并为一个完整的时间数据；时间数据筛选模块中设有若干种语义不为时间的格式模板，并将搜索出的时间数据及合并后的时间数据与语义不为时间的格式模板对比，符合语义不为时间的格式模板的时间数据删除；时间实体数据合并模块用以将具有连词的日期数据合并；
地名抽取模块包括地名感知机规则特征模块、地名搜索模块；
地名感知机规则特征模块内设有地名感知机规则特征模板，包括内部词性序列模板、后缀特征词模板、前指示词模板、地名简称模板、并列关系连接词模板；地名搜索模块用以依据地名感知机规则特征模板搜索文本中符合地名感知机规则特征模板的时间数据。

2.根据权利要求1所述的命名实体抽取系统，其特征在于：内部词性序列模板中设置内部词性序列{('ns'，地名),('n'，普通名词),('nz'，专有名词),('nd',方位词)}。

3.根据权利要求2所述的命名实体抽取系统，其特征在于：地名搜索模块对文本进行分词和词性标注；
从前向后遍历文本，找到POS词性为ns的词在词典中进行查询，若存在则将该词加入候选地名中；
加入地名后缀特征和前指示词，对词典进行扩展，识别未登录地名；
识别复合的实体类型ns+{ns,n,nz}+nd->LOC；
通过地名简称字表，结合词性j(缩略词词性)进行识别；
每次识别出来一个完整地名之后，判断前一个词是否为连接词Conjunction＝('、','和','与','或','以及')或者左边界词性('v'动词,'p'介词,'wp'标点符号)，后一个词是否为连接词或右边界词性('u'助动词,'wp'标点符号)，若是则向前遍历将未输出过的词输出，直到遇左边界词停止；...

【专利技术属性】
技术研发人员：张国威，
申请(专利权)人：南京中新赛克科技有限责任公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人