【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,特别涉及一种企业实体名称分析识别系统。
技术介绍
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起于繁荣离不开大量的信息数据分析,而信息分析的价值在于准确和敏锐,敏锐的分析要求及时快速的发现新的信息;但是直接从网页上获取到数据大部分都是非结构化的,为了使用这些数据,数据清洗工作成了各大公司耗费时间精力最多的地方。而数据清洗当中特定信息提取,特别是命名实体的提取又是经常发生的事情,比如做企业征信,最常见的任务就是从大篇幅文本当中提取公司的名字。除了常见的按照“省市+关键字+行业+组织形式”的规则来命名之外,还存在大量的例外,比如公司名没有使用省市作为开头,又或者在非正式文本里,公司名可能以简写、缩写的方式出现,这直接导致了使用传统的方式来进行的信息解析的召回率不高。此外随着市场经济的繁荣,新增加的企业主体不断出现,新的市场主体的也会随之出现在各种各样的网络数据或媒体新闻中,从海量的网页资讯中快速准确的发现和提取出新的机构名称,对于相关问题分析的及时性具有特别重要的意义。传统的自然语言处理方法使用条件随机场(CRF)对文本进行序列建模,进行文本分析识别和发现公司名。使用条件随机场,首先需要根据待识别实体的特点来设计构建特征模板,特征模板包括指定窗口大小上下文的一阶词或者多阶词组,词的前缀、后缀,词性标注等状态特征;特征模板的构造非常耗时耗力,识别结果对特征模板的依赖程度极大,而手动设置的特征模板往往仅依据部分样本的 ...
【技术保护点】
一种企业实体名称分析识别系统,所述系统包括双向递归神经网络模块,其特征在于:所述系统使用现有企业名称数据库中存储的企业名称标注的训练样本来训练双向递归神经网络,训练完成后的双向递归神经网络识别出待识别文本中的企业名称,并将不属于现有名称的企业名称作为新的企业名称提取出来。
【技术特征摘要】
1.一种企业实体名称分析识别系统,所述系统包括双向递归神经网络模块,其特征在于:所述系统使用现有企业名称数据库中存储的企业名称标注的训练样本来训练双向递归神经网络,训练完成后的双向递归神经网络识别出待识别文本中的企业名称,并将不属于现有名称的企业名称作为新的企业名称提取出来。2.如权利要求1所述的系统,其特征在于:所述系统使用现有企业名称数据库中存储的企业名称标注训练样本时,将样本中的企业名称分段标注为:开始部分、中间部分和结束部分,将不属于企业名称的标注为无关部分。3.如权利要求2所述的系统,其特征在于:所述双向递归神经网络模块,采用如下向前算法公式: a h → t = Σ i I w i h → x i t + Σ h ′ → H w h → h ′ → b h ′ → t - 1 ]]> b h → t = θ ( a h → t ) ]]> a h ← t = Σ i I w i h ← x i t + Σ h ′ ← H w h ← h ′ ← b h ′ ← t - 1 ]]> b h ← t = θ ( a h ← t ) ]]> a ...
【专利技术属性】
技术研发人员:刘世林,何宏靖,
申请(专利权)人:成都数联铭品科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。