一种基于双向递归神经网络的企业简称提取方法技术

技术编号:13781464 阅读:113 留言:0更新日期:2016-10-04 18:15
本发明专利技术涉及自然语言处理领域,特别涉及一种基于双向递归神经网络的企业简称提取方法,本发明专利技术通过分词处理将待处理文本序列化,并选取一定数量待处理文本进行人工标注,将其中的企业名称分段标注为:开始部分、关键字部分、行业部分和组织形式部分,将企业名称以外的数据标注为无关部分,将标注后的训练样本输入双向递归神经网络中训练所述双向递归神经网络,经过所述双向递归神经网络的预测,将其中属于企业名称的字词序列提取出来,进一步的提取出属于名称关键字部分的字段作为企业的简称,建立相应的企业简称数据库,为非正式文本的相关信息分析提供有力的技术支撑。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别涉及一种基于双向递归神经网络的企业简称提取方法
技术介绍
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起于繁荣离不开大量的信息数据分析,而信息分析的价值在于敏锐和准确,敏锐的分析要求及时快速的发现新的信息;但是直接从网页上获取到数据大部分都是非结构化的,为了使用这些数据,数据清洗工作成了各大公司耗费时间精力最多的地方。而数据清洗当中特定信息提取,特别是命名实体的提取又是经常发生的事情,比如做企业征信,最常见的任务就是从大篇幅文本当中提取公司的名字。除了常见的按照“省市+关键字+行业+组织形式”的规则来命名之外,还存在大量的例外,比如公司名没有使用省市作为开头,又或者在非正式文本里,公司名可能以简写、缩写的方式出现,这直接导致了使用传统的方式来进行的信息解析的召回率不高。事实上,非正式文本比如:网络新闻、媒体资讯、简报、评论文章、微博内容等中涉及企业名称的内容中的企业名称大多数都是以简称的方式出现,且这些非正式文本在相关的信息分析中的比重远大于正式文本,在这些海量的互联网信息中快速准确的提取相关的企业名称以及简称,对于避免相关信息的漏判具有重要的意义。传统的自然语言处理方法使用条件随机场(CRF)对文本进行序列建模,进
行文本分析识别和发现公司名。使用条件随机场,首先需要根据待识别实体的特点来设计构建特征模板,特征模板包括指定窗口大小上下文的一阶词或者多阶词组,词的前缀、后缀,词性标注等状态特征;特征模板的构造非常耗时耗力,而手动设置的特征模板往往仅依据部分样本的特点,通用性差;识别结果对特征模板的依赖程度极大,而且通常只能用到局部的上下文信息,各个特征模板的使用也是相互独立的,预测不能依赖更长的历史状态信息,也无法利用更长未来的信息反馈来纠正可能的历史错误;预测过程费时费力,预测结果难以实现全局最优。此外由于企业简称的随机性和非规则性,提取出企业的简称使用传统的CRF的方式很难实现。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种基于双向递归神经网络的企业简称提取方法。通过双向递归神经网络来来识别待处理文本中的企业名称,并将企业名称中的简称提取出来存入企业简称数据库中。为了实现上述专利技术目的,本专利技术提供了以下技术方案:一种基于双向递归神经网络的企业简称提取方法,本专利技术方法包含以下实现步骤:(1)对待处理文本进行分词处理,形成对应的字词序列;(2)选取设定数量的待处理样本进行人工标注,根据分词结果,将其中的企业名称分段标注为开始部分、关键字部分、行业部分和组织形式部分,将企业名称以外的文本标注为无关部分;(3)将人工标注的文本,先正向再反向输入所双向述递归神经网络中,训
练所述双向递归神经网络;(4)将待分析文本中的文字序列,先正向再反向输入训练好的所述双向递归神经网络中,经过双向递归神经网络判断出文字序列中各个词或者字的分类,并将其中相邻的属于企业名称的字词作为一个整体提取出来;(5)将提取出来的企业名称中属于企业名称关键字部分的作为企业的简称提取出来,放入企业简称数据库中。进一步的,所述双向递归神经网络采用以下向前算法公式: a h → t = Σ i I w i h → x i t + Σ h ′ → H w h → h ′ → b h ′ → t - 1 ]]> b h → t = θ ( a h → t ) ]]> a h ← t = Σ i I w i h ← x i t + Σ h ′ ← H w h ← h ′ ← b h ′ ← t + 1 ]]> b h ← t = θ ( a h ← t ) ]]> 本文档来自技高网
...

【技术保护点】
一种基于双向递归神经网络的企业简称提取方法,其特征在于,包含以下实现步骤:(1)对待处理文本进行分词处理,形成对应的字词序列;(2)选取设定数量的待处理样本进行人工标注,根据分词结果,将其中的企业名称分段开始部分、关键字部分、行业部分和组织形式部分,将企业名称以外的文本标注为无关部分;(3)将人工标注的文本,先正向再反向输入所双向述递归神经网络中,训练所述双向递归神经网络;(4)将待分析文本中的文字序列,先正向再反向输入训练好的所述双向递归神经网络中,经过双向递归神经网络判断出文字序列中各个词或者字的分类,并将其中相邻的属于企业名称的字词作为一个整体提取出来;(5)将提取出来的企业名称中属于企业名称关键字部分的作为企业的简称提取出来,放入企业简称数据库中。

【技术特征摘要】
1.一种基于双向递归神经网络的企业简称提取方法,其特征在于,包含以下实现步骤:(1)对待处理文本进行分词处理,形成对应的字词序列;(2)选取设定数量的待处理样本进行人工标注,根据分词结果,将其中的企业名称分段开始部分、关键字部分、行业部分和组织形式部分,将企业名称以外的文本标注为无关部分;(3)将人工标注的文本,先正向再反向输入所双向述递归神经网络中,训练所述双向递归神经网络;(4)将待分析文本中的文字序列,先正向再反向输入训练好的所述双向递归神经网络中,经过双向递归神经网络判断出文字序列中各个词或者字的分类,并将其中相邻的属于企业名称的字词作为一个整体提取出来;(5)将提取出来的企业名称中属于企业名称关键字部分的作为企业的简称提取出来,放入企业简称数据库中。2.如权利要求1所述的方法,其特征在于,所述双向递归神经网络采用如下向前算法公式: a h → t = Σ i I w i h → x i t + Σ h ′ → H w h → h ′ → b h ′ → t - 1 ]]> b h → t = θ ( a h → t ) ]]> a h ← t = Σ i I w i h ← x i t + Σ h ′ ← H w h ← h ′ ← b h ′ ← t - 1 ]]> b h ← t = θ ( a h ← ...

【专利技术属性】
技术研发人员:刘世林何宏靖
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1