一种基于双向递归神经网络的新企业名称发现方法技术

技术编号：13738238 阅读：98 留言：0更新日期：2016-09-22 09:58

本发明专利技术涉及自然语言处理领域，特别涉及一种基于双向递归神经网络的新企业名称发现方法，本发明专利技术通过现有的企业名称数据自动标注样本来训练双向递归神经网络，通过双向递归神经网络的学习自动识别待处理文本中的企业名称，并将不属于现有企业名称的新企业名称提取出来，本发明专利技术通过对文本的基本元素，比如字、词、标点符号等进行特征的自动学习，克服了传统方式中需要手动设置特征的缺陷；不仅如此，本发明专利技术应用了双向传播的RNN使得待识别的自然语言序列的分类判断结果依赖了上下文信息，提取和判断的准备率更高，本发明专利技术方法通过已有数据特点来发现新的企业实体名称，在大数据分析领域特别是以企业为分析主体的数据分析领域中具有重要的应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，特别涉及一种基于双向递归神经网络的新企业名称发现方法。
技术介绍
随着互联网的快速发展，产生了大量的、公开的网页数据，也因此催发了各种基于大数据技术的新兴产业，比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起于繁荣离不开大量的信息数据分析，而信息分析的价值在于准确和敏锐，敏锐的分析要求及时快速的发现新的信息；但是直接从网页上获取到数据大部分都是非结构化的，为了使用这些数据，数据清洗工作成了各大公司耗费时间精力最多的地方。而数据清洗当中特定信息提取，特别是命名实体的提取又是经常发生的事情，比如做企业征信，最常见的任务就是从大篇幅文本当中提取公司的名字。除了常见的按照“省市+关键字+行业+组织形式”的规则来命名之外，还存在大量的例外，比如公司名没有使用省市作为开头，又或者在非正式文本里，公司名可能以简写、缩写的方式出现，这直接导致了使用传统的方式来进行的信息解析的召回率不高。此外随着市场经济的繁荣，新增加的企业主体不断出现，新的市场主体的也会随之出现在各种各样的网络数据或媒体新闻中，从海量的网页资讯中快速准确的发现和提取出新的机构名称，对于相关问题分析的及时性具有特别重要的意义。传统的自然语言处理方法使用条件随机场(CRF)对文本进行序列建模，进行文本分析识别和发现公司名。使用条件随机场，首先需要根据待识别实体的
特点来设计构建特征模板，特征模板包括指定窗口大小上下文的一阶词或者多阶词组，词的前缀、后缀，词性标注等状态特征；特征模板的构造非常耗时耗力，识别结果对特征模板的依赖程度极大，而手动...

【技术保护点】
一种基于双向递归神经网络的新企业名称发现方法，其特征在于，通过现有的企业名称数据自动标注样本来训练双向递归神经网络，通过所述双向递归神经网络自动识别出待处理文本中的企业名称，并将其中新企业名称提取出来。

【技术特征摘要】
1.一种基于双向递归神经网络的新企业名称发现方法，其特征在于，通过现有的企业名称数据自动标注样本来训练双向递归神经网络，通过所述双向递归神经网络自动识别出待处理文本中的企业名称，并将其中新企业名称提取出来。2.如权利要求1所述的方法，其特征在于，包含以下实现步骤：(1)使用现有企业名称列表数据来自动标注训练样本中的企业名称，并将企业名称分段标记为：开始部分、中间部分、结束部分，将企业主体名称以外的文字标记为无关部分；(2)将经过人工标记的训练样本中的文字序列，先正向再反向输入所双向述递归神经网络中，训练所述双向递归神经网络；(3)将待分析文本中的文字序列，先正向再反向输入训练好的所述双向递归神经网络中，经过双向递归神经网络判断出文字序列中各个词或者字的类型，并将其中相邻的属于企业名称的开始中间结束部分对应的字词作为一个整体提取出来；(4)将所述双向递归神经网络识别出来的企业名称与现有企业列表数据对比，将不属于现有企业名称的作为新的企业名称提取出来。3.如权利要求2所述的方法，其特征在于，所述双向递归神经网络采用如下向前算法公式： a h → t = Σ i I w i h → x i t + Σ h ′ → H w h → h ′ → b h ′ → t - 1 ]]> b h → t = θ ( a h → t ) ]]> a h ← t = Σ i I w i h ← x i t + Σ h ′ ← H w h ← h ′ ← b h ′ ← t + 1 ]]> b h ← t = θ ...

【专利技术属性】
技术研发人员：刘世林，何宏靖，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人