一种企业名称识别方法及装置制造方法及图纸

技术编号:31084485 阅读:21 留言:0更新日期:2021-12-01 12:34
本发明专利技术提供了一种企业名称识别方法及装置,其中,该方法包括:获取待识别的企业文本数据;对该企业文本数据进行事件识别,得到目标事件;根据词性识别算法对该目标事件进行识别,得到企业名称,可以解决通过人工筛选企业名称存在效率低的问题,基于事件识别,将文本进行事件分类,理清事件类别与企业的关系,在事件识别结果的基础上提取企业名称,达到了快速抽取企业名称的目的。速抽取企业名称的目的。速抽取企业名称的目的。

【技术实现步骤摘要】
一种企业名称识别方法及装置


[0001]本专利技术涉及数据处理领域,具体而言,涉及一种企业名称识别方法及装置。

技术介绍

[0002]现有方法是通过人工进行筛选,所以效率比较低,速度很慢,且人工成本较高。
[0003]针对相关技术通过人工筛选企业名称存在效率低的问题,尚未提出解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种企业名称识别方法及装置,以至少解决通过人工筛选企业名称存在效率低的问题。
[0005]根据本专利技术的一个实施例,提供了一种企业名称识别方法,包括:
[0006]获取待识别的企业文本数据;
[0007]对所述企业文本数据进行事件识别,得到目标事件;
[0008]根据词性识别算法对所述目标事件进行识别,得到企业名称。
[0009]可选地,在对所述企业文本数据进行事件识别,得到所述目标事件之前,所述方法还包括:
[0010]对所述企业文本数据进行预处理,得到多个语句单元。
[0011]可选地,对所述企业文本数据进行预处理包括:
[0012]对所述企业文本数据进行分词处理;
[0013]去除所述企业文本数据中的停用词。
[0014]可选地,对所述企业文本数据进行事件识别,得到目标事件包括:
[0015]将所述多个语句单元输入预先训练好的目标事件识别模型中,得到所述目标事件识别模型输出的所述多个语句单元对应的多个事件的概率,其中,所述概率大于预设阈值的事件为所述目标事件。
[0016]可选地,在对所述企业文本数据进行事件识别,得到目标事件之前,所述方法还包括:
[0017]获取预定数量的训练样本;
[0018]基于词性识别算法,根据所述训练样本对初始事件识别模型进行训练,得到所述目标事件识别模型。
[0019]可选地,基于词性识别算法,根据所述训练样本对初始事件识别模型进行训练,得到所述目标事件识别模型包括:
[0020]将每个所述训练样本划分为多个事件类别,并分别为所述多个时间类别打上不同的事件标签;
[0021]将所述训练样本中筛除所述事件类别之外的文本,得到目标训练样本;
[0022]基于词性识别算法,将所述目标训练样本输入所述初始事件识别模型中进行训练,得到所述目标事件识别模型。
[0023]根据本专利技术的又一个实施例,还提供了一种企业名称识别装置,包括:
[0024]第一获取模块,用于获取待识别的企业文本数据;
[0025]事件识别模块,用于对所述企业文本数据进行事件识别,得到目标事件;
[0026]名称识别模块,用于根据词性识别算法对所述目标事件进行识别,得到企业名称。
[0027]可选地,所述装置还包括:
[0028]预处理模块,用于对所述企业文本数据进行预处理,得到多个语句单元。
[0029]可选地,所述预处理模块包括:
[0030]分词子模块,用于对所述企业文本数据进行分词处理;
[0031]去除子模块,用于去除所述企业文本数据中的停用词。
[0032]可选地,所述事件识别模块,还用于
[0033]将所述多个语句单元输入预先训练好的目标事件识别模型中,得到所述目标事件识别模型输出的所述多个语句单元对应的多个事件的概率,其中,所述概率大于预设阈值的事件为所述目标事件。
[0034]可选地,所述装置还包括:
[0035]第二获取模块,用于获取预定数量的训练样本;
[0036]训练模块,用于基于词性识别算法,根据所述训练样本对初始事件识别模型进行训练,得到所述目标事件识别模型。
[0037]可选地,所述训练模块包括:
[0038]划分子模块,用于将每个所述训练样本划分为多个事件类别,并分别为所述多个时间类别打上不同的事件标签;
[0039]筛除子模块,用于将所述训练样本中筛除所述事件类别之外的文本,得到目标训练样本;
[0040]训练子模块,用于基于词性识别算法,将所述目标训练样本输入所述初始事件识别模型中进行训练,得到所述目标事件识别模型。
[0041]根据本专利技术的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0042]根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0043]通过本专利技术,获取待识别的企业文本数据;对所述企业文本数据进行事件识别,得到目标事件;根据词性识别算法对所述目标事件进行识别,得到企业名称,可以解决通过人工筛选企业名称存在效率低的问题,基于事件识别,将文本进行事件分类,理清事件类别与企业的关系,在事件识别结果的基础上提取企业名称,达到了快速抽取企业名称的目的。
附图说明
[0044]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0045]图1是本专利技术实施例的企业名称识别方法的移动终端的硬件结构框图;
[0046]图2是根据本专利技术实施例的企业名称识别方法的流程图;
[0047]图3是根据本专利技术实施例的基于事件识别的企业名称抽取的示意图;
[0048]图4是根据本实施例的企业名称识别装置的框图。
具体实施方式
[0049]下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0050]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0051]实施例1
[0052]本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本专利技术实施例的企业名称识别方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0053]存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本专利技术实施例中的企业名称识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业名称识别方法,其特征在于,包括:获取待识别的企业文本数据;对所述企业文本数据进行事件识别,得到目标事件;根据词性识别算法对所述目标事件进行识别,得到企业名称。2.根据权利要求1所述的方法,其特征在于,在对所述企业文本数据进行事件识别,得到所述目标事件之前,所述方法还包括:对所述企业文本数据进行预处理,得到多个语句单元。3.根据权利要求2所述的方法,其特征在于,对所述企业文本数据进行预处理包括:对所述企业文本数据进行分词处理;去除所述企业文本数据中的停用词。4.根据权利要求2所述的方法,其特征在于,对所述企业文本数据进行事件识别,得到目标事件包括:将所述多个语句单元输入预先训练好的目标事件识别模型中,得到所述目标事件识别模型输出的所述多个语句单元对应的多个事件的概率,其中,所述概率大于预设阈值的事件为所述目标事件。5.根据权利要求4所述的方法,其特征在于,在对所述企业文本数据进行事件识别,得到目标事件之前,所述方法还包括:获取预定数量的训练样本;基于词性识别算法,根据所述训练样本对初始事件识别模型进行训练,得到所述目标事件识别模型。6.根据权利要求5所述的方法,其特征在于,基于...

【专利技术属性】
技术研发人员:马小龙苗森李晓鹏景兆翔李岩袁慧莉成学军
申请(专利权)人:中国光大银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1