一种用于公司名称的提取方法和系统技术方案

技术编号:32014957 阅读:19 留言:0更新日期:2022-01-22 18:32
公开了一种用于公司名称的提取方法和系统,包括获取公司名称样本,对公司名称样本进行分词处理和词性判断;基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;对待提取文本中进行分词处理和词性判断,利用正则表达式提取待提取文本中的公司名称。还公开了一种用于公司名称的提取系统,该方法和系统能够准确快速的在海量资讯中定位公司名称,可以运用于在资讯中嵌入公司详情信息,或大数据的关联分析场景中。或大数据的关联分析场景中。或大数据的关联分析场景中。

【技术实现步骤摘要】
一种用于公司名称的提取方法和系统


[0001]本专利技术涉及计算机技术应用领域,尤其是一种用于公司名称的提取方法和系统。

技术介绍

[0002]在如今飞速发展的互联网时代下,信息量也越来越大,各种不同的信息资讯通过各种媒介进行传播。公司是参与商业活动的主体。商业资讯和财经资讯中经常会出现公司名称。如果能够准确快速的从资讯中提取其中的公司名称,就可以提供给第三方系统用于他途,包括但不仅限于搜索引擎、舆情分析、数据关联分析等应用场景。因此,提取公司名称的方法是非常重要的。另外,由于新闻资讯数据量巨大,因此这些数据的分析速度也是需要重视的。同时根据国家有关法律、法规的规定,公司名称一般由四部分组成:行政区划、字号、行业(经营特点)和组织形式。由于公司字号的复杂性和多样性,导致利用数据处理技术提取公司名称的难度加大。
[0003]在公司名称挖掘的现有技术中,有一种方案是通过爬虫或其他方式构建有限的公司名称据集,再基于这些数据集使用AC

BM等搜索算法定位原始文档中的公司名称。另一现有方案是基于词性标注的公司名称数据集训练的神经网络模型,对公司名称进行识别。这些技术具有如下问题:
[0004]1、基于有限的公司名称数据集进行搜索,具有数据覆盖不全的问题。
[0005]2、基于神经网络模型的方案,需要采集一定量的训练样本对网络模型进行训练,过程较为复杂。

技术实现思路

[0006]为了解决现有技术中基于有限的公司名称数据集进行搜索,具有数据覆盖不全的问题、基于神经网络模型的方案,需要采集一定量的训练样本对网络模型进行训练,过程较为复杂的技术问题,本专利技术提出了一种用于公司名称的提取方法和系统,用以解决上述技术问题,
[0007]根据本专利技术的一个方面,提出了一种用于公司名称的提取方法,包括:
[0008]S1:获取公司名称样本,对公司名称样本进行分词处理和词性判断;
[0009]S2:基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;以及
[0010]S3:对待提取文本中进行分词处理和词性判断,利用正则表达式提取待提取文本中的公司名称。
[0011]在一些具体的实施例中,步骤S1中采用自然语言处理算法进行分词处理和词性判断。利用自然语言处理算法可以快速准确实现分词和词性的判断处理。
[0012]在一些具体的实施例中,分词处理和词性判断获取的词性结构包括名词、地名、人名、其他专名、标点符号和机构后缀。基于该词性结构可以将公司名称分割成多个词性结构。
[0013]在一些具体的实施例中,公司名称的词性结构特征的正则表达式以分词为单位进行匹配。凭借该设置能够使得匹配结果更加精准。
[0014]在一些具体的实施例中,每个分词的正则表达式规则为分词位置+词性标注+结束记号,其中分词位置以数字序号表示。利用该规则可以准确定位分词的位置情况,以便于快速定位公司名称。
[0015]在一些具体的实施例中,步骤S3具体包括:
[0016]S31:在待提取文本中定位和提取可能存在公司名称的段落集合;
[0017]S32:对段落集合进行分词处理和词性判断,并构建提取段落的词性构成表达式;
[0018]S33:利用步骤S2中的正则表达式逐一对提取段落的词性构成表达式进行匹配提取公司名称。
[0019]在一些具体的实施例中,步骤S2中提取若干词性结构特征的正则表达式构成正则表达式库,响应于正则表达式匹配提取段落的词性构成表达式进行匹配提取公司名称,增加正则表达式的置信度。通过置信度的设置可以将匹配成功率高的正则表达式置顶,以提高后续匹配的速度。
[0020]在一些具体的实施例中,基于正则表达式的置信度降序进行匹配。凭借该设定可以提高匹配的速度。
[0021]根据本专利技术的第二方面,一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施上述方法。
[0022]根据本专利技术的第三方面,提出了一种用于公司名称的提取系统,该系统包括:
[0023]处理单元:配置用于获取公司名称样本,对公司名称样本进行分词处理和词性判断;
[0024]正则表达式构建单元:配置用于基于公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;
[0025]提取单元:配置用于对待提取文本中进行分词处理和词性判断,利用正则表达式提取待提取文本中的公司名称。
[0026]本专利技术的一种用于公司名称的提取方法和系统,根据公司名称的词性组成建立公司名称词性的正则表达式,在待提取文档中定位可能存在公司名称的可疑文本片段,使用中文分词处理对可疑片段进行分词处理,最后使用预先设置的正则表达式提取可疑片段中的公司名称,该方法无需构建公司名称数据集、使用词性正则匹配能够覆盖现有和未来产生的所有标准的公司名称,不需要基于神经网路模型。
附图说明
[0027]包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本专利技术的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
[0028]图1是本申请的一个实施例的用于公司名称的提取方法的流程图;
[0029]图2是本申请的一个具体的实施例的提取匹配公司名称词性构成方法的流程图;
[0030]图3是本申请的一个具体的实施例的提取公司名称的方法流程图;
[0031]图4是本申请的一个具体的实施例的提取公司名称词性结构正则表达式的方法实例流程图;
[0032]图5是本申请的一个实施例的用于公司名称的提取系统的框架图;
[0033]图6是是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0034]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。
[0035]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0036]图1出了根据本申请的一个实施例的用于公司名称的提取方法的流程图,如图1所示,该方法包括以下步骤:
[0037]S101:获取公司名称样本,对公司名称样本进行分词处理和词性判断。具体的,可以采用自然语言处理算法进行分词处理和词性判断,分词处理和词性判断获取的词性结构包括有名词、地名、人名、其他专名、计算机相关词汇、标点符号和机构后缀等。
[0038]在具体的实施例中,根据相关规定,企业名称一般由四部分组成:行政区划+字号+行业+组织形式。例如:“北京顶牛科技有限公司”。行政区划一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于公司名称的提取方法,其特征在于,包括:S1:获取公司名称样本,对所述公司名称样本进行分词处理和词性判断;S2:基于所述公司名称样本的词性组成结构提取若干词性结构特征的正则表达式;以及S3:对待提取文本中进行分词处理和词性判断,利用所述正则表达式提取所述待提取文本中的公司名称。2.根据权利要求1所述的用于公司名称的提取方法,其特征在于,所述步骤S1中采用自然语言处理算法进行分词处理和词性判断。3.根据权利要求1所述的用于公司名称的提取方法,其特征在于,所述分词处理和词性判断获取的词性结构包括名词、地名、人名、其他专名、标点符号和机构后缀。4.根据权利要求1所述的用于公司名称的提取方法,其特征在于,所述公司名称的词性结构特征的正则表达式以分词为单位进行匹配。5.根据权利要求4所述的用于公司名称的提取方法,其特征在于,每个分词的正则表达式规则为分词位置+词性标注+结束记号,其中分词位置以数字序号表示。6.根据权利要求1所述的用于公司名称的提取方法,其特征在于,所述步骤S3具体包括:S31:在待提取文本中定位和提取可能存在公司名称的段落集合;S32:对所述段落集...

【专利技术属性】
技术研发人员:许全聪吴少华吴江煌彭玄宁吴仁均连慧奇
申请(专利权)人:厦门美亚亿安信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1