金融命名实体识别方法及系统、存储介质及终端技术方案

技术编号:30789958 阅读:10 留言:0更新日期:2021-11-16 07:52
本发明专利技术提供一种金融命名实体识别方法及系统、存储介质及终端,包括以下步骤:对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库;构建金融命名实体的实体词候选模型;基于所述实体词候选模型,在待识别文本中筛选出候选实体词;基于所述拓展实体词数据库验证所述候选实体词;对通过验证的候选实体词进行消歧处理,获取所述待识别文本中的金融命名实体的识别结果。本发明专利技术的金融命名实体识别方法及系统、存储介质及终端有效提高了金融命名实体的覆盖率,实现了金融命名实体的快速高效识别。效识别。效识别。

【技术实现步骤摘要】
金融命名实体识别方法及系统、存储介质及终端


[0001]本专利技术涉及命名实体识别的
,特别是涉及一种金融命名实体识别方法及系统、存储介质及终端。

技术介绍

[0002]命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。命名实体识别是指识别文本中具有特定意义的实体,是自然语言处理中的一项基础性关键任务。
[0003]金融命名实体识别是针对金融领域内的特定意义的命名实体进行识别。其中,金融命名实体主要包括股票、基金、债券、公司和组织机构。金融命名实体识别在金融资讯分类、资讯中的关键词提取起着重要作用,也是金融相关文本解析中事件抽取、关系抽取的基石。
[0004]现有技术中,命名实体识别主要采用以下四种方法:
[0005](1)基于词典的方法;
[0006](2)基于规则的方法
[0007](3)基于概率模型的方法
[0008](4)基于深度学习的方法。
[0009]然而,对于数量级较大的金融命名实体,现有的识别方法存在覆盖率较低、速度较慢的问题。

技术实现思路

[0010]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种金融命名实体识别方法及系统、存储介质及终端,有效提高了金融命名实体的覆盖率,实现了金融命名实体的快速高效识别。
[0011]为实现上述目的及其他相关目的,本专利技术提供一种金融命名实体识别方法,包括以下步骤:对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库;构建金融命名实体的实体词候选模型;基于所述实体词候选模型,在待识别文本中筛选出候选实体词;基于所述拓展实体词数据库验证所述候选实体词;对通过验证的候选实体词进行消歧处理,获取所述待识别文本中的金融命名实体的识别结果。
[0012]于本专利技术一实施例中,对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库包括以下步骤:
[0013]根据实体词类型优先级依次获取待拓展实体词;
[0014]对于包含公司后缀的所述待拓展实体词,判断去除所述公司后缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述公司后缀的待拓展实体词添加至所述拓展实体词数据库中;
[0015]对于包含地名前缀的所述待拓展实体词,判断去除所述地名前缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述地名前缀的待拓展实体词添加
至所述拓展实体词数据库中;
[0016]对于包含地名前缀和公司后缀的所述待拓展实体词,判断去除所述地名前缀和所述公司后缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述地名前缀和所述公司后缀的待拓展实体词添加至所述拓展实体词数据库中。
[0017]于本专利技术一实施例中,所述实体词类型优先级从高到低依次为上市公司、发行金融产品的非上式公司和不发行金融产品的非上市公司;不发行金融产品的非上市公司根据注册资本划分优先级。
[0018]于本专利技术一实施例中,构建金融命名实体的实体词候选模型包括以下步骤:
[0019]设定实体词的首两字和尾两字,并确定包含所述首两字和所述尾两字的实体词最大长度;
[0020]将所述实体词基于MD5算法映射为128比特的数据;
[0021]将所述128比特的数据按照顺序等分为4个32比特的数据;
[0022]对于每个32比特的数据,将前27比特数据对应为一2
27
个元素且初始值为0的整型数组的下标,后5比特数据映射为所述下标对应的整型元素对应的末5映射位并将所述末5映射位置1;所述末5映射位是以后5比特数据转换得到0

31的数值对应的所述整型元素由后向前的比特位。
[0023]于本专利技术一实施例中,基于所述实体词候选模型,在待识别文本中筛选出候选实体词包括以下步骤:
[0024]以两个字为窗口遍历所述待识别文本,基于设定的首两字、尾两字以及所述实体词最大长度,筛选疑似实体词;
[0025]对于每个所述疑似实体词,基于MD5算法映射为128比特的数据;将所述128比特的数据按照顺序等分为4个32比特的数据;对于每个32比特的数据,将前27比特数据对应为是整型数组的下标,后5比特数据映射为所述下标对应的整型元素对应的末5映射位;
[0026]在所述实体词候选模型中查找与所述疑似实体词的四个整型元素的末5映射位对应的比特位,仅当四个比特位均为1时,判定所述疑似实体词为候选实体词。
[0027]于本专利技术一实施例中,基于所述拓展实体词数据库验证所述候选实体词包括以下步骤:
[0028]令所述拓展实体词数据库中同一金融命名实体对应的实体词具有相同的唯一标识信息;
[0029]在所述拓展实体词数据库中查找所述候选实体词对应的唯一标识信息和金融命名实体全称;若查找成功,则所述候选实体词验证通过。
[0030]于本专利技术一实施例中,对通过验证的候选实体词进行消歧处理,获取所述待识别文本中的金融命名实体的识别结果包括以下步骤:
[0031]判断所述候选实体词是否为已标注的歧义实体词;
[0032]若是已标注的歧义实体词,获取所述候选实体词所在句子及前后句子作为语料s*;对所述语料进行分词,得到词w
1*
,w
2*

w
n*
;分别计算所述候选实体词存在歧义的概率P(c0|s*)和不存在歧义的概率P(c1|s*);其中,P(c0|s*)=P(c0|w
1*
)P(c0|w
2*
)

P(c0|w
n*
);P(c1|s*)=P(c1|w
1*
)P(c1|w
2*
)

P(c1|w
n*
);P(c0|w
a*
)和P(c1|w
a*
)分别为词w
a
存在歧义和不存在歧义的概率,a=1、2

n;
[0033]当P(c0|s*)>P(c1|s*)时,判定所述候选实体词为歧义词;否则判定所述候选实体词为所述识别结果。
[0034]于本专利技术一实施例中,基于Elastic Search构建所述拓展实体词数据库。
[0035]于本专利技术一实施例中,基于Hbase和Redis存储所述实体词候选模型。
[0036]本专利技术提供一种金融命名实体识别系统,包括拓展模块、构建模块、筛选模块、验证模块和消歧模块;
[0037]所述拓展模块用于对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库;
[0038]所述构建模块用于构建金融命名实体的实体词候选模型;
[0039]所述筛选模块用于基于所述实体词候选模型,在待识别文本中筛选出候选实体词;
[0040]所述验证模块用于基于所述拓展实体词数据库验证所述候选实体词;...

【技术保护点】

【技术特征摘要】
1.一种金融命名实体识别方法,其特征在于:包括以下步骤:对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库;构建金融命名实体的实体词候选模型;基于所述实体词候选模型,在待识别文本中筛选出候选实体词;基于所述拓展实体词数据库验证所述候选实体词;对通过验证的候选实体词进行消歧处理,获取所述待识别文本中的金融命名实体的识别结果。2.根据权利要求1所述的金融命名实体识别方法,其特征在于:对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库包括以下步骤:根据实体词类型优先级依次获取待拓展实体词;对于包含公司后缀的所述待拓展实体词,判断去除所述公司后缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述公司后缀的待拓展实体词添加至所述拓展实体词数据库中;对于包含地名前缀的所述待拓展实体词,判断去除所述地名前缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述地名前缀的待拓展实体词添加至所述拓展实体词数据库中;对于包含地名前缀和公司后缀的所述待拓展实体词,判断去除所述地名前缀和所述公司后缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述地名前缀和所述公司后缀的待拓展实体词添加至所述拓展实体词数据库中。3.根据权利要求2所述的金融命名实体识别方法,其特征在于:所述实体词类型优先级从高到低依次为上市公司、发行金融产品的非上式公司和不发行金融产品的非上市公司;不发行金融产品的非上市公司根据注册资本划分优先级。4.根据权利要求1所述的金融命名实体识别方法,其特征在于:构建金融命名实体的实体词候选模型包括以下步骤:设定实体词的首两字和尾两字,并确定包含所述首两字和所述尾两字的实体词最大长度;将所述实体词基于MD5算法映射为128比特的数据;将所述128比特的数据按照顺序等分为4个32比特的数据;对于每个32比特的数据,将前27比特数据对应为一2
27
个元素且初始值为0的整型数组的下标,后5比特数据映射为所述下标对应的整型元素对应的末5映射位并将所述末5映射位置1;所述末5映射位是以后5比特数据转换得到0

31的数值对应的所述整型元素由后向前的比特位。5.根据权利要求4所述的金融命名实体识别方法,其特征在于:基于所述实体词候选模型,在待识别文本中筛选出候选实体词包括以下步骤:以两个字为窗口遍历所述待识别文本,基于设定的首两字、尾两字以及所述实体词最大长度,筛选疑似实体词;对于每个所述疑似实体词,基于MD5算法映射为128比特的数据;将所述128比特的数据按照顺序等分为4个32比特的数据;对于每个32比特的数据,将前27比特数据对应为所述整型数组的下标,后5比特数据映射为所述下标对应的整型元素对应的末5映射位;
在所述实体词候选模型中查找与所述疑似实体词的四个整型元素的末5映射位对应的比特位,仅当四个比特位均为1时,判定所述疑似实体词为候选实体词。6.根据权利要求1所述的金融命名实体识别方法,其特征在于:基于所述拓展实体词数据库验证所述候选实体词包括以下步骤:令所述拓展实体词数据库中同一金融命名实体对应的实体词具有相同的唯一标识信息;在所述拓展实体词数据库中查找所述候选实体词对应的唯一标识信息和金融命名实体全称;若查找成功,则所述候选实体词验证通过。7.根据权利要求1所述的金融命名实体识别方法,其特征在于:对通过验证的候选实体词进行消歧处理,获取所述待识别文本中的金融命名实体的识别结果包括以下步骤:判断所述候选实体词是否为已标注的歧义实体词;若是已标注的歧义实体词,获取所述候选实体词所在句子及前后句子作为语料s*;对所述语料进行分词,得到词w
1*
,w
2*

w
n*
;分别计算所述候选实体词存在歧义的概率P(c0|s*)和不存在歧义的概率P(c1|s*);其中,P(c0|s*)=P(c0|w
1*
)P(c0|w
2*
)

P(c0|w
n*
);P(c1|s*)=P(c1|w
1*
)P(c1|w
2*
)

P(c1|w
n*
);P(c0|w
a*
)和P(c1|w
a*
)分别为词w
a
存在歧义和不存在歧义的概率,a=1、2

n;当P(c0|s*)>P(c1|s*)时,判定所述候选实体词为歧义词;否则判定所述候选实体词为所述识别结果。8.根据权利要求1所述的金融命名实体识别方法,其特征在于:基于Elastic Search构建所述拓展实体词数据库。9.根据权利要求1所述的金融命名实体识别方法,其特征在于:基于Hbase和Redis存储所述实体词候选模型。10.一种金融命名实体识别系统,其特征在于:包括拓展模块、构建模块、筛选模块、验证模块和消歧模块;所述拓展模块用于对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库;所述构建模块用于构建金融命名实体的实体词候选模型;所述筛选模块用于基于所述实体词候选模型,在待识别文本中筛选出候选实体词;所述验证模...

【专利技术属性】
技术研发人员:周凯敏张秀龙
申请(专利权)人:东方财富信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1