企业简称提取方法、装置、设备及介质制造方法及图纸

技术编号:35998009 阅读:26 留言:0更新日期:2022-12-17 23:15
本发明专利技术涉及人工智能技术领域,提供了一种企业简称提取方法、装置、设备及介质。该方法包括根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。本发明专利技术还涉及区块链技术领域,上述地区词组、企业名字词组、行业词组还可以存储于一区块链的节点中。词组还可以存储于一区块链的节点中。词组还可以存储于一区块链的节点中。

【技术实现步骤摘要】
企业简称提取方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种企业简称提取方法、装置、设备及介质。

技术介绍

[0002]在检索企业信息的垂直搜索引擎中,大部分用户通常会使用企业的全称或者企业的简称作为搜索词进行检索。若搜索词为知名度比较强的企业的全称或者简称,那么搜索引擎可以轻松也检索出相应的企业信息。例如使用中国平安保险股份有限公司的简称“平安集团”,可以轻松、准确的检索出相应的企业信息。
[0003]但是,若搜索词为一些新兴或知名度较弱的企业简称,那么搜索引擎可能无法检索出相应的企业信息。这是因为搜索引擎存储的企业信息中,并没有存储这类新兴企业的简称,加上企业的知名度不够普及市场时,该企业会存在多个简称,容易造成企业全称与简称匹配精确度不高的问题。

技术实现思路

[0004]鉴于以上内容,本专利技术提供一种企业简称提取方法、装置、设备及介质,其目的在于解决现有技术中企业全称与简称匹配精确度不高的技术问题。
[0005]为实现上述目的,本专利技术提供一种企业简称提取方法,该方法包括:
[0006]根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;
[0007]根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;
[0008]计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。
[0009]优选的,所述根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组,包括:
[0010]获取所述企业的全称进行分词,得到所述企业的全称的词语序列;
[0011]生成所述词语序列的特征向量并输入所述分词模型,分别输出所述企业的全称包含的地区词组、企业名字词组、行业词组。
[0012]优选的,在所述分别得到所述企业的地区词组、企业名字词组、行业词组之前,该方法还包括:
[0013]将所述词语序列的特征向量并输入分词模型,分别得到词组结果,所述词组结果包括地区词组、企业名字词组、行业词组、后缀词组;
[0014]删除所述词组结果的后缀词组。
[0015]优选的,在所述根据预设的分词模型对企业的全称进行分词之前,该方法还包括:
[0016]获取包含已知企业的全称及简称的多个样本数据作为样本数据集;
[0017]根据所述样本数据集训练得到所述分词模型,所述分词模型用于进行简称识别处理。
[0018]优选的,在所述获取包含已知企业的全称及简称的多个样本数据作为样本数据集之后,该方法还包括:
[0019]对所述已知企业的全称及简称的样本数据,按照预设数量进行简称标注处理,将标注后的样本数据作为所述样本数据集的训练样本;
[0020]将未标注的样本数据作为所述样本数据集的验证样本,所述验证样本的总数量小于所述预设数量。
[0021]优选的,所述根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称,包括:
[0022]根据所述已知企业的全称与简称,以及分词规则的映射关系生成所述关系字典;
[0023]根据所述已知企业简称的组合关系中各个词组排序、位置、相邻词组的相似度,对所述地区词组、所述企业名字词组、所述行业词组进行组合;
[0024]得到所述企业的各个简称。
[0025]优选的,在所述计算所述企业的全称与各个所述简称之间相似度之后,该方法还包括:
[0026]获取所述简称组合集的各个简称在预设网路的频次值;
[0027]根据频次值设置对应简称的相似度结果的权重。
[0028]为实现上述目的,本专利技术还提供一种企业简称提取装置,所述装置包括:
[0029]分词模块:用于根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;
[0030]组合模块:用于根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;
[0031]计算模块:用于计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。
[0032]为实现上述目的,本专利技术还提供一种电子设备,所述电子设备包括:
[0033]至少一个处理器;以及,
[0034]与所述至少一个处理器通信连接的存储器;其中,
[0035]所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述企业简称提取方法。
[0036]为实现上述目的,本专利技术还提供一种计算机可读介质,所述计算机可读介质存储有企业简称提取,所述企业简称提取被处理器执行时,实现如权利要求1至7中任一项所述企业简称提取方法的步骤。
[0037]本专利技术对企业的全称进行分词,分别得到企业的地区词组、企业名字词组、行业词组,删除全称中没有实质意义的后缀词组,实现对企业的全称进行准确分词。
[0038]根据已知企业的全称与简称,以及分词规则的映射关系生成所述关系字典,组合地区词组、企业名字词组、行业词组得到企业的简称组合集,能够准确地生成合理的企业简称,计算企业的全称与简称组合集的各个简称之间相似度,从相似度的结果选取相似度值
最大的简称作为企业的目标简称,提高了企业全称与简称匹配之间的精确度。
附图说明
[0039]图1为本专利技术企业简称提取方法较佳实施例的流程图示意图;
[0040]图2为本专利技术企业简称提取装置较佳实施例的模块示意图;
[0041]图3为本专利技术电子设备较佳实施例的示意图;
[0042]本专利技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0043]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]本专利技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0045]人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业简称提取方法,其特征在于,所述方法包括:根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。2.如权利要求1所述的企业简称提取方法,其特征在于,所述根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组,包括:获取所述企业的全称进行分词,得到所述企业的全称的词语序列;生成所述词语序列的特征向量并输入所述分词模型,分别输出所述企业的全称包含的地区词组、企业名字词组、行业词组。3.如权利要求1所述的企业简称提取方法,其特征在于,在所述分别得到所述企业的地区词组、企业名字词组、行业词组之前,该方法还包括:将所述词语序列的特征向量并输入分词模型,分别得到词组结果,所述词组结果包括地区词组、企业名字词组、行业词组、后缀词组;删除所述词组结果的后缀词组。4.如权利要求1所述的企业简称提取方法,其特征在于,在所述根据预设的分词模型对企业的全称进行分词之前,该方法还包括:获取包含已知企业的全称及简称的多个样本数据作为样本数据集;根据所述样本数据集训练得到所述分词模型,所述分词模型用于进行简称识别处理。5.如权利要求4所述的企业简称提取方法,其特征在于,在所述获取包含已知企业的全称及简称的多个样本数据作为样本数据集之后,该方法还包括:对所述已知企业的全称及简称的样本数据,按照预设数量进行简称标注处理,将标注后的样本数据作为所述样本数据集的训练样本;将未标注的样本数据作为所述样本数据集的验证样本,所述验证样本的...

【专利技术属性】
技术研发人员:王大伟徐胜平
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1