一种企业名的消歧方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24683981 阅读:56 留言:0更新日期:2020-06-27 08:07
本申请公开了一种企业名的消歧方法、装置、电子设备及存储介质,涉及知识图谱技术领域。具体实现方案为:在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要;在新闻中查找各个企业名摘要;若在新闻中查找到至少一个企业名摘要,则在新闻中获取查找到的各个企业名摘要对应的企业名;若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据新闻的文本特征和预先获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。本申请实施例可以高效地对新闻中出现的企业名简称或者别名进行消歧,从而可以快速地将新闻与其相关的企业进行聚合。

A disambiguation method, device, electronic equipment and storage medium of enterprise name

【技术实现步骤摘要】
一种企业名的消歧方法、装置、电子设备及存储介质
本申请涉及知识图谱
,进一步涉及实体消歧技术,尤其是一种企业名的消歧方法、装置、电子设备及存储介质。
技术介绍
随着互联网2.0时代的到来,互联网资讯已经演化为最主要的信息传播途径,每天都会有着非常大规模的企业相关信息资讯报道,这些报道与企业经营和发展有着千丝万缕的联系,通过获取企业当前最新的新闻资讯可以帮助银行、金融或其他应用方更好的了解企业目前的状况,以此来决定后续的授信、合作等意图。对于上述问题,最好的解决方案是基于企业知识图谱的方式查询企业相关信息,但目前中国有近8000万家企业处于运营状态,而企业相关的新闻每天的更新量也在百万级别,如何快速、高效精准的获取每个企业对应的新闻资讯是企业知识图谱能够良好运行的重点。目前主要采用实体消歧的解决方案,实体消歧是为了解决自然语言中广泛存在的命名实体的歧义(一词多义)问题,属于词义消歧的一部分,是自然语言处理中非常重要的基础性工作。实体消歧的本质在于一个单词很可能有多个意思,也就是在不同的上下文中所表达的含义可能不太一样。例如,在某个新闻中出现了“苹果”,需要在根据新闻的上下文确定出该“苹果”指的是iphone手机,还是指水果。采用现有的实体消歧的方法,主要问题在于:1)适应性差,大多数情况只能适用于封闭的集合中,很难处理开放域的消歧问题;2)耗时非常长,主要原因是每天的资讯数据量大,且企业数量也非常多。
技术实现思路
有鉴于此,本申请提出实施例提供一种企业名的消歧方法、装置、电子设备及存储介质,可以高效地对新闻中出现的企业名简称或者别名进行消歧,从而可以快速地将新闻与其相关的企业进行聚合。第一方面,本申请实施例提供了一种企业名的消歧方法,所述方法包括:在预先构建的企业名摘要集合中,获取企业名摘要;其中,所述企业名摘要集合包括各个企业对应的企业名摘要;在预先确定的新闻中查找各个企业名摘要;若在所述新闻中查找到至少一个企业名摘要,在所述新闻中获取查找到的各个企业名摘要对应的企业名;若在所述新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理。上述实施例具有如下优点或有益效果:上述实施例通过在新闻中查找企业名摘要,可以在新闻中查找到相关的企业名,还可以根据新闻的文本特征和各个企业的企业信息,对新闻中获取到的企业名简称或者别名进行消歧处理,从而达到高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合目的。而在现有的企业名的消歧方法中,主要采用实体消歧的解决方案,该方案无法高效快速地对新闻中出现的企业名简称或者别名进行消歧。因为本申请采用了在新闻中查找企业名摘要以及预先构建企业百科的技术手段,克服了现有技术中无法高效快速地对新闻中出现的企业名简称或者别名进行消歧的技术问题,进而达到了高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合的技术效果。在上述实施例中,所述在预先确定的新闻中查找各个企业名摘要,包括:将全部企业对应的企业名摘要构建成一棵AC树,将所述新闻输入至所述AC树中;通过所述AC树输出与所述新闻匹配命中的字符串,将所述AC树输出的与所述新闻匹配命中的字符串确定为在所述新闻中查找到的企业名摘要。上述实施例具有如下优点或有益效果:当新闻长度很长或者新闻中出现企业名摘要较大时,上述实施例采用了基于AC匹配的查询算法,通过上述AC匹配的查询算法,可以快速地在新闻中查找到企业名摘要,从而可以高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合。在上述实施例中,所述在所述新闻中获取查找到的各个企业名摘要对应的企业名,包括:按照预先设定的截断字数N,在存在于所述新闻中的各个企业的企业名全称中截断出若干个字符串;其中,N为大于第一预定个数且小于第二预定个数的自然数;在所述新闻中查找各个字符串对应的企业名,若在所述新闻中查找到至少一个字符串对应的企业名,将在所述新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至远程字典服务Redis数据库中;其中,所述企业名包括:企业名全称、企业名简称或者别名。上述实施例具有如下优点或有益效果:在找出新闻中可能的候选企业名时,可以使用基于实体识别的方法找到所有可能的企业名实体,但是该方法性能较差,且适应不够,难以完成大规模的企业名实体识别,因此可以直接拿企业名在新闻文本中搜索,但是直接使用千万级的企业名在文本中搜索匹配,耗时极大,因此本申请对该过程进行了优化。上述实施例可以快速地在新闻中查找到各个企业的企业名,从而可以高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合。在上述实施例中,所述根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理,包括:将所述新闻的文本特征和各个企业的企业信息,以及在所述新闻中获取到的企业名简称或者别名输入至预先训练的预测模型中;通过所述预测模型输出各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。上述实施例具有如下优点或有益效果:上述实施例可以通过预测模型得到各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。这样可以准确地预测出新闻中真实存在的企业,从而可以准确地对企业名简称或者别名进行消歧处理。在上述实施例中,所述方法还包括:获取存在于所述新闻中的各个企业的关联特征和全局特征;将各个企业的关联特征和全局特征输入至逻辑回归算法中,通过所述逻辑回归算法输出各个企业与所述新闻的相关性的概率值;当各个企业与所述新闻的相关行的概率值大于预设阈值时,判定各个企业与所述新闻相关。上述实施例具有如下优点或有益效果:上述实施例可以通过逻辑回归算法判别出与新闻真正相关的企业,从而可以准确地对企业名简称或者别名进行消歧处理。第二方面,本申请还提供了一种企业名的消歧装置,所述装置包括:获取模块、查找模块和消歧模块;其中,所述获取模块,用于在预先构建的企业名摘要集合中,获取企业名摘要;其中,所述企业名摘要集合包括各个企业对应的企业名摘要;所述查找模块,用于在预先确定的新闻中查找各个企业名摘要;所述获取模块,还用于若在所述新闻中查找到至少一个企业名摘要,则在所述新闻中获取查找到的各个企业名摘要对应的企业名;所述消歧模块,用于若在所述新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理。在上述实施例中,所述查找模块,具体用于将全部本文档来自技高网...

【技术保护点】
1.一种企业名的消歧方法,其特征在于,所述方法包括:/n在预先构建的企业名摘要集合中,获取企业名摘要;其中,所述企业名摘要集合包括各个企业对应的企业名摘要;/n在预先确定的新闻中查找各个企业名摘要;/n若在所述新闻中查找到至少一个企业名摘要,则在所述新闻中获取查找到的各个企业名摘要对应的企业名;/n若在所述新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理。/n

【技术特征摘要】
1.一种企业名的消歧方法,其特征在于,所述方法包括:
在预先构建的企业名摘要集合中,获取企业名摘要;其中,所述企业名摘要集合包括各个企业对应的企业名摘要;
在预先确定的新闻中查找各个企业名摘要;
若在所述新闻中查找到至少一个企业名摘要,则在所述新闻中获取查找到的各个企业名摘要对应的企业名;
若在所述新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理。


2.根据权利要求1所述的方法,其特征在于,所述在预先确定的新闻中查找各个企业名摘要,包括:
将全部企业名摘要构建成一棵AC树,将所述新闻输入至所述AC树中;
通过所述AC树输出与所述新闻匹配命中的字符串,将所述AC树输出的与所述新闻匹配命中的字符串确定为在所述新闻中查找到的企业名摘要。


3.根据权利要求1所述的方法,其特征在于,所述在所述新闻中获取查找到的各个企业名摘要对应的企业名,包括:
按照预先设定的截断字数N,在存在于所述新闻中的各个企业的企业名全称中截断出若干个字符串;其中,N为大于第一预定个数且小于第二预定个数的自然数;
在所述新闻中查找各个字符串对应的企业名,若在所述新闻中查找到至少一个字符串对应的企业名,将在所述新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至远程字典服务Redis数据库中;其中,所述企业名包括:企业名全称、企业名简称或者别名。


4.根据权利要求1所述的方法,其特征在于,所述根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理,包括:
将所述新闻的文本特征和各个企业的企业信息,以及在所述新闻中获取到的企业名简称或者别名输入至预先训练的预测模型中;
通过所述预测模型输出各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取存在于所述新闻中的各个企业的关联特征和全局特征;
将各个企业的关联特征和全局特征输入至逻辑回归算法中,通过所述逻辑回归算法输出各个企业与所述新闻的相关性的概率值;
当各个企业与所述新闻的相关行的概率值大于预设阈值时,判定各个企业与所述新闻相关。


6.一种企业名的消歧的装置,其特征在于,所述装置包括:获取模块、查找模块和消歧模块;其中,
所述获取模块,用于在预先构建的企业名摘要集合中,获取企业名摘要...

【专利技术属性】
技术研发人员:卞东海蒋帅罗雨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1