企业实体的识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:18783601 阅读:37 留言:0更新日期:2018-08-29 06:53
本发明专利技术提出一种企业实体的识别方法、装置、计算机设备及存储介质,其中,方法包括:采集舆情文本进行分词处理,得到分词结果;根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。通过本方法,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。

【技术实现步骤摘要】
企业实体的识别方法、装置、计算机设备及存储介质
本专利技术涉及互联网
,尤其涉及一种企业实体的识别方法、装置、计算机设备及存储介质。
技术介绍
网络舆情是指通过互联网表达和传播的、公众对自己关心或与自身利益紧密相关的事件所持有的情绪、态度、意见和观点的集合。企业实体在网络舆情中通常承载着关键信息,对企业实体进行识别是挖掘网络舆情的关键。然而,企业实体命名规律性不强,使用比较随意,且经常以简称的形式出现,如何从网络舆情文本中提取出企业实体成为亟待解决的问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种企业实体的识别方法,通过分别进行企业全称识别和企业简称识别,得到企业全称和企业简称,进而将识别出的企业全称和企业简称确定为企业实体的名称,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。本专利技术的第二个目的在于提出一种装置企业实体的识别装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种计算机程序产品。本专利技术的第五个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种企业实体的识别方法,包括:采集舆情文本进行分词处理,得到分词结果;根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。本专利技术实施例的企业实体的识别方法,通过对采集的舆情文本进行分词处理得到分词结果,根据分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称,根据分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称,进而将识别出的第一企业全称和第一企业简称确定为企业实体的名称。由此,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。为达上述目的,本专利技术第二方面实施例提出了一种企业实体的识别装置,包括:分词模块,用于采集舆情文本进行分词处理,得到分词结果;全称识别模块,用于根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;简称识别模块,用于根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;确定模块,用于将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。本专利技术实施例的企业实体的识别装置,通过对采集的舆情文本进行分词处理得到分词结果,根据分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称,根据分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称,进而将识别出的第一企业全称和第一企业简称确定为企业实体的名称。由此,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的企业实体的识别方法。为达上述目的,本专利技术第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时实现如第一方面实施例所述的企业实体的识别方法。为达上述目的,本专利技术第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的企业实体的识别方法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的第一种企业实体的识别方法的流程示意图;图2为本专利技术实施例所提供的第二种企业实体的识别方法的流程示意图;图3为本专利技术实施例所提供的第三种企业实体的识别方法的流程示意图;图4为构建企业简称字典树的方法流程示意图;图5为本专利技术实施例所提供的第四种企业实体的识别方法的流程示意图;图6为本专利技术实施例所提供的第一种企业实体的识别装置的结构示意图;图7为本专利技术实施例所提供的第二种企业实体的识别装置的结构示意图;图8为本专利技术实施例所提供的第三种企业实体的识别装置的结构示意图;图9为本专利技术实施例所提供的第四种企业实体的识别装置的结构示意图;以及图10为本专利技术一实施例提出的计算机设备的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的企业实体的识别方法、装置、计算机设备及存储介质。目前,为了识别出网络舆情中的企业实体,现有的识别方法多是基于隐马尔可夫模型、条件随机场模型或者特定的字典树来识别企业名称。然而,基于隐马尔可夫模型和条件随机场模型的识别方法需要预先构建训练模型,利用训练后的模型识别中舆情文本中的企业实体,这两种识别方法仅能识别出命名较为规范的企业全称,无法识别出简称或者代称。针对上述问题,本专利技术提出了一种企业实体的识别方法,以准确识别舆情文本中的企业实体,提高企业实体识别的准确率。图1为本专利技术实施例所提供的第一种企业实体的识别方法的流程示意图。如图1所示,该企业实体的识别方法包括以下步骤:步骤101,采集舆情文本进行分词处理,得到分词结果。网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。网络舆情以网络为载体进行表达和传播,从而,本实施例中,可以从网络中获取需要进行企业实体识别的网络舆情文本,并对获取的舆情文本进行切词、剔除标点符号、去停用词等预处理操作。其中,可以采用相关的切词工具对舆情文本进行切词,切词粒度比如可以为basic粒度。步骤102,根据分词结果进行企业全称识别,获取舆情文本中包括的第一企业全称。本实施例中,对舆情文本进行分词得到分词结果后,可以根据分词结果进行企业全称识别,以获取舆情文本中包括的第一企业全称。作为一种可能的实现方式,可以利用已知的企业实体名称对机器模型进行训练,得到训练后的机器模型,进而基于训练后的机器模型,将分词结果输入至训练后的机器模型中,得到输出的企业实体名称,作为获取的舆情文本的第一企业全称。步骤103,根据分词结果进行企业简称识别,获取舆情文本中包括的第一企业简称。目前现有的企业实体识别方法均仅关注企业名称,未考虑与企业相关的属性特征,不利于企业实体的准确识别。本实施例中,获取了舆情文本的分词结果之后,还可以根据分词结果进行企业简称识别,以获取舆情文本中包括的第一企业简称。比如,可以预先挖掘出不同企业的企业简称以及与企业对应的属性信息,根据属性信息和企业简称,从分词结果中识别出舆情文本中包括的第一企业简称。此处需要说明的是,本实施例中根据分词结果进行企业简称识别以获取舆情文本中包括的第一企业简称的具体实现过程将在后续内容中进行说明,为避免重复,此处不作详细描述。步本文档来自技高网...

【技术保护点】
1.一种企业实体的识别方法,其特征在于,包括:采集舆情文本进行分词处理,得到分词结果;根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。

【技术特征摘要】
1.一种企业实体的识别方法,其特征在于,包括:采集舆情文本进行分词处理,得到分词结果;根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。2.根据权利要求1所述的方法,其特征在于,所述对所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称,包括:根据所述分词结果中分词的语义,对所述分词结果中的分词进行标注;将所述分词和所述分词的标注信息,连续输入到条件随机场模型中进行企业全称识别,得到所述分词的识别结果;其中,所述识别结果中包括第一信息和第二信息,所述第一信息用于表示所述分词为所述第一企业全称中的词语,所述第二信息为所述分词在所述第一企业全称中的位置信息;如果所述第一信息指示包括所述第一企业全称,则根据所述位置信息,从所述分词中提取出所述第一企业全称。3.根据权利要求2所述的方法,其特征在于,所述条件随机场模型中设置有预设长度的观察窗,所述将所述分词和所述分词的标注信息,连续输入到条件随机场模型中进行企业全称识别,得到所述分词的识别结果,包括:在所述条件随机场模型对所述分词识别的过程中,通过所述观察窗确定与所述分词存在上下文关系的第一分词,获取所述第一分词和第一分词的标注信息;基于所述分词和所述分词的标注信息以及所述第一分词和所述第一分词的标注信息进行企业全称识别,得到所述分词的识别结果。4.根据权利要求2所述的方法,其特征在于,所述从所述分词中提取出所述第一企业全称之后,还包括:利用预先构建的企业全称字典树,在企业全称字典库中查询所述第一企业全称;如果所述企业全称字典库中未查询到所述第一企业全称,则将所述第一企业全称增加到所述企业全称字典库中,对所述企业全称字典库进行更新。5.根据权利要求4所述的方法,其特征在于,所述对所述企业全称字典库进行更新之后,还包括:利用所述第一企业全称,对所述企业全称字典树进行更新。6.根据权利要求1所述的方法,其特征在于,所述对所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称,包括:利用预先构建的企业简称字典库,匹配出所述分词结果中包括的第二企业简称;其中,所述第二企业简称为存在于预先构建的企业简称字典库中的企业简称,所述企业简称字典库是根据历史搜索词的点击日志和/或企业的字号信息确定出的;从所述舆情文本中,获取包括所述第二企业简称的上下文句子,根据上下文句子构建第一词向量;计算所述第一词向量与所述第二企业简称的企业属性词的第二词向量之间的第一相似度;如果所述第一相似度超出了预设的阈值,则将所述第二企业简称作为所述舆情文本中的所述第一企业简称。7.根据权利要求6所述的方法,其特征在于,所述利用预先构建的企业简称字典树,匹配出所述分词结果中包括的第二企业简称之前,还包括:获取历史搜索词的点击日志;从所述点击日志中提取出与企业的统一资源定位符URL存在链接关系的第一历史搜索词;获取指定URL对应的第一历史搜索词之间的公共前缀子串;其中,所述指定URL为所有企业的URL中的任意一个;将所述第一历史搜索词和/...

【专利技术属性】
技术研发人员:宋烈金崔燕岳爱珍李维之张琳琳
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1