企业实体的识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：18783601 阅读：37 留言：0更新日期：2018-08-29 06:53

本发明专利技术提出一种企业实体的识别方法、装置、计算机设备及存储介质，其中，方法包括：采集舆情文本进行分词处理，得到分词结果；根据所述分词结果进行企业全称识别，获取所述舆情文本中包括的第一企业全称；根据所述分词结果进行企业简称识别，获取所述舆情文本中包括的第一企业简称；将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。通过本方法，能够从网络舆情文本中提取出企业实体，提高企业实体识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
企业实体的识别方法、装置、计算机设备及存储介质
本专利技术涉及互联网
，尤其涉及一种企业实体的识别方法、装置、计算机设备及存储介质。
技术介绍
网络舆情是指通过互联网表达和传播的、公众对自己关心或与自身利益紧密相关的事件所持有的情绪、态度、意见和观点的集合。企业实体在网络舆情中通常承载着关键信息，对企业实体进行识别是挖掘网络舆情的关键。然而，企业实体命名规律性不强，使用比较随意，且经常以简称的形式出现，如何从网络舆情文本中提取出企业实体成为亟待解决的问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的第一个目的在于提出一种企业实体的识别方法，通过分别进行企业全称识别和企业简称识别，得到企业全称和企业简称，进而将识别出的企业全称和企业简称确定为企业实体的名称，能够从网络舆情文本中提取出企业实体，提高企业实体识别的准确率。本专利技术的第二个目的在于提出一种装置企业实体的识别装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种计算机程序产品。本专利技术的第五个目的在于提出一种非临时性计算机可读存储介质。为达上述目的，本专利技术第一方面实施例提出了一种企业实体的识别方法，包括：采集舆情文本进行分词处理，得到分词结果；根据所述分词结果进行企业全称识别，获取所述舆情文本中包括的第一企业全称；根据所述分词结果进行企业简称识别，获取所述舆情文本中包括的第一企业简称；将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。本专利技术实施例的企业实体的识别方法，通过对采集的舆情文本进...

【技术保护点】
1.一种企业实体的识别方法，其特征在于，包括：采集舆情文本进行分词处理，得到分词结果；根据所述分词结果进行企业全称识别，获取所述舆情文本中包括的第一企业全称；根据所述分词结果进行企业简称识别，获取所述舆情文本中包括的第一企业简称；将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。

【技术特征摘要】
1.一种企业实体的识别方法，其特征在于，包括：采集舆情文本进行分词处理，得到分词结果；根据所述分词结果进行企业全称识别，获取所述舆情文本中包括的第一企业全称；根据所述分词结果进行企业简称识别，获取所述舆情文本中包括的第一企业简称；将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。2.根据权利要求1所述的方法，其特征在于，所述对所述分词结果进行企业全称识别，获取所述舆情文本中包括的第一企业全称，包括：根据所述分词结果中分词的语义，对所述分词结果中的分词进行标注；将所述分词和所述分词的标注信息，连续输入到条件随机场模型中进行企业全称识别，得到所述分词的识别结果；其中，所述识别结果中包括第一信息和第二信息，所述第一信息用于表示所述分词为所述第一企业全称中的词语，所述第二信息为所述分词在所述第一企业全称中的位置信息；如果所述第一信息指示包括所述第一企业全称，则根据所述位置信息，从所述分词中提取出所述第一企业全称。3.根据权利要求2所述的方法，其特征在于，所述条件随机场模型中设置有预设长度的观察窗，所述将所述分词和所述分词的标注信息，连续输入到条件随机场模型中进行企业全称识别，得到所述分词的识别结果，包括：在所述条件随机场模型对所述分词识别的过程中，通过所述观察窗确定与所述分词存在上下文关系的第一分词，获取所述第一分词和第一分词的标注信息；基于所述分词和所述分词的标注信息以及所述第一分词和所述第一分词的标注信息进行企业全称识别，得到所述分词的识别结果。4.根据权利要求2所述的方法，其特征在于，所述从所述分词中提取出所述第一企业全称之后，还包括：利用预先构建的企业全称字典树，在企业全称字典库中查询所述第一企业全称；如果所述企业全称字典库中未查询到所述第一企业全称，则将所述第一企业全称增加到所述企业全称字典库中，对所述企业全称字典库进行更新。5.根据权利要求4所述的方法，其特征在于，所述对所述企业全称字典库进行更新之后，还包括：利用所述第一企业全称，对所述企业全称字典树进行更新。6.根据权利要求1所述的方法，其特征在于，所述对所述分词结果进行企业简称识别，获取所述舆情文本中包括的第一企业简称，包括：利用预先构建的企业简称字典库，匹配出所述分词结果中包括的第二企业简称；其中，所述第二企业简称为存在于预先构建的企业简称字典库中的企业简称，所述企业简称字典库是根据历史搜索词的点击日志和/或企业的字号信息确定出的；从所述舆情文本中，获取包括所述第二企业简称的上下文句子，根据上下文句子构建第一词向量；计算所述第一词向量与所述第二企业简称的企业属性词的第二词向量之间的第一相似度；如果所述第一相似度超出了预设的阈值，则将所述第二企业简称作为所述舆情文本中的所述第一企业简称。7.根据权利要求6所述的方法，其特征在于，所述利用预先构建的企业简称字典树，匹配出所述分词结果中包括的第二企业简称之前，还包括：获取历史搜索词的点击日志；从所述点击日志中提取出与企业的统一资源定位符URL存在链接关系的第一历史搜索词；获取指定URL对应的第一历史搜索词之间的公共前缀子串；其中，所述指定URL为所有企业的URL中的任意一个；将所述第一历史搜索词和/...

【专利技术属性】
技术研发人员：宋烈金，崔燕，岳爱珍，李维之，张琳琳，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人