【技术实现步骤摘要】
企业舆情识别方法、装置、设备以及存储介质
[0001]本公开涉及深度学习和自然语言处理等人工智能领域。
技术介绍
[0002]网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
[0003]通常,企业信息查询工具需要每日全网抓取几百万网络舆情,从中识别出企业舆情,并挂载到对应的企业主页下,帮助人们了解企业事件的发生、发展和变化,公众对事件所持有的信念、态度、意见和情绪等表达的集合,进而预判企业的运行状况。
技术实现思路
[0004]本公开实施例提出了一种企业舆情识别方法、装置、设备、存储介质以及程序产品。
[0005]第一方面,本公开实施例提出了一种企业舆情识别方法,包括:获取舆情文本;对舆情文本的基本单元进行企业实体识别,生成舆情文本的基本单元预测标签序列,其中,基本单元预测标签用于标注基本单元是否属于企业实体;基于基本单元预测标签序列,确定舆情文本关联的企业实体。< ...
【技术保护点】
【技术特征摘要】
1.一种企业舆情识别方法,包括:获取舆情文本;对所述舆情文本的基本单元进行企业实体识别,生成所述舆情文本的基本单元预测标签序列,其中,基本单元预测标签用于标注基本单元是否属于企业实体;基于所述基本单元预测标签序列,确定所述舆情文本关联的企业实体。2.根据权利要求1所述的方法,其中,所述对所述舆情文本的基本单元进行企业实体识别,生成所述舆情文本的基本单元预测标签序列,包括:生成所述舆情文本的基本单元嵌入向量序列;将所述基本单元嵌入向量序列输入至预先训练的企业实体识别模型,得到所述基本单元预测标签序列。3.根据权利要求2所述的方法,其中,所述企业实体识别模型由双向长短期记忆网络和条件随机场组成,所述双向长短期记忆网络用于结合上下文预测基本单元的标签,所述条件随机场在句子级别对顺序输出的基本单元预测标签序列进行线性约束。4.根据权利要求1
‑
3中任一项所述的方法,其中,所述基于所述基本单元预测标签序列,确定所述舆情文本关联的企业实体,包括:基于所述基本单元预测标签序列,获取候选企业实体集合;对所述候选企业实体集合进行去重处理和低频过滤,得到所述舆情文本关联的企业实体。5.根据权利要求4所述的方法,其中,所述基于所述基本单元预测标签序列,获取候选企业实体集合,包括:从所述舆情文本中提取所述基本单元预测标签序列标注的企业实体;查询所标注的企业实体对应的标识和企业全称,加入所述候选企业实体集合。6.根据权利要求4或5所述的方法,其中,在所述对所述候选企业实体集合进行去重处理和低频过滤,得到所述舆情文本关联的企业实体之前,还包括:将所述舆情文本在企业全称字典树中进行最大匹配,将匹配成功的企业全称加入所述候选企业实体集合,其中,所述企业全称字典树用于存储企业全称;和/或将预先收集的企业全称集合中的企业全称划分成多个字段进行随机组合,得到组合企业全称集合,以及将所述舆情文本在所述组合企业全称集合中匹配,将匹配成功的组合企业全称加入所述候选实体集合。7.根据权利要求4或5所述的方法,其中,在所述对所述候选企业实体集合进行去重处理和低频过滤,得到所述舆情文本关联的企业实体之前,还包括:将所述舆情文本在企业简称字典树中进行最大匹配,得到匹配成功的企业简称,其中,所述企业简称字典树用于存储企业简称;对所述匹配成功的企业简称进行关联度过滤,将过滤后的企业简称加入所述候选实体集合。8.根据权利要求7所述的方法,其中,所述对所述匹配成功的企业简称进行关联度过滤,包括:基于预先收集的企业简称词表对所述匹配成功的企业简称进行过滤;和/或确定所述匹配成功的企业简称的词性,过滤掉地名词性的企业简称;和/或
确定所述匹配成功的企业简称的在所述舆情文本的句子中的角色,保留主语角色或宾语角色的企业简称,以及确定包含在主语角色或宾语角色中的企业简称所在的句子占所述舆情文本的长度比例,基于所述长度比例对所述包含在主语角色或宾语角色中的企业简称进行过滤。9.一种企业舆情识别装置,包括:获取模块,被配置成获取舆情文本;识别模块,被配置成对所述舆情文本的基本单元进行企业实体识别,生成所述舆情文本的基本单元预测标签序列,其中,基本单元预测标签用于标注基本单元是否属于企业实体;确定模块,被配置成基于...
【专利技术属性】
技术研发人员:戴加明,丁啸龙,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。