新闻主体企业识别方法、电子设备及计算机可读存储介质技术

技术编号:17265215 阅读:54 留言:0更新日期:2018-02-14 12:38
本发明专利技术公开了一种新闻主体企业识别方法,该方法包括步骤:通过预定的训练模型对收集的训练样本进行迭代训练,提取该训练样本的特征信息;获取待预测新闻文档,识别出该待预测新闻文档中的企业名称,并根据提取的训练样本的特征信息,分别计算该待预测新闻文档属于第一类新闻的概率和属于第二类新闻的概率;根据所述计算出的第一类新闻概率和第二类新闻概率的大小,确定该待预测新闻文档中识别出的企业名称属于第一类企业名称或是第二类企业名称。本发明专利技术可以提升新闻主体企业识别的准确率。

News subject enterprise identification method, electronic equipment and computer readable storage medium

The invention discloses a news main body enterprise recognition method, the method comprises the following steps: through the training model intended to collect training samples for iterative training feature extraction information of the training samples to be predicted; obtain news documents, identify the news to be predicted in the document name of the enterprise, and according to the characteristics of information extraction training the samples were calculated, the probability forecast of news documents belong to the first class of news and probability belong to the second class of news; based on the calculated first and second kinds of news news probability probability, determine the forecast to identify news documents of the enterprise name belong to the first class or second class enterprise name the name of the enterprise. The invention can improve the accuracy of the recognition of the enterprise of the news body.

【技术实现步骤摘要】
新闻主体企业识别方法、电子设备及计算机可读存储介质
本专利技术涉及计算机信息
,尤其涉及一种新闻主体企业识别方法、电子设备及计算机可读存储介质。
技术介绍
在进行新闻的主体企业识别时,有时识别出的主体是作为媒体企业在新闻中出现,并不是真正作为主体企业出现。针对这种将媒体企业错误识别为新闻中的主体企业的现状,现有技术中无法精确判断该企业是否是该篇新闻的主体企业还是作为媒体报道企业出现。故,现有技术中的新闻主体企业识别方法设计不够合理,亟需改进。
技术实现思路
有鉴于此,本专利技术提出一种新闻主体企业识别方法、电子设备及计算机可读存储介质,通过对识别出的企业名称进一步确定其属于主体企业还是媒体企业,提升了新闻主体企业识别的准确率。首先,为实现上述目的,本专利技术提出一种电子设备,所述电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的新闻主体企业识别系统,所述新闻主体企业识别系统被所述处理器执行时实现如下步骤:通过预定的训练模型对收集的训练样本进行迭代训练,提取该训练样本的特征信息;获取待预测新闻文档,识别出该待预测新闻文档中的企业名称,并根据提取的训练样本的特征信息,本文档来自技高网...
新闻主体企业识别方法、电子设备及计算机可读存储介质

【技术保护点】
一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的新闻主体企业识别系统,所述新闻主体企业识别系统被所述处理器执行时实现如下步骤:通过预定的训练模型对收集的训练样本进行迭代训练,提取该训练样本的特征信息;获取待预测新闻文档,识别出该待预测新闻文档中的企业名称,并根据提取的训练样本的特征信息,分别计算该待预测新闻文档属于第一类新闻的概率和属于第二类新闻的概率;及根据所述计算出的第一类新闻概率和第二类新闻概率的大小,确定该待预测新闻文档中识别出的企业名称属于第一类企业名称或是第二类企业名称。

【技术特征摘要】
1.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的新闻主体企业识别系统,所述新闻主体企业识别系统被所述处理器执行时实现如下步骤:通过预定的训练模型对收集的训练样本进行迭代训练,提取该训练样本的特征信息;获取待预测新闻文档,识别出该待预测新闻文档中的企业名称,并根据提取的训练样本的特征信息,分别计算该待预测新闻文档属于第一类新闻的概率和属于第二类新闻的概率;及根据所述计算出的第一类新闻概率和第二类新闻概率的大小,确定该待预测新闻文档中识别出的企业名称属于第一类企业名称或是第二类企业名称。2.如权利要求1所述的电子设备,其特征在于,所述训练样本的特征信息包括:某类新闻中的文档数量、训练样本中总的文档数量、某类新闻下文档中的词汇频数、及某类新闻中总的词汇数量。3.如权利要求2所述的电子设备,其特征在于,文档属于某类新闻的概率=训练样本随机抽取一个文档属于某类新闻的概率×某类新闻下文档中的词汇频数与总词汇的比例。4.如权利要求2或3所述的电子设备,其特征在于,该待预测新闻文档属于第一类新闻的概率=第一类新闻中的文档数量与训练样本中总的文档数量之间的比值乘以第一类新闻下文档中的词汇频数与第一类新闻中总的词汇数量之间的比值;及该待预测新闻文档属于第二类新闻的概率=第二类新闻中的文档数量与训练样本中总的文档数量之间的比值乘以第二类新闻下文档中的词汇频数与第二类新闻中总的词汇数量之间的比值。5.如权利要求1所述的电子设备,其特征在于,所述确定该待预测新闻文档中识别出的企业名称属于第一类企业名称或是第二类企业名称包括:若所述计算出的第一类新闻概率大于或等于第二类新闻概率,则确定该待预测新闻文档中识别出的企业名称属于第一类企业名称;及若所述计算出的第一类新闻概率小于第二类新闻概率,则确定该待预测新闻文档中识别出的企业名称属于第二类企业名称。6.一种新闻主体企业识别方法,应用于电子设备,其...

【专利技术属性】
技术研发人员:陈一恋徐冰汪超慧朱伟峰汪伟肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1