新闻实体识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20622785 阅读:29 留言:0更新日期:2019-03-20 14:31
本申请涉及一种基于自然语言处理的新闻实体识别方法、装置、计算机设备和存储介质。该方法包括:获取待标注新闻语料数据,并获取待标注新闻语料数据中的每一个中文字符的字符序列;将字符序列输入到预先训练好的双向语言模型中获取输出值,得到中文字符的第一字向量;将字符序列输入到预设词向量模型中获取输出值,得到中文字符的第二字向量;合并第一字向量与第二字向量,得到中文字符对应的待标注字向量;将待标注字向量输入到预先训练好的实体识别模型,得到待标注新闻语料数据的最佳标签序列,并从最佳标签序列中提取出待标注新闻语料数据中的公司名称。采用本方法能够使得有歧义的公司名称的识别结果减少,提高公司名称识别结果的准确度。

Method, Device, Computer Equipment and Storage Media of News Entity Recognition

This application relates to a method, device, computer equipment and storage medium for news entity recognition based on natural language processing. The method includes: acquiring the data of news corpus to be annotated, and acquiring the character sequence of each Chinese character in the data of news corpus to be annotated; input the character sequence into the pre-trained two-way language model to obtain the output value, and get the first character vector of Chinese character; input the character sequence into the preset word vector model to obtain the output value, and get the second character. Word vector; merge the first word vector and the second word vector to get the corresponding vector of Chinese characters to be labeled; input the vector to be labeled into the pre-trained entity recognition model to get the best tag sequence of the news corpus data to be labeled, and extract the company name from the best tag sequence of the news corpus data to be labeled. This method can reduce the result of identifying ambiguous company names and improve the accuracy of identifying company names.

【技术实现步骤摘要】
新闻实体识别方法、装置、计算机设备和存储介质
本申请涉及自然语言处理
,特别是涉及一种新闻实体识别方法、装置、计算机设备和存储介质。
技术介绍
目前,对新闻语料中公司名称的识别的主导技术是监督式学习,例如传统的隐马尔科夫模型(HMMS)、条件随机场算法(ConditionalRandomFieldalgorithm,CRF)等机器学习方法,以及近几年被提出来的循环神经网络(RecurrentNeuralNetwork,RNN)等人工神经网络方法,这些方法在序列标注方法上已经取得了较好的表现。但是,机器学习方法过度的依赖人工提取特征和特定的语言资源,神经网络方法虽然在模型中能够实现特征的自动抽取,但有需要大量的有标注或注释的语料进行参数训练,而新闻语料中的公司名称已标注或注释的语料相对而言较少,难以训练复杂的模型;而新闻语料中的公司名称常常会以公司名称的简称出现,或者会出现一些新的公司名称,利用该模型对新闻语料文本的公司名称的识别效果并不理想。
技术实现思路
基于此,有必要针对传统的新闻实体识别模型对公司名称的识别准确度低的技术问题,提供一种新闻实体识别方法、装置、计算机设备和存储介质。一种新闻实体识别方法,所述方法包括:获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。在其中一个实施例中,所述实体识别模型包括双向循环神经网络以及条件随机场模型;所述将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列的步骤,包括:将所述待标注字向量输入到双向循环神经网络中,获取所述待标注新闻语料数据中的中文字符对应的特征向量;将所述特征向量输入至条件随机场模型中,获取所述待标注新闻语料数据的最佳标签序列。在其中一个实施例中,所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值的步骤之前,还包括:建立一个双向递归神经网络模型,其中所述双向神经网络模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层;获取无标注语料样本,将所述无标注语料样本中的中文字符转化为对应的字符序列;将所述无标注语料样本的字符序列输入至所述双向的递归神经网络模型中,利用所述无标注语料样本的字符序列对所述前向递归神经网络隐含层以及所述后向递归神经网络隐含层进行无监督训练,得到所述双向语言模型。在其中一个实施例中,所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量的步骤,包括:将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中,获取前向隐状态序列;将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中,获取后向隐状态序列;合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。在其中一个实施例中,所述得到所述双向语言模型的步骤之后,包括:获取新闻语料训练样本,并获取所述新闻语料训练样本中的每一个中文字符的字符序列,其中,所述新闻语料训练样本中的中文字符具有对应的字符标签;将所述新闻语料训练样本中的字符序列分别输入至所述双向语言模型以及所述预设词向量模型中获取输出值,得到第三字向量以及第四字向量;合并所述第三字向量与所述第四字向量,得到与所述新闻语料训练样本中的中文字符对应的字向量样本;根据所述新闻语料训练样本中的中文字符对应的字向量样本以及字符标签,对所述实体识别模型进行有监督训练。在其中一个实施例中,所述条件随机场模型中采用的标注规则为BIOES模式;所述从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称的步骤,包括:从最佳标签序列中提取连续标注的B标签、I标签以及E标签对应的中文字符,将提取得到的中文字符组合作为识别出的企业名称。一种新闻实体识别装置,所述装置包括:新闻语料获取模块,用于获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;第一字向量获取模块,用于将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;第二字向量获取模块,用于将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;待标注字向量获取模块,用于合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;公司名称获取模块,用于将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。在其中一个实施例中,所述第一字向量获取模块用于将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中,获取前向隐状态序列;将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中,获取后向隐状态序列;合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。上述新闻实体识别方法、装置、计算机设备和存储介质,先通过双向语言模型获取待标注新闻语料数据中中文字符的第一字向量,然后将第一字向量与通过预设词向量模型获取的第二字向量进行级联合并,作为待标注新闻语料数据中中文字符的待识别字向量,用于新闻语料数据中公司名称的识别中,其中,第一本文档来自技高网...

【技术保护点】
1.一种新闻实体识别方法,所述方法包括:获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。

【技术特征摘要】
1.一种新闻实体识别方法,所述方法包括:获取待标注新闻语料数据,并获取所述待标注新闻语料数据中的每一个中文字符的字符序列;将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量;将所述字符序列输入到预设词向量模型中获取输出值,得到所述中文字符的第二字向量;合并所述第一字向量与所述第二字向量,得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量;将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列,并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。2.根据权利要求1所述的方法,其特征在于,所述实体识别模型包括双向循环神经网络以及条件随机场模型;所述将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值,得到所述待标注新闻语料数据的最佳标签序列的步骤,包括:将所述待标注字向量输入到双向循环神经网络中,获取所述待标注新闻语料数据中的中文字符对应的特征向量;将所述特征向量输入至条件随机场模型中,获取所述待标注新闻语料数据的最佳标签序列。3.根据权利要求1所述的方法,其特征在于,所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值的步骤之前,还包括:建立一个双向递归神经网络模型,其中所述双向神经网络模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层;获取无标注语料样本,将所述无标注语料样本中的中文字符转化为对应的字符序列;将所述无标注语料样本的字符序列输入至所述双向的递归神经网络模型中,利用所述无标注语料样本的字符序列对所述前向递归神经网络隐含层以及所述后向递归神经网络隐含层进行无监督训练,得到所述双向语言模型。4.根据权利要求3所述的方法,其特征在于,所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值,得到所述中文字符的第一字向量的步骤,包括:将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中,获取前向隐状态序列;将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中,获取后向隐状态序列;合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。5.根据权利要求3所述的方法,其特征在于,所述得到所述双向语言模型的步骤之后,包括:获取新闻语料训练样本,并获取所述新闻语料训练样本中的每一个中...

【专利技术属性】
技术研发人员:黄萍汪伟肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1