新闻实体识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：20622785 阅读：29 留言：0更新日期：2019-03-20 14:31

本申请涉及一种基于自然语言处理的新闻实体识别方法、装置、计算机设备和存储介质。该方法包括：获取待标注新闻语料数据，并获取待标注新闻语料数据中的每一个中文字符的字符序列；将字符序列输入到预先训练好的双向语言模型中获取输出值，得到中文字符的第一字向量；将字符序列输入到预设词向量模型中获取输出值，得到中文字符的第二字向量；合并第一字向量与第二字向量，得到中文字符对应的待标注字向量；将待标注字向量输入到预先训练好的实体识别模型，得到待标注新闻语料数据的最佳标签序列，并从最佳标签序列中提取出待标注新闻语料数据中的公司名称。采用本方法能够使得有歧义的公司名称的识别结果减少，提高公司名称识别结果的准确度。

Method, Device, Computer Equipment and Storage Media of News Entity Recognition

This application relates to a method, device, computer equipment and storage medium for news entity recognition based on natural language processing. The method includes: acquiring the data of news corpus to be annotated, and acquiring the character sequence of each Chinese character in the data of news corpus to be annotated; input the character sequence into the pre-trained two-way language model to obtain the output value, and get the first character vector of Chinese character; input the character sequence into the preset word vector model to obtain the output value, and get the second character. Word vector; merge the first word vector and the second word vector to get the corresponding vector of Chinese characters to be labeled; input the vector to be labeled into the pre-trained entity recognition model to get the best tag sequence of the news corpus data to be labeled, and extract the company name from the best tag sequence of the news corpus data to be labeled. This method can reduce the result of identifying ambiguous company names and improve the accuracy of identifying company names.

全部详细技术资料下载

【技术实现步骤摘要】
新闻实体识别方法、装置、计算机设备和存储介质
本申请涉及自然语言处理
，特别是涉及一种新闻实体识别方法、装置、计算机设备和存储介质。
技术介绍
目前，对新闻语料中公司名称的识别的主导技术是监督式学习，例如传统的隐马尔科夫模型(HMMS)、条件随机场算法(ConditionalRandomFieldalgorithm，CRF)等机器学习方法，以及近几年被提出来的循环神经网络(RecurrentNeuralNetwork，RNN)等人工神经网络方法，这些方法在序列标注方法上已经取得了较好的表现。但是，机器学习方法过度的依赖人工提取特征和特定的语言资源，神经网络方法虽然在模型中能够实现特征的自动抽取，但有需要大量的有标注或注释的语料进行参数训练，而新闻语料中的公司名称已标注或注释的语料相对而言较少，难以训练复杂的模型；而新闻语料中的公司名称常常会以公司名称的简称出现，或者会出现一些新的公司名称，利用该模型对新闻语料文本的公司名称的识别效果并不理想。
技术实现思路
基于此，有必要针对传统的新闻实体识别模型对公司名称的识别准确度低的技术问题，提供一种新闻实体识别方法、装置、计算机设备和存储介质。一种新闻实体识别方法，所述方法包括：获取待标注新闻语料数据，并获取所述待标注新闻语料数据中的每一个中文字符的字符序列；将所述字符序列输入到预先训练好的双向语言模型中获取输出值，得到所述中文字符的第一字向量；将所述字符序列输入到预设词向量模型中获取输出值，得到所述中文字符的第二字向量；合并所述第一字向量与所述第二字向量，得到与所述待标注新闻语料数据中的中文字符对应的待标注字向...

【技术保护点】
1.一种新闻实体识别方法，所述方法包括：获取待标注新闻语料数据，并获取所述待标注新闻语料数据中的每一个中文字符的字符序列；将所述字符序列输入到预先训练好的双向语言模型中获取输出值，得到所述中文字符的第一字向量；将所述字符序列输入到预设词向量模型中获取输出值，得到所述中文字符的第二字向量；合并所述第一字向量与所述第二字向量，得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量；将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值，得到所述待标注新闻语料数据的最佳标签序列，并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。

【技术特征摘要】
1.一种新闻实体识别方法，所述方法包括：获取待标注新闻语料数据，并获取所述待标注新闻语料数据中的每一个中文字符的字符序列；将所述字符序列输入到预先训练好的双向语言模型中获取输出值，得到所述中文字符的第一字向量；将所述字符序列输入到预设词向量模型中获取输出值，得到所述中文字符的第二字向量；合并所述第一字向量与所述第二字向量，得到与所述待标注新闻语料数据中的中文字符对应的待标注字向量；将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值，得到所述待标注新闻语料数据的最佳标签序列，并从所述最佳标签序列中提取出待标注新闻语料数据中的公司名称。2.根据权利要求1所述的方法，其特征在于，所述实体识别模型包括双向循环神经网络以及条件随机场模型；所述将所述待标注字向量输入到预先训练好的实体识别模型中获取输出值，得到所述待标注新闻语料数据的最佳标签序列的步骤，包括：将所述待标注字向量输入到双向循环神经网络中，获取所述待标注新闻语料数据中的中文字符对应的特征向量；将所述特征向量输入至条件随机场模型中，获取所述待标注新闻语料数据的最佳标签序列。3.根据权利要求1所述的方法，其特征在于，所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值的步骤之前，还包括：建立一个双向递归神经网络模型，其中所述双向神经网络模型包括前向递归神经网络隐含层以及后向递归神经网络隐含层；获取无标注语料样本，将所述无标注语料样本中的中文字符转化为对应的字符序列；将所述无标注语料样本的字符序列输入至所述双向的递归神经网络模型中，利用所述无标注语料样本的字符序列对所述前向递归神经网络隐含层以及所述后向递归神经网络隐含层进行无监督训练，得到所述双向语言模型。4.根据权利要求3所述的方法，其特征在于，所述将所述字符序列输入到预先训练好的双向语言模型中获取输出值，得到所述中文字符的第一字向量的步骤，包括：将所述待标注新闻语料数据的字符序列输入至所述前向递归神经网络隐含层中，获取前向隐状态序列；将所述待标注新闻语料数据的字符序列输入至所述后向递归神经网络隐含层中，获取后向隐状态序列；合并所述前向隐状态序列以及所述后向隐状态序列生成所述中文字符的第一字向量。5.根据权利要求3所述的方法，其特征在于，所述得到所述双向语言模型的步骤之后，包括：获取新闻语料训练样本，并获取所述新闻语料训练样本中的每一个中...

【专利技术属性】
技术研发人员：黄萍，汪伟，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人