基于序列识别的企业或组织中文名称实体消歧方法和装置制造方法及图纸

技术编号:21630496 阅读:23 留言:0更新日期:2019-07-17 11:35
本发明专利技术提供了一种基于序列识别的企业或组织中文名称实体消歧方法和装置,其中方法包括:爬取公开的新闻数据集并进行数据清洗,得到清洗后的数据;提取清洗后的数据中的实体词,得到初步规范数据;设置语义模板规则,对初步规范数据进行筛选,得到待规范数据;确定待规范数据中的同义标准词与同义副词,明确待规范数据中的同义词对;设定数据标注策略,对待规范数据进行标注,添加人工构建数据,得到训练数据;预训练字向量与词向量,将字向量与词向量垂直方向进行合并得到新向量;利用Encoder Decoder结构构建模型对预处理后的训练数据进行训练,保存最优指标模型;利用最优指标模型对待预测样本进行预测。

Chinese Name Entity Disambiguation Method and Device for Enterprises or Organizations Based on Sequence Recognition

【技术实现步骤摘要】
基于序列识别的企业或组织中文名称实体消歧方法和装置
本专利技术涉及实体消歧
,尤其涉及一种基于序列识别的企业或组织中文名称实体消歧方法和装置。
技术介绍
实体消歧,其概念即为通过某种方法避免同名词但不同含义带来的语义理解错乱问题发生。近年来,伴随着人工智能技术的发展,市场对于从一段长文本中,将中文同义词准确识别出来的需求愈来愈明显,尤其对于法律、金融行业而言,这项需求更加迫切。而随着自然语言处理技术的发展,中文领域的实体消歧方法也越来越多,目前市场上有基于文本分类的实体消歧方法与基于知识库和深度学习综合运用的实体消歧方法。但这些技术都有一个缺点,那就是将实体消歧问题转换为文本分类问题,背后存在如下问题:1.机器学习领域的模型无法良好的提取文本上下文特征。2.转换为文本分类的方式处理时,需要判断每一个实体词歧义情况,其背后需要大量复杂的知识库作为支撑。这样的情况将会导致项目所需技术构建过程中,存在较为复杂的情况,从成本控制上与性能上来看都缺失良好的应用性。而近年来伴随着以Encoder-Decoder为结构的序列模型对于文本语言模型处理方式的兴起,这也给了中文领域实体消歧方法带来了新的思路。这种模型结构将文本当作序列进行处理,输入的是预先构建好包含多个同名实体词的短文本,输出即为短文本中每个字对应的字符标签。这种方式可以通过提取中文字特征,从而良好的将文本上下文信息包含进模型进行训练。同时伴随谷歌提出的基于文本分词的positionembedding作为词组位置的信息特征,以此嵌入神经网络训练的处理方式以及多层attention的处理的方式,即为Transformer模型结构,也为基于序列识别思路的实体消歧技术带来了获得更好结果的可能。
技术实现思路
本专利技术旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的基于自注意力的企业舆情分析方法和装置。为达到上述目的,本专利技术的技术方案具体是这样实现的:本专利技术的一个方面提供了一种基于序列识别的企业或组织中文名称实体消歧方法,包括:爬取公开的新闻数据集并对新闻数据集进行数据清洗,得到清洗后的数据;提取清洗后的数据中的实体词,得到初步规范数据;其中,实体词包括以下至少之一:公司名COM和组织名ORG;设置语义模板规则,对初步规范数据进行筛选,得到待规范数据;确定待规范数据中的同义标准词与同义副词,明确待规范数据中的同义词对;设定数据标注策略,对待规范数据进行标注,添加人工构建数据进行数据增强,得到训练数据;利用初步规范数据预训练字向量与词向量,将字向量与词向量垂直方向进行合并得到新向量;预处理训练数据;利用EncoderDecoder结构构建模型对预处理后的训练数据进行训练,保存最优指标模型;利用最优指标模型对待预测样本进行预测,使用Beamsearch策略,选取排布概率最大项作为输出序列,得到待预测样本的同义词序列。其中,爬取公开的新闻数据集并对新闻数据集进行数据清洗,得到清洗后的数据包括:爬取公开的国内、经济、科技类新闻数据,去除特殊字符与无意义符号,并检查有无空值,若有空值则去除该项数据,得到清洗后的数据;提取清洗后的数据中的实体词,得到初步规范数据包括:使用预先训练好的中文命名实体识别模型对清洗后的数据进行处理,提取每一句中公司名与组织名的实体词作为训练补充语料,同时进行长短句收集整理,每个句子字数控制在预设字数以内;设置语义模板规则,对初步规范数据进行筛选,得到待规范数据包括:通过设置“<ORG>+动词+〈ORG>/〈COM>+动词+〈ORG>/〈ORG>+动词+〈COM>/〈COM>+动词+〈COM>”模板规则和人工构建领域内高频动词词典,进行数据筛选,得到待规范数据;和/或确定待规范数据中的同义标准词与同义副词,明确待规范数据中的同义词对包括:将待规范数据中一个句子中字数多的实体词作为同义标准词,确定句子中另一个实体词与同义标准词属于同一类,且另一个实体词语中每一个字都包含于同义标准词语中,且另一个实体词的字数大于1,则将另一个实体词作为同义副词,确定句子中的同义标准词和同义副词属于同义词对。其中,设定数据标注策略,对待规范数据进行标注,添加人工构建数据进行数据增强,得到训练数据包括:将待规范数据中每一个句子中同义标准词中的第一个字标注SEi,同义标准词中的其他字标注为Ii,同义副词中的第一个字标注为E2,同义副词中的其他字标注为I2,句中其他不在同义词对中的字标注为O;将符合语义模板规则的人工补充数据加入初步规范数据中,得到训练数据,其中,人工补充数据与待规范数据经过随机排列处理混合在一起;利用初步规范数据预训练字向量与词向量,将字向量与词向量垂直方向进行合并得到新向量包括:采用Skip结构的Word2vec模型,训练得到字向量,将实体词加入分词后形成的词典,训练得到词向量,将词向量与字向量进行垂直方向合并得到新向量;和/或预处理训练数据包括:将训练数据分离出标注序列与中文序列,对中文序列进行停用词过滤,建立字典并按照字典索引将文本序列编码处理。其中,利用EncoderDecoder结构构建模型对预处理后的训练数据进行训练,保存最优指标模型包括:采用结构为Encoder-Decoder结构的模型,在编码器encoder中,通过设置卷积核数分别为3,4,5的卷积神经网络提取序列特征,分别经过一个双向递归神经网络进行序列化,加入selfattention生成相应的注意力权值作为Encoder端输出的中间状态值,在decoder端经过2层双向递归神经网络构成解码器,分别将前一时刻的target序列输入decoder中,与中间状态层产生作用,生成下一个时间步长的target序列。其中,利用最优指标模型对待预测样本进行预测包括:使用Beamsearch策略,设置Beamsearchsize值为3,选取排布概率最大项作为输出序列,得到待预测样本的同义词序列。本专利技术另一方面提供了一种基于序列识别的企业或组织中文名称实体消歧装置,包括:数据集构建模块,用于爬取公开的新闻数据集并对新闻数据集进行数据清洗,得到清洗后的数据;提取清洗后的数据中的实体词,得到初步规范数据;其中,实体词包括以下至少之一:公司名COM和组织名ORG;设置语义模板规则,对初步规范数据进行筛选,得到待规范数据;确定待规范数据中的同义标准词与同义副词,明确待规范数据中的同义词对;数据标注模块,用于设定数据标注策略,对待规范数据进行标注,添加人工构建数据进行数据增强,得到训练数据;向量训练模块,用于利用初步规范数据预训练字向量与词向量,将字向量与词向量垂直方向进行合并得到新向量;预处理模块,用于预处理训练数据;模型训练模块,用于利用EncoderDecoder结构构建模型对预处理后的训练数据进行训练,保存最优指标模型;预测模块,用于利用最优指标模型对待预测样本进行预测,使用Beamsearch策略,选取排布概率最大项作为输出序列,得到待预测样本的同义词序列。其中,数据集构建模块通过如下方式爬取公开的新闻数据集并对新闻数据集进行数据清洗,得到清洗后的数据:数据集构建模块,具体用于爬取公开的国内、经济、科技类新闻数据,去除特殊字符与本文档来自技高网
...

【技术保护点】
1.一种基于序列识别的企业或组织中文名称实体消歧方法,其特征在于,包括:爬取公开的新闻数据集并对所述新闻数据集进行数据清洗,得到清洗后的数据;提取所述清洗后的数据中的实体词,得到初步规范数据;其中,所述实体词包括以下至少之一:公司名COM和组织名ORG;设置语义模板规则,对所述初步规范数据进行筛选,得到待规范数据;确定所述待规范数据中的同义标准词与同义副词,明确所述待规范数据中的同义词对;设定数据标注策略,对所述待规范数据进行标注,添加人工构建数据进行数据增强,得到训练数据;利用所述初步规范数据预训练字向量与词向量,将所述字向量与所述词向量垂直方向进行合并得到新向量;预处理所述训练数据;利用Encoder Decoder结构构建模型对所述预处理后的训练数据进行训练,保存最优指标模型;利用所述最优指标模型对待预测样本进行预测,使用Beamsearch策略,选取排布概率最大项作为输出序列,得到所述待预测样本的同义词序列。

【技术特征摘要】
1.一种基于序列识别的企业或组织中文名称实体消歧方法,其特征在于,包括:爬取公开的新闻数据集并对所述新闻数据集进行数据清洗,得到清洗后的数据;提取所述清洗后的数据中的实体词,得到初步规范数据;其中,所述实体词包括以下至少之一:公司名COM和组织名ORG;设置语义模板规则,对所述初步规范数据进行筛选,得到待规范数据;确定所述待规范数据中的同义标准词与同义副词,明确所述待规范数据中的同义词对;设定数据标注策略,对所述待规范数据进行标注,添加人工构建数据进行数据增强,得到训练数据;利用所述初步规范数据预训练字向量与词向量,将所述字向量与所述词向量垂直方向进行合并得到新向量;预处理所述训练数据;利用EncoderDecoder结构构建模型对所述预处理后的训练数据进行训练,保存最优指标模型;利用所述最优指标模型对待预测样本进行预测,使用Beamsearch策略,选取排布概率最大项作为输出序列,得到所述待预测样本的同义词序列。2.根据权利要求1所述的方法,其特征在于,所述爬取公开的新闻数据集并对所述新闻数据集进行数据清洗,得到清洗后的数据包括:爬取公开的国内、经济、科技类新闻数据,去除特殊字符与无意义符号,并检查有无空值,若有空值则去除该项数据,得到所述清洗后的数据;所述提取所述清洗后的数据中的实体词,得到初步规范数据包括:使用预先训练好的中文命名实体识别模型对所述清洗后的数据进行处理,提取每一句中公司名与组织名的实体词作为训练补充语料,同时进行长短句收集整理,每个句子字数控制在预设字数以内;所述设置语义模板规则,对所述初步规范数据进行筛选,得到待规范数据包括:通过设置“<ORG>+动词+〈ORG>/〈COM>+动词+〈ORG>/〈ORG>+动词+〈COM>/〈COM>+动词+〈COM>”模板规则和人工构建领域内高频动词词典,进行数据筛选,得到所述待规范数据;和/或所述确定所述待规范数据中的同义标准词与同义副词,明确所述待规范数据中的同义词对包括:将所述待规范数据中一个句子中字数多的实体词作为同义标准词,确定所述句子中另一个实体词与所述同义标准词属于同一类,且所述另一个实体词语中每一个字都包含于所述同义标准词语中,且所述另一个实体词的字数大于1,则将所述另一个实体词作为同义副词,确定所述句子中的同义标准词和所述同义副词属于同义词对。3.根据权利要求1所述的方法,其特征在于,所述设定数据标注策略,对所述待规范数据进行标注,添加人工构建数据进行数据增强,得到训练数据包括:将所述待规范数据中每一个句子中所述同义标准词中的第一个字标注SEi,所述同义标准词中的其他字标注为Ii,所述同义副词中的第一个字标注为E2,所述同义副词中的其他字标注为I2,句中其他不在同义词对中的字标注为O;将符合语义模板规则的人工补充数据加入所述初步规范数据中,得到所述训练数据,其中,所述人工补充数据与所述待规范数据经过随机排列处理混合在一起;所述利用所述初步规范数据预训练字向量与词向量,将所述字向量与所述词向量垂直方向进行合并得到新向量包括:采用Skip结构的Word2vec模型,训练得到所述字向量,将所述实体词加入分词后形成的词典,训练得到所述词向量,将所述词向量与所述字向量进行垂直方向合并得到所述新向量;和/或所述预处理所述训练数据包括:将所述训练数据分离出标注序列与中文序列,对所述中文序列进行停用词过滤,建立字典并按照字典索引将文本序列编码处理。4.根据权利要求1所述的方法,其特征在于,所述利用EncoderDecoder结构构建模型对所述预处理后的训练数据进行训练,保存最优指标模型包括:采用结构为Encoder-Decoder结构的模型,在编码器encoder中,通过设置卷积核数分别为3,4,5的卷积神经网络提取序列特征,分别经过一个双向递归神经网络进行序列化,加入selfattention生成相应的注意力权值作为Encoder端输出的中间状态值,在decoder端经过2层双向递归神经网络构成解码器,分别将前一时刻的target序列输入decoder中,与中间状态层产生作用,生成下一个时间步长的target序列。5.根据权利要求4所述的方法,其特征在于,所述利用所述最优指标模型对待预测样本进行预测包括:使用Beamsearch策略,设置Beamsearchsize值为3,选取排布概率最大项作为输出序列,得到所述待预测样本的同义词序列。6.一种基于序列识别的企业或组织中文名称实体消歧装置,其特征在于,包括:数据集构建模块,用于爬取公开的新闻数据集并对所述新闻数据集进行数据清洗,得到清洗后的数据;提取所述清洗后的数据中的实体词,得到初步规范数据;其中,所述实体词包括以下至少之一:公司名COM和组...

【专利技术属性】
技术研发人员:顾凌云
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1