中文命名实体识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号:23558615 阅读:28 留言:0更新日期:2020-03-25 04:07
本发明专利技术涉及一种人工智能技术,揭露了一种中文命名实体识别方法,包括:接收原始文本集并进行去噪、去停用词及标注处理后得到标准文本集,将所述标准文本集进行聚类操作得到类簇个数及聚类中心,基于所述类簇个数及所述聚类中心,将所述标准文本集建立后验概率模型,优化所述后验概率模型得到标准词向量集,将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型,接收用户输入的文本集,计算所述文本集得到词向量集,将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。本发明专利技术还提出一种中文命名实体识别装置以及一种计算机可读存储介质。本发明专利技术可以实现精准的中文命名实体识别功能。

Chinese named entity recognition method, device and computer readable storage medium

【技术实现步骤摘要】
中文命名实体识别方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种基于中文命名实体识别方法、装置及计算机可读存储介质。
技术介绍
命名实体识别是指识别语目中人名、地名、组织机构名等命名实体,中文命名实体是以中文为语言基础的命名实体,被广泛且成功地应用于信息抽取、信息检索、信息推荐和机器翻译等任务中。目前对于中文命名实体识别,现有技术方案有基于词和基于字两种方法,所述基于词的方法都需要先对中文语句进行分词,再在分词的结果上进行命名实体识别,这就使得命名实体的结果依赖于分词的准确性;此外,基于字的方法的不足在于缺失了中文词汇的语义信息,因为不同的字在不同的词汇中含义是有差异的,比如“今天”和“天气”,“上马”和“马上”,缺失了词汇信息必然会极大地降低模型的准确率。
技术实现思路
本专利技术提供一种中文命名实体识别方法、装置及计算机可读存储介质,其主要目的在于提供一种准确率高的中文命名实体识别方案。为实现上述目的,本专利技术提供的一种中文命名实体识别方法,包括:接收包含中文命名实体的原始文本文档来自技高网...

【技术保护点】
1.一种中文命名实体识别方法,其特征在于,所述方法包括:/n接收包含中文命名实体的原始文本集,将所述原始文本集进行去噪、去停用词及标注处理后得到标准文本集;/n将所述标准文本集进行聚类操作得到类簇个数及聚类中心;/n基于所述类簇个数及所述聚类中心,将所述标准文本集建立后验概率模型,优化所述后验概率模型得到标准词向量集;/n将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型;/n接收用户输入的文本集,计算所述文本集得到词向量集,将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。/n

【技术特征摘要】
1.一种中文命名实体识别方法,其特征在于,所述方法包括:
接收包含中文命名实体的原始文本集,将所述原始文本集进行去噪、去停用词及标注处理后得到标准文本集;
将所述标准文本集进行聚类操作得到类簇个数及聚类中心;
基于所述类簇个数及所述聚类中心,将所述标准文本集建立后验概率模型,优化所述后验概率模型得到标准词向量集;
将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型;
接收用户输入的文本集,计算所述文本集得到词向量集,将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。


2.如权利要求1所述的中文命名实体识别方法,其特征在于,所述标注处理包括:
将所述原始文本集进行分词处理得到分词文本集;
根据预先设定的标注规则对所述分词文本集内的词语进行标注;
根据标注之后的所述分词文本集重新组建成文本集得到标准文本集。


3.如权利要求1或2所述的中文命名实体识别方法,其特征在于,所述聚类操作包括:
随机初始化k个初始类簇和所述k个初始类簇的聚类中心Centerk;
根据聚类更新方法对所述聚类中心Centerk进行训练得到训练值;
基于平方误差计算所述训练值的误差,若所述误差大于预设误差阈值则继续训练,若所述误差小于预设误差阈值则退出训练得到训练后的类簇个数及聚类中心。


4.如权利要求3所述的中文命名实体识别方法,其特征在于,所述聚类更新方法为:



其中,xi为所述标准文本集的数据,i为编号,Ck为所述标准文本集;
所述基于平方误差计算所述训练值的误差为:



其中,J为所述训练值的误差,K为所述标准文本集的文本数量,即所述初始类簇的取值在[1,K]之间,dist(xi,Centerk)表示计算所述标准文本集的数据xi与所述聚类中心Centerk的距离。


5.如权利要求1所述的中文命名实体识别方法,其特征在于,所述预先构建的命名实体识别模型包括句子组合层、连接层和分类层;及
所述将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型,包括:
将所述标准词向量集输入至所述句子组合层进行句子组合概率求解得到最大概率的句子组合;
将所述最大概率的句子组合输入至所述连接层进行连接操作;
基于分类层对所述连接操作完成的句子进行命名实体识别得到识别结果集;
将所述识别结果集与所...

【专利技术属性】
技术研发人员:邓悦金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1