一种基于教师监督的文本标注方法和设备技术

技术编号:21892206 阅读:21 留言:0更新日期:2019-08-17 14:37
本发明专利技术实施例提供了一种基于教师监督的文本标注方法和设备,属于自然语言处理技术领域。所述方法包括:利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果;通过预设的词语分割模型对待标注文本进行分词处理,生成包含分词词语的分词结果;根据每个标注词语与每个分词词语的相似度,基于分词词语对字符标注结果重新进行字符标注,得到融合标注结果并输出。采用本发明专利技术,可以提高文本标注的准确率和召回率。

A Text Annotation Method and Equipment Based on Teacher Supervision

【技术实现步骤摘要】
一种基于教师监督的文本标注方法和设备
本专利技术涉及自然语言处理
,特别涉及一种基于教师监督的文本标注方法和设备。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)技术可以高效地对文本数据进行系统化分析、理解与信息提取,使得计算机能够理解自然语言以及生成自然语言,进而实现人与计算机之间采用自然语言进行有效交互(例如消息自动回复、语音助手等应用程序的使用)。其中,文本标注技术为自然语言处理的产业化应用提供了基础。传统的机器学习(MachineLearning,ML)可以通过学习一定数量的文本数据,结合关键词(SeedWords)来挖掘文本之间的关联特征,得到传统机器学习模型,并利用该传统机器学习模型对其他文本自动分类和标注。大多数传统机器学习模型对文本高度依赖,通常主要关注文本的词法特征和句法特征,但忽略了文本的语义特征,不利于传统机器学习模型的性能提升,并且,大多数传统机器学习模型泛化性弱。因此,现有技术可以采用泛化性较高的深度学习(DeepLearning,DL)利用神经网络来挖掘文本的词法特征、句法特征和语义特征,通过不断迭代的方式训练得到深度学习模型,并利用该深度学习模型对文本进行自动标注。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:由于中文词汇丰富多样,计算机难以覆盖中文字符排列组合得到的所有词语,为了提高深度学习模型的泛化性以及防止深度学习模型过拟合,针对中文的文本标注技术通常利用基于字符粒度的深度学习模型对待标注文本进行标注处理。由于自然语言处理技术的不断发展,现有的基于字符粒度的深度学习模型不足以满足自然语言处理技术对文本标注不断提高的准确率要求。并且,当将一个训练成熟的深度学习模型应用到新的领域时,该深度学习模型的召回率不足甚至为零,导致深度学习模型泛化性差,词语边缘标注易固化。
技术实现思路
本申请的目的在于提供一种基于教师监督的文本标注方法和设备,所述技术方案如下:第一方面,提供了一种基于教师监督的文本标注方法,所述方法包括:利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果;通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果;根据每个标注词语与每个分词词语的相似度,基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果并输出。可选的,所述利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果之前,还包括:利用训练样本集合中的已标注文本对初始字符标注模型进行训练,生成所述字符标注模型。可选的,所述根据每个标注词语与每个分词词语的相似度,基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果之后,还包括:基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练。可选的,所述基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练,包括:将所述融合标注结果添加至融合标注集合;从所述融合标注集合和所述训练样本集合中抽取预设数量的已标注文本,生成新的训练样本集合;利用所述新的训练样本集合对所述字符标注模型进行训练。可选的,所述利用所述新的训练样本集合对所述字符标注模型进行训练之前,还包括:若所述词语分割模型对所述待标注文本进行分词处理失败,则将所述字符标注结果添加至回收标注集合;从所述回收标注集合中抽取预设数量的所述字符标注结果添加至所述新的训练样本集合。可选的,所述通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果,包括:若所述字符标注结果的平均置信度超过置信度阈值,则通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果。可选的,所述根据每个标注词语与每个分词词语的相似度,基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果,包括:对所述字符标注结果中的每个所述标注词语与所述分词结果中的每个所述分词词语进行排列组合,得到相关词语对;计算所有所述相关词语对的相似度,并用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语;对替换后的所述字符标注结果重新进行字符标注,得到所述融合标注结果。可选的,所述方法还包括:按照预设的递减函数根据所述字符标注模型的训练次数更新所述置信度阈值与所述相似度阈值。第二方面,提供了一种基于教师监督的文本标注设备,所述设备包括:字符标注模块,用于利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果;词语分割模块,用于通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果;融合标注模块,用于根据每个标注词语与每个分词词语的相似度,基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果并输出。可选的,所述字符标注模块,还用于:利用训练样本集合中的已标注文本对初始字符标注模型进行训练,生成所述字符标注模型。可选的,所述字符标注模块,还用于:基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练。可选的,所述融合标注模块,还用于:将所述融合标注结果添加至融合标注集合;所述字符标注模块,还用于:从所述融合标注集合和所述训练样本集合中抽取预设数量的已标注文本,生成新的训练样本集合;利用所述新的训练样本集合对所述字符标注模型进行训练。可选的,所述词语分割模块,还用于:若所述词语分割模型对所述待标注文本进行分词处理失败,则将所述字符标注结果添加至回收标注集合;所述字符标注模块,还用于:从所述回收标注集合中抽取预设数量的所述字符标注结果添加至所述新的训练样本集合。可选的,所述词语分割模块,具体用于:若所述字符标注结果的平均置信度超过置信度阈值,则通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果。可选的,所述融合标注模块,具体用于:对所述字符标注结果中的每个所述标注词语与所述分词结果中的每个所述分词词语进行排列组合,得到相关词语对;计算所有所述相关词语对的相似度,并用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语;对替换后的所述字符标注结果重新进行字符标注,得到所述融合标注结果。可选的,所述融合标注模块,还用于:按照预设的递减函数根据所述字符标注模型的训练次数更新所述置信度阈值与所述相似度阈值。第三方面,提供了一种基于教师监督的文本标注设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的基于教师监督的文本标注方法。第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的基于教师监督的文本标注方法。本专利技术实施例提供的技术方案带来的有益效果是:第一,利用词语分割模型对字符标注模型的字符标注结果进行检查和纠正,提高了字符标注模型对待标注文本进行标注处理的准确率和可靠性。第二,将最终得到的融合标注结果作为训练样本对字符标注模型进行训练,进而对剩余待标注文本进行标注本文档来自技高网
...

【技术保护点】
1.一种基于教师监督的文本标注方法,其特征在于,所述方法包括:利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果;通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果;根据每个标注词语与每个分词词语的相似度,基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果并输出。

【技术特征摘要】
1.一种基于教师监督的文本标注方法,其特征在于,所述方法包括:利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果;通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果;根据每个标注词语与每个分词词语的相似度,基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果并输出。2.如权利要求1所述的方法,其特征在于,所述利用字符标注模型对待标注文本进行标注处理,生成包含标注词语的字符标注结果之前,还包括:利用训练样本集合中的已标注文本对初始字符标注模型进行训练,生成所述字符标注模型。3.如权利要求2所述的方法,其特征在于,所述根据每个标注词语与每个分词词语的相似度,基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果之后,还包括:基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练。4.如权利要求3所述的方法,其特征在于,所述基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练,包括:将所述融合标注结果添加至融合标注集合;从所述融合标注集合和所述训练样本集合中抽取预设数量的已标注文本,生成新的训练样本集合;利用所述新的训练样本集合对所述字符标注模型进行训练。5.如权利要求4所述的方法,其特征在于,所述利用所述新的训练样本集合对所述字符标注模型进行训练之前,还包括:若所述词语分割模型对所述待标注文本进行分词处理失败,则将所述字符标注结果添加至回收标注集合;从所述回收标注集合中抽取预设数量的所述字符标注结果添加至所述新的训练样本集合。6.如权利要求1所述的方法,其特征在于,所述通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果,包括:若所述字符标注结果的平均置信度超过置信度阈值,则通过预设的词语分割模型对所述待标注文本进行分词处理,生成包含分词词语的分词结果。7.如权利要求1所述的方法,其特征在于,所述根据每个标注词语与每个分词词语的相似度,基于所述分词词语对所述字符标注结果重新进行字符标注,得到融合标注结果,包括:对所述字符标注结果中的每个所述标注词语与所述分词结果中的每个所述分词词语进行排列组合,得到相关词语对;计算所有所述相关词语对的相似度,并用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语;对替换后的所述字符标注结果重新进行字符标注,得到所...

【专利技术属性】
技术研发人员:蔡子健李金锋
申请(专利权)人:网宿科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1