一种基于教师监督的文本标注方法和设备技术

技术编号：21892206 阅读：21 留言：0更新日期：2019-08-17 14:37

本发明专利技术实施例提供了一种基于教师监督的文本标注方法和设备，属于自然语言处理技术领域。所述方法包括：利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果；通过预设的词语分割模型对待标注文本进行分词处理，生成包含分词词语的分词结果；根据每个标注词语与每个分词词语的相似度，基于分词词语对字符标注结果重新进行字符标注，得到融合标注结果并输出。采用本发明专利技术，可以提高文本标注的准确率和召回率。

A Text Annotation Method and Equipment Based on Teacher Supervision

全部详细技术资料下载

【技术实现步骤摘要】
一种基于教师监督的文本标注方法和设备
本专利技术涉及自然语言处理
，特别涉及一种基于教师监督的文本标注方法和设备。
技术介绍
自然语言处理(NaturalLanguageProcessing，NLP)技术可以高效地对文本数据进行系统化分析、理解与信息提取，使得计算机能够理解自然语言以及生成自然语言，进而实现人与计算机之间采用自然语言进行有效交互(例如消息自动回复、语音助手等应用程序的使用)。其中，文本标注技术为自然语言处理的产业化应用提供了基础。传统的机器学习(MachineLearning，ML)可以通过学习一定数量的文本数据，结合关键词(SeedWords)来挖掘文本之间的关联特征，得到传统机器学习模型，并利用该传统机器学习模型对其他文本自动分类和标注。大多数传统机器学习模型对文本高度依赖，通常主要关注文本的词法特征和句法特征，但忽略了文本的语义特征，不利于传统机器学习模型的性能提升，并且，大多数传统机器学习模型泛化性弱。因此，现有技术可以采用泛化性较高的深度学习(DeepLearning，DL)利用神经网络来挖掘文本的词法特征、句法特征和语义特征，通过不断迭代的方式训练得到深度学习模型，并利用该深度学习模型对文本进行自动标注。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题：由于中文词汇丰富多样，计算机难以覆盖中文字符排列组合得到的所有词语，为了提高深度学习模型的泛化性以及防止深度学习模型过拟合，针对中文的文本标注技术通常利用基于字符粒度的深度学习模型对待标注文本进行标注处理。由于自然语言处理技术的不断发展，现有的基于字符粒度的...

【技术保护点】
1.一种基于教师监督的文本标注方法，其特征在于，所述方法包括：利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果；通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果；根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果并输出。

【技术特征摘要】
1.一种基于教师监督的文本标注方法，其特征在于，所述方法包括：利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果；通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果；根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果并输出。2.如权利要求1所述的方法，其特征在于，所述利用字符标注模型对待标注文本进行标注处理，生成包含标注词语的字符标注结果之前，还包括：利用训练样本集合中的已标注文本对初始字符标注模型进行训练，生成所述字符标注模型。3.如权利要求2所述的方法，其特征在于，所述根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果之后，还包括：基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练。4.如权利要求3所述的方法，其特征在于，所述基于所述融合标注结果和所述训练样本集合对所述字符标注模型进行训练，包括：将所述融合标注结果添加至融合标注集合；从所述融合标注集合和所述训练样本集合中抽取预设数量的已标注文本，生成新的训练样本集合；利用所述新的训练样本集合对所述字符标注模型进行训练。5.如权利要求4所述的方法，其特征在于，所述利用所述新的训练样本集合对所述字符标注模型进行训练之前，还包括：若所述词语分割模型对所述待标注文本进行分词处理失败，则将所述字符标注结果添加至回收标注集合；从所述回收标注集合中抽取预设数量的所述字符标注结果添加至所述新的训练样本集合。6.如权利要求1所述的方法，其特征在于，所述通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果，包括：若所述字符标注结果的平均置信度超过置信度阈值，则通过预设的词语分割模型对所述待标注文本进行分词处理，生成包含分词词语的分词结果。7.如权利要求1所述的方法，其特征在于，所述根据每个标注词语与每个分词词语的相似度，基于所述分词词语对所述字符标注结果重新进行字符标注，得到融合标注结果，包括：对所述字符标注结果中的每个所述标注词语与所述分词结果中的每个所述分词词语进行排列组合，得到相关词语对；计算所有所述相关词语对的相似度，并用相似度超过相似度阈值的相关词语对中的分词词语替换标注词语；对替换后的所述字符标注结果重新进行字符标注，得到所...

【专利技术属性】
技术研发人员：蔡子健，李金锋，
申请(专利权)人：网宿科技股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人