一种添加文本标注的方法及装置制造方法及图纸

技术编号:16379634 阅读:75 留言:0更新日期:2017-10-15 13:30
本申请提供了一种添加文本标注的方法及装置,其中,所述方法包括:获取无标注文本;采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理,得到所述无标注文本的序列标注;根据所述序列标注对所述无标注文本添加文本标注。本发明专利技术通过神经网络模型训练得到的序列标注模型,将文本标注问题转换为序列标注问题,再根据序列标注就可以完成文本标注的添加。所以本发明专利技术可以不依赖任何辅助信息即可对无标注文本添加文本标注,能全面解决文本标注添加问题。

Method and device for adding text annotation

The invention provides a method and device for adding text annotation, wherein, the method comprises: obtaining unlabeled text; the pre series neural network model trained on unlabeled text processing annotation model, obtain the non sequence labeling text annotation; according to the sequence labeling unlabeled text the text on the label. In this paper, the sequence annotation model is trained by neural network model, and the text annotation problem is converted into sequence tagging problem, and then the text annotation can be added according to the sequence annotation. Therefore, the text annotation can be added to the unlabeled text without any auxiliary information, which can comprehensively solve the problem of adding text annotations.

【技术实现步骤摘要】
一种添加文本标注的方法及装置
本专利技术涉及计算机科学领域,特别是涉及一种添加文本标注的方法和一种添加文本标注的装置。
技术介绍
当今社会对人工智能领域中的语音识别技术的商业需求日趋增加,但语音识别得到的文本结果中不会同时得到标点符号。因此,若要提升用户的阅读体验,需要在后期处理文本时为文本添加标点符号。除语音识别外,一些其他的场景也有可能获得没有标点符号的文本,如机器翻译等。所以,添加标点符号的技术具有研究及使用价值。现有添加标点符号的技术常会借助一些音频本身的信息,如音频中对话的停顿、间隔等,以此作为添加标点的依据。但这一方法无法应用在机器翻译等应用场景之中,故不能全面解决标点符号添加问题。所以,不依赖其余任何辅助信息即可对无标点文本添加标点的技术是必需的。因此,目前需要本领域技术人员迫切解决的一个技术问题就是:在不依赖任何辅助信息的前提下,如何为无标注文本添加文本标注,全面解决文本标注添加问题。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种添加文本标注的方法,用以在不依赖任何辅助信息的前提下,全面解决文本标注添加问题。相应的,本专利技术实施例还提供了一种添加文本标注的本文档来自技高网...
一种添加文本标注的方法及装置

【技术保护点】
一种添加文本标注的方法,其特征在于,所述方法包括:获取无标注文本;采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理,得到所述无标注文本的序列标注;根据所述序列标注对所述无标注文本添加文本标注。

【技术特征摘要】
1.一种添加文本标注的方法,其特征在于,所述方法包括:获取无标注文本;采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理,得到所述无标注文本的序列标注;根据所述序列标注对所述无标注文本添加文本标注。2.根据权利要求1所述的方法,其特征在于,获取所述序列标注模型的方法包括:获取带有正确标注的文本样本;对所述带有正确标注的文本样本进行序列化处理,得到无标注文本样本和序列标注样本;根据所述无标注文本样本和序列标注样本对神经网络模型进行训练,得到序列标注模型。3.根据权利要求2所述的方法,其特征在于,所述对所述带有正确标注的文本样本进行序列化处理的方法,包括:对所述带有正确标注的文本样本进行去除标注处理,得到无标注文本样本;根据所述带有正确标注的文本样本,将无标注文本样本转换成序列标注样本。4.根据权利要求1或2或3所述的方法,其特征在于,所述神经网络模型包括LSTM神经网络模型,或GRU神经网络模型。5.根据权利要求4所述的方法,其特征在于,所述神经网络模型为LSTM神经网络模型时,所述LSTM神经网络模型为多层LSTM神经网络模型,或双向LSTM神经网络模型。6.一种添加文本标注的装置,其特征在于,所述装置包括:无标注文本获取模块,用于获取无...

【专利技术属性】
技术研发人员:李健殷子墨张连毅武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1