一种序列标注方法、装置及计算机可读存储介质制造方法及图纸

技术编号:26377619 阅读:40 留言:0更新日期:2020-11-19 23:46
本发明专利技术提供了一种序列标注方法、装置及计算机可读存储介质。本发明专利技术提供的序列标注方法,将词性和/或句法特征引入到序列标注过程中,由于利用了更为丰富的词性和句法信息,本发明专利技术能够获得更好的序列标注的效果,提高序列标注的准确度。

【技术实现步骤摘要】
一种序列标注方法、装置及计算机可读存储介质
本专利技术涉及自然语言处理(NLP,NaturalLanguageProcessing)
,具体涉及一种序列标注方法、装置及计算机可读存储介质。
技术介绍
在人工智能领域,信息提取技术是一项不可或缺的重要技术。目前,信息提取技术主要包括三种算法。第一种是基于知识图谱的抽取算法。该抽取算法需要知识库图谱的数据与规则支持。建立知识图谱需要耗费大量人力资源,而最终获得的数据量却并不理想。第二种是基于传统统计机器学习算法的抽取算法,该算法可以使用手动标记的训练数据,应用不同的学习模型,以应对不同的场景,该算法存在人工成本高和推广性差的缺点,使得其在广泛应用时遇到瓶颈。最后一种算法是近年来流行的使用神经网络模型的算法。与传统的机器学习算法相比,使用了大规模的训练数据集的基于神经网络的模型,在自然语言处理任务中展现了优异的性能。作为自然语言处理的基本任务之一,通常需要进行序列标注。序列标注是指针对某个给定的序列,对序列中的做标记,或者说给元素打一个标签。序列标注通常包括命名实体识别(NER,Name本文档来自技高网...

【技术保护点】
1.一种序列标注方法,其特征在于,包括:/n生成训练语句中的单词的第一标签,所述第一标签包括词性标签和/或句法标签;/n针对所述训练语句,构建基于所述第一标签的第一特征向量,并通过神经网络模型生成所述第一特征向量的第一隐藏状态;/n针对所述训练语句,生成包含有预设字典的字典特征的第二特征向量,并通过所述神经网络模型生成所述第二特征向量的第二隐藏状态,所述预设字典包括有多个参考标注结果;/n合并所述第一隐藏状态与第二隐藏状态,得到第三隐藏状态;/n根据所述第三隐藏状态进行序列标注,获得所述训练语句的序列标注结果。/n

【技术特征摘要】
1.一种序列标注方法,其特征在于,包括:
生成训练语句中的单词的第一标签,所述第一标签包括词性标签和/或句法标签;
针对所述训练语句,构建基于所述第一标签的第一特征向量,并通过神经网络模型生成所述第一特征向量的第一隐藏状态;
针对所述训练语句,生成包含有预设字典的字典特征的第二特征向量,并通过所述神经网络模型生成所述第二特征向量的第二隐藏状态,所述预设字典包括有多个参考标注结果;
合并所述第一隐藏状态与第二隐藏状态,得到第三隐藏状态;
根据所述第三隐藏状态进行序列标注,获得所述训练语句的序列标注结果。


2.如权利要求1所述的方法,其特征在于,所述针对所述训练语句,构建基于所述第一标签的第一特征向量的步骤,包括:
将所述训练语句的每个单词替换为该单词所属的第一标签所对应的概率,得到所述第一特征向量;其中,每个单词所属的第一标签所对应的概率,与第一类单词在第二类单词中的比例正相关,所述第二类单词为所述训练语句中该单词所属的第一标签下的单词,所述第一类单词为所述第二类单词中属于所述参考标注结果的单词。


3.如权利要求1所述的方法,其特征在于,所述针对所述训练语句,生成包含有预设字典的字典特征的第二特征向量的步骤,包括:
获得所述训练语句中各个单词的词嵌入向量;
针对所述训练语句中的每个单词,根据所述训练语句中包括该单词在内的单词上下文,是否存在于所述预设字典中,生成每个单词对应的独热编码,获得所述训练语句对应的独热向量;
合并所述训练语句中单词的词嵌入向量和所述训练语句对应的独热向量,得到包含有所述预设字典的字典特征的第二特征向量。


4.如权利要求1所述的方法,其特征在于,所述合并所述第一隐藏状态与第二隐藏状态的步骤,包括:
对第一隐藏状态和第二隐藏状态进行向量连接操作或向量相加操作,得到所述第三隐藏状态。


5.如权利要求1所述的方法,其特征在于,所述根据所述训练语句的第三隐藏状态进行序列标注的步骤,包括:
基于所述第三隐藏状态,生成所述训练语句的分段序列,并将所述分段序列输入至所述神经网络模型的输出层softmax层,对所述神经网络模型进行训练,并获得所述softmax层输出的所述训练语句的各个分段序列所属类别的标签及其概率。

【专利技术属性】
技术研发人员:孟茜童毅轩张永伟姜珊珊董滨
申请(专利权)人:株式会社理光
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1