The invention relates to a method and device for creating training data for Natural Language Processing device, and a Natural Language Processing device using the training data. A method for creating the training data, the Natural Language Processing system includes: receiving the request to create training data; for input natural language corpus to create the training data; determining the sub parameters required for the training data; the sub parameter based on the natural language corpus is divided into input a plurality of packets, the plurality of packets each include a number of examples; for each of the plurality of sample, automatic extraction of sentence level feature vector, which is the sentence level feature vectors of the plurality of packets as the training data.
【技术实现步骤摘要】
创建用于自然语言处理装置的训练数据的方法和设备
本专利技术涉及人工智能领域,更具体地,本专利技术涉及一种创建用于自然语言处理装置的训练数据的方法和设备,以及利用该训练数据的自然语言处理装置。
技术介绍
近年来,随着计算机技术的不断发展,基于计算机技术的人工智能在很多应中实现对人的意识、思维的信息过程的模拟。由于语言是人类区别于其他物种的根本标志,利用计算机来处理人类的语言的自然语言处理体现了人工智能的最高任务与境界。在诸如问答(QA)系统的自然语言处理系统中,实现用准确、简洁的自然语言回答人类用户用自然语言提出的问题。在问答系统中,通常是利用预先训练好的基于神经网络的分类器提取自然语言语句的结构化特征,然后基于该结构化特征从预先建立的知识库中检索或推理得到相应的答案。在上述基于神经网络的分类器的训练以及知识库的建立过程中,都需要提供大量标注有结构化特征的训练数据供基于神经网络的分类器执行深度学习。在一种现有的问答系统中,为了执行分类器的预先训练,需要使用预先手动标注特征的训练数据,这种手动标注是费时且昂贵的。在另一种现有的问答系统中,依赖于传统的自然语言解析(NL ...
【技术保护点】
一种创建用于自然语言处理系统的训练数据的方法,包括:接收创建所述训练数据的请求;获得用于创建所述训练数据的自然语言语料库输入;确定所述训练数据所需的分包参数;基于所述分包参数,将所述自然语言语料库输入分为多个包,所述多个包的每个包括多个示例;对于所述多个示例的每一个,自动提取句子级特征向量,其中,具有所述句子级特征向量的所述多个包作为所述训练数据。
【技术特征摘要】
1.一种创建用于自然语言处理系统的训练数据的方法,包括:接收创建所述训练数据的请求;获得用于创建所述训练数据的自然语言语料库输入;确定所述训练数据所需的分包参数;基于所述分包参数,将所述自然语言语料库输入分为多个包,所述多个包的每个包括多个示例;对于所述多个示例的每一个,自动提取句子级特征向量,其中,具有所述句子级特征向量的所述多个包作为所述训练数据。2.如权利要求1所述的方法,其中所述确定所述训练数据所需的分包参数包括:基于创建所述训练数据的请求和/或所述自然语言语料库输入的来源,确定所述分包参数。3.如权利要求1所述的方法,其中对于所述多个示例的每一个,自动提取句子级特征向量包括:对于所述多个示例的每一个示例中的每个词汇元素,提取预定窗口范围内的多个词汇作为词语特征,提取其与目标词的距离作为位置特征;对所述词语特征和所述位置特征组成的特征向量执行最大池化,获得所述句子级特征向量。4.如权利要求1到3的任一所述的方法,还包括:利用所述训练数据,训练分类器或构造知识库。5.如权利要求4所述的方法,其中所述利用所述训练数据,训练分类器包括:初始化所述分类器的神经网络参数;随机选择所述多个包中的一个包;确定所述一个包中使得目标函数最大化的一个示例;基于所述一个示例的梯度更新所述分类器的神经网络参数,直到所述神经网络收敛。6.一种创建用于自然语言处理系统的训练数据的设备,包括:请求接收模块,用于接收创建所述训练数据的请求;输入模块,用于获得用于创建所述训练数据的自然语言语料库输入;分包参数确定模块,用于确定所述训练数据所需的分包参数;分包模块,用于基于所述分包参数,将所述自然语言语料库输入分为多个包,所述多个包的每个包括多个示例;特征向量提取模块,用于对于所述多个示例的每一个,自动提取句子级特征向量,其中,具有所述句子级特征向量的所述多个包作为所述训练数据。7.如权利要求6所述的设备,其中所述分包参数确定模块基于创建所述训练数据的请求和/或所述自然语言语料库输入的来源,确定所述分包参数。8.如权利要求6所述的设备,其中所述特征向量提取模块对于所述多个示例的每一个示例中的每个词汇元素,提取预定窗口范围内的多个词汇作为词语特征,提取其与目标词的距离作为位置特征;对所述词语特征和所述位置特征组成的特征向量执行最大池化,获得所述句子级特征向...
【专利技术属性】
技术研发人员:王晓利,张永生,刘康,王炳宁,陈玉博,魏琢钰,赵军,
申请(专利权)人:株式会社NTT都科摩,中国科学院自动化研究所,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。