一种中文关系抽取方法技术

技术编号：22308452 阅读：16 留言：0更新日期：2019-10-16 08:32

本发明专利技术提供一种中文关系抽取方法，包括如下步骤：S1：数据预处理：对输入数据的文本进行多粒度信息的预训练处理，以提取出所述文本中的字、词和词义三个级别的分布式向量；S2：特征编码：以双向长短时记忆网络为基本架构，通过所述字、词和词义三个级别的分布式向量得到字的隐藏状态向量、词的隐藏状态向量，进而得到字级别的最终隐状态向量；S3：关系分类：学习所述字级别的最终隐状态向量，采用所述字级别的注意力机制将所述字级别的隐状态向量融合成一个句子级别的隐状态向量。有效地解决分词歧义和多义词歧义的问题，大大提升了模型在关系抽取任务上的表现，提高中文关系抽取的准确率和鲁棒性。

A method of Chinese relation extraction

全部详细技术资料下载

【技术实现步骤摘要】
一种中文关系抽取方法
本专利技术涉及计算机应用
，尤其涉及一种中文关系抽取方法。
技术介绍
自然语言处理是人工智能的子学科，也是计算机科学和计算语言学的交叉学科。其中，关系抽取是自然语言处理领域的基本任务之一。其目的是对于给定的句子及标记好的实体(一般是名词)，准确找出实体之间的关系。关系抽取技术能用于构建大规模的知识图谱，知识图谱是由概念、实体、实体属性及实体关系组成的语义网络，是对真实世界结构化的表示。大规模知识图谱的构建可以为人工智能系统提供全面且结构化的外部知识，从而发展出更加强大的应用。传统的关系抽取任务存在着一定的问题，它们往往由人工来制定特征，使得模型在小范围特定的数据集上有效运行，这种做法限制了关系抽取领域的发展。同时，由于对手工特征的依赖，传统的关系抽取技术具有较差的鲁棒性和可扩展性，导致模型无法在不同的数据和语料上进行泛化。近年来，基于深度学习的关系抽取取得了很大的进展，和传统的关系抽取方法比，这些方法有很多优点。首先，由于神经网络的应用，这些模型可以自动地去学习文本的语义特征，从而避免了人工地针对特定数据去设计特征，降低了人力成本，并且取得了更好的效果。这种神经网络模型提供了一种端到端的解决方案，最小化了人工的参与程度。同时，基于神经网络的模型也拥有较高的鲁棒性，可以针对千变万化的自然语言学习不同的特征到输出的映射。但是，即使是深度学习模型，也面临着一些尚未解决的问题。对于像中文这种没有天然分隔符的语言来说，目前的方法是对主流方法进行字级别或者词级别的实现。前者的输入序列以字为单位输入到模型中，这种方法会让模型很难学习到语义空间...

【技术保护点】
1.一种中文关系抽取方法，其特征在于，包括如下步骤：S1：数据预处理：对输入数据的文本进行多粒度信息的预训练处理，以提取出所述文本中的字、词和词义三个级别的分布式向量；S2：特征编码：以双向长短时记忆网络为基本架构，通过所述字、词和词义三个级别的分布式向量得到字的隐藏状态向量、词的隐藏状态向量，进而得到字级别的最终隐状态向量；S3：关系分类：学习所述字级别的最终隐状态向量，采用所述字级别的注意力机制将所述字级别的隐状态向量融合成一个句子级别的隐状态向量。

【技术特征摘要】
1.一种中文关系抽取方法，其特征在于，包括如下步骤：S1：数据预处理：对输入数据的文本进行多粒度信息的预训练处理，以提取出所述文本中的字、词和词义三个级别的分布式向量；S2：特征编码：以双向长短时记忆网络为基本架构，通过所述字、词和词义三个级别的分布式向量得到字的隐藏状态向量、词的隐藏状态向量，进而得到字级别的最终隐状态向量；S3：关系分类：学习所述字级别的最终隐状态向量，采用所述字级别的注意力机制将所述字级别的隐状态向量融合成一个句子级别的隐状态向量。2.如权利要求1所述的中文关系抽提方法，其特征在于，提取字级别的分布式向量包括提取字向量和位置向量；所述字向量：对于给定的所述输入数据的文本的字级别序列s＝{c1，...，cM}共M有个字符，使用word2vec方法，将每个字符ci都映射为一个字向量其中，ci表示第i个字符,是第i个字符的字向量，R为实数空间，dc是所述字向量的维度；所述位置向量表示字符ci到两个实体P1和P2之间的相对位置其中，的计算方法如下：其中，b1和e1是第一个实体P1的开头和结束位置，的计算方法和的计算方法相同，将和转化为相应的位置向量，为和用于表示所述字级别序列的位置特征，dp表示位置向量的维度；字级别的分布式向量的最终表示是将所述字向量和两个所述位置向量拼接起来，即为：此时，d＝dc+2*dp，d为所述字向量和所述位置向量拼接之后的总维度；此时，所述输入数据的文本的字级别序列的表示变成3.如权利要求1所述的中文关系抽提方法，其特征在于，提取词级别的分布式向量包括：对于给定的所述输入数据的文本的字级别序列s＝{c1，...，cM}和词级别序列s＝{w1，...，wM}，使用起始位置b和终止位置e来表示一个词即wb，e；通过word2vec方法将词wb，e转化为词级别的分布式向量4.如权利要求3所述的中文关系抽提方法，其特征在于，从外部语义知识库知网中获取每个词wb，e的词义集合Sense(wb，e)，将每一个在所述词义集合中的词义即都转化为一个词义级别的分布式向量即其中，K为词wb，e的词义的个数。5.如权利要求1所述的中文关系抽提方法，其特征在于，步骤S2包括：S21：以字为基本单位，将所述输入数据的文本的字级别序列直接输入到所述双向长短时记忆网络中得到所述字的隐藏状态向量；S22：将所述输入数据的文本的字级别序列的以每个所述字作为结尾的词通过外部语义知识库知网获取所述词的所有词义向量，将所述词义向量输入到所述双向长短时记忆网络中计算得到词义级别的隐藏状态向量...

【专利技术属性】
技术研发人员：丁宁，李自然，郑海涛，刘知远，沈颖，
申请(专利权)人：清华大学深圳研究生院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人