一种文档处理设备和方法技术

技术编号:24888875 阅读:31 留言:0更新日期:2020-07-14 18:16
本发明专利技术公开了一种文档处理方法,适于在文档中查找与第一实体构成预定关系的目标实体,包括基于深度学习模型在文档中查找与第一实体构成预定关系的第二实体,基于预定规则在文档中查找与第一实体构成预定关系的第三实体;以及基于第二实体和第三实体来确定目标实体。本发明专利技术还公开了相应的文档处理设备、实现深度学习模型的计算装置等。

【技术实现步骤摘要】
一种文档处理设备和方法
本专利技术涉及自然语言处理领域,尤其涉及在文档中确定构成特定关系的两个实体的槽填充(SlotFiling)领域。
技术介绍
随着互联网技术的发展和普及,越来越多的文档和对话都是以电子化的形式在网络中存储和使用。为了对文档和对话内容进行处理,自然语言处理技术日益普及。在自然语言处理领域,槽填充(SlotFiling)的问题日益受到重视。槽填充的问题定义是:给定一个指定关系和关系中的一个实体,如何在文档库中寻找另外一个跟这个实体构成指定关系的另外一个实体。解决槽填充问题在自然语言处理、自然语言理解以及知识库的创建中有很重要的意义。如果能够很好地解决这个问题,就可以依赖解决问题的方法建立实体间的关系知识库,从而进一步帮助自然语言处理、自然语言理解和知识挖掘的各种任务目标。在现有的解决方案中,利用传统机器学习如支持向量机(SVM)的方案分类效果较差,而一些深度学习的方案缺少足够的标注数据,导致预测的召回率或者准确度都受影响。单一的规则系统不能覆盖所有的关系类型,而且有的关系类型很难用规则系统处理。单一的问询(QA本文档来自技高网...

【技术保护点】
1.一种基于机器学习的计算装置,所述计算装置包括:/n循环神经网络处理单元,适于接收文档片段中各个词的词特征向量,并利用基于循环神经网络的算法来计算得到与各个词对应的全局词特征向量,所述各词的全局词特征向量表征文档片段中该词上下文中的各个词的特征对该词特征的影响;/n注意力机制处理单元,适于接收所述文档片段中的各个词的位置向量和所述循环神经网络处理单元输出的全局词特征向量,利用基于注意力机制的算法计算出与各个词相应的权重向量,所述位置向量表示所述文档片段中的各个词与第一实体和预定实体的位置关系映射,以及所述第一实体和预定实体包含所述文档片段中连续的一个或者多个词;/n组合处理单元,适于基于所述...

【技术特征摘要】
1.一种基于机器学习的计算装置,所述计算装置包括:
循环神经网络处理单元,适于接收文档片段中各个词的词特征向量,并利用基于循环神经网络的算法来计算得到与各个词对应的全局词特征向量,所述各词的全局词特征向量表征文档片段中该词上下文中的各个词的特征对该词特征的影响;
注意力机制处理单元,适于接收所述文档片段中的各个词的位置向量和所述循环神经网络处理单元输出的全局词特征向量,利用基于注意力机制的算法计算出与各个词相应的权重向量,所述位置向量表示所述文档片段中的各个词与第一实体和预定实体的位置关系映射,以及所述第一实体和预定实体包含所述文档片段中连续的一个或者多个词;
组合处理单元,适于基于所述各个词的权重向量对所述循环神经网络处理单元输出的全局词特征向量进行加权组合以便生成文档向量;以及
分类输出单元,适于基于所述文档向量确定所述第一实体和所述预定实体之间具有预定关系的概率,以确定第一实体和预定实体在文档片段中是否具有预定关系。


2.如权利要求1所述的计算装置,还包括:
实体位置嵌入处理单元,适于将所述文档片段中的各个词与所述第一实体和所述预定实体的位置关系映射为所述位置向量;
词嵌入处理单元,适于将所述文档片段中的各个词映射为与各个词对应的所述词特征向量。


3.如权利要求2所述的计算装置,其中所述词嵌入处理单元适于:
确定每个词对应的命名实体(NER)和词性(POS);
将所述每个词、命名实体和词性映射为对应的向量;以及
组合所述向量以生成所述词特征向量。


4.如权利要求1-3中任一个所述的计算装置,还包括:
连接在在所述组合处理单元和分类输出单元之间的多层感知处理单元。


5.如权利要求4所述的计算装置,其中所述多层感知处理单元为全连接处理单元。


6.如权利要求1-5中任一个所述的计算装置,其中所述循环神经网络处理单元中采用的循环神经网络为长短期记忆(LSTM)网络。


7.一种文档处理方法,包括步骤:
在所述文档中定位第一实体;
提取在所述第一实体位置预定距离内的预定实体;
基于所述第一实体和预定实体确定文档片段;
利用如权利要求1-6中任一个所述的计算装置来确定所述第一实体和所述预定实体在所述文档片段中是否具有所述预定关系;以及
将具有所述预定关系的预定实体确定为所述目标实体。


8.如权利要求7所述的文档处理方法,其中所述利用所述计算装置来确定所述第一实体和所述预定实体在所述文档片段中是否具有所述预定关系的步骤包括:
利用所述计算装置确定所述第一实体和所述预定实体在所述文档片段中具有的第一关系;以及
基于所述第一关系和所述预定关系之间的关联,确定所述第一实体和预定实体是否具有预定关系。


9.如权利要求8所述的文档处理方法,其中所述利用所述计算装置确定的第一关系包括多个第一关系以及与各个第一关系相对应的概率,所述基于所述第一关系和所述预定关系之间的关联确定所述第一实体和预定实体是否具有预定关系的步骤包括:
在各个第一关系中,如果指示所述预定关系的第一关系的概率超过指示非预定关系的第一关系的概率,则确定所述第一实体和预定实体具有预定关系。


10.如权利要求8或者9所述的文档处理方法,其中所述基于所述第一关系和所述预定关系之间的关联确定所述第一实体和预定实体是否具有预定关系的步骤包括:
根据第一关系和所述预定关系之间的包含关系来确定所述第一实体和预定实体是否具有预定关系。


11.如权利要求8-10中任一个所述的文档处理方法,其中所述基于所述第一关系和所述预定关系之间的关联确定所述第一实体和预定实体是否具有预定关系的步骤包括:
根据第一关系和预定关系之间的方向性来确定所述第一实体和预定实体是否具有预定关系。


12.如权利要求7-11中任何一个所述的文档处理方法,其中所述预定距离包括:
与所述第一实体所在的句子距离达第一预定句子数量。


13.如权利要求7-12中任一个所述的文档处理方法,其中所述基于所述第一实体和预定实体确定文档片段的步骤包括:
在所述第一实体和候选实体所处的句子两端补充的第二预定数量的句子;以及
由所补充的句子、包含第一实体和所述预定实体的句子以及在所述第一实体和预定实体之间的句子构成所述预定文档片段。


14.如权利要求7-13中任一个所述的文档处理方法,其中所述文档片段包含不超过第三预定数量的单词。


15.一种模型训练方法,适于构造训练集来对如权利要求1-6中任一个所述的计算装置进行训练,所述方法包括步骤:
获取构成预定关系的第一实体和目标实...

【专利技术属性】
技术研发人员:吴山产贺一帆张琼
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1