用于处理数据的计算机实现的方法以及设备技术

技术编号:28321004 阅读:25 留言:0更新日期:2021-05-04 13:01
本发明专利技术涉及用于处理包括多个文本模块的文本数据(102)的计算机实现的方法(300),其中提供(310)文本(102)的表示,并且其中使用模型,所述模型根据文本(102)的表示来预测用于所述文本(102)的各自文本模块的分类,其中提供(310)文本(102)的表示包括提供(310')用于文本(102)的各自文本模块的总词向量(500),其中所述总词向量(500)由至少两个、优选地多个词向量(510)构成(314),并且根据各自文本模块的特性对各自词向量(510)进行加权。

【技术实现步骤摘要】
用于处理数据的计算机实现的方法以及设备
本公开内容涉及用于尤其是利用人工神经网络处理文本数据的计算机实现的方法和设备,所述文本数据包括多个文本模块。
技术介绍
例如,与条件随机场分类器(ConditionalRandomFieldClassifier)CRF相结合地使用递归神经网络用于处理文本数据。在此,通过分布式向量(distributionellenVektor)表示文本的每个词。为此,例如使用串联式词表示(konkatenierteWordrepräsentationen),所述串联式词表示已在大量未标记的文本数据上得以训练。在Akbik等人的2018“ContextualStringEmbeddingsforSequenceLabeling”https://www.aclweb.org/anthology/C18-1139中公开了对此的示例。AhmedMahtab等人的“Anovelneuralsequencemodelwithmultipleattentionsforwordsensedisambiguations”201817thIEEEInternationalconferenceonmachinelearningandapplications(ICMLA)涉及注意力机制在模型中用于词歧义消除的应用。DouweKiela等人的“DynamicMeta-EmbeddingsforImprovedSentenceRepresentations”,arxiv.org,CornellUniversityLibrary,2018涉及一种用于在NLP系统中进行监控式学习的方法。从现有技术中使用的这些串联式词表示不利地包括高维向量。这又增加必须被学习的参数的数量,以便基于词表示进行分类。此外,与词或上下文有关的词表示是值得期望的。
技术实现思路
这通过独立权利要求的主题来实现。本公开内容涉及一种用于处理文本数据的计算机实现的方法,所述文本数据包括多个文本模块,其中提供文本的表示,并且其中使用模型,所述模型根据文本的表示来预测用于文本的各自文本模块的分类,其中提供文本的表示包括提供用于文本的各自文本模块的总词向量(Gesamtwortvektor),其中所述总词向量由至少两个、优选多个词向量构成,并且根据各自文本模块的特性对各自词向量进行加权。优选地根据模型来标识文本模块并且分配给种类集合中的一个种类。文本模块例如是文本的词。该模型将当前文本的每个词单独地分类为属于预先给定的种类集合、例如人员、地点、材料等。因此,总词向量不是各个词向量的串联,而是有利地根据各自文本模块的特性被构成为词向量的加权组合。有利地,这使得能够对词向量进行与词和/或域有关的加权,并且从而提供与词和/或域有关地优选或忽略特定的词向量的可能性。该模型优选地包括递归神经网络。该模型特别好地适用于分类。根据一个实施方式,该方法进一步包括计算用于各自词向量的权重。该模型例如包括注意力函数,所述注意力函数被构造用于根据权重对文本模块的各个词向量进行加权。根据一个实施方式,附加地根据各自词向量计算用于各自词向量的权重。根据一个实施方式,各自文本模块的第一特性表示文本模块在文本中的相对频率和/或各自文本模块的第二特性表示文本模块的长度和/或各自文本模块的第三特性表示文本模块的形式和/或各自文本模块的第四特性表示文本模块的句法类别。有利地使用这些特性用于计算各自词向量的权重。根据一个实施方式,将总词向量的词向量的权重变换成0、1之间的取值范围。例如,借助于Softmax函数将权重变换为0和1之间的值,其中所述值总计为1。根据一个实施方式,由至少两个、优选多个加权的词向量组成的总和构成用于各自文本模块的总词向量。将词向量与其权重相乘,并且总计成总词向量。于是,对于文本的每个文本模块,在文本的表示中使用总词向量。本公开内容此外涉及一种用于机器学习的方法,其中训练模型用于实施根据实施方式的方法用以根据文本的表示对文本的文本模块进行自动分类,其中表示包括用于文本的各自文本模块的总词向量,其中总词向量由至少两个、优选多个词向量构成,并且根据各自文本模块的特性对各自词向量进行加权。根据一个实施方式,模型包括注意力函数,并且该方法包括训练注意力函数。注意力函数例如被构造用于根据权重对文本模块的各个词向量进行加权。有利地,根据文本数据对模型进行训练,用以计算用于各个词向量的优化的加权。根据一个实施方式,模型被训练,用于对于特定的文本模块、尤其是对于域特定的文本模块比另一尤其是域非特定的词向量更强地对特定的词向量、尤其是域特定的词向量进行加权。本公开内容涉及一种用于处理文本数据的设备,其中该设备包括用于人工神经网络的存储器和处理器,所述存储器和处理器被构造用于实施根据实施方式的方法。本公开内容涉及一种用于机器学习的设备,其中所述设备包括用于人工神经网络的存储器和处理器,所述存储器和处理器被构造用于实施根据实施方式的方法。本公开内容进一步涉及一种计算机程序,其中所述计算机程序包括计算机可读指令,当在计算机上实施所述计算机可读指令时运行根据实施方式的方法。其他实施方式涉及根据实施方式的用于处理文本数据的计算机实现的方法用以例如关于实体、尤其是人员、地点、组织等和/或关于概念(Konzepten)、尤其是蛋白质、化学物质、材料等从文本数据中自动提取信息的应用。其他实施方式涉及计算机实现的方法在模型中用于创建数据库、尤其是结构化知识数据库、尤其是知识图(KnowledgeGraphen)的应用,其中应用根据实施方式的方法用于从文本数据中提取信息,以及使用所述信息用于创建数据库、尤其是结构化知识数据库、尤其是知识图。根据实施方式的方法可应用于不同语言的以及来自不同域的文本。此外,根据实施方式的方法也可以被应用于计算机语言学、自然语言处理(NaturalLanguageProcessing)的领域、尤其是句法分析、关系提取和文本概括(Textzusammenfassung)的领域。附图说明从后续的描述和附图中得出其他有利的实施方式。在附图中:图1示出用于处理文本数据的设备的示意图;图2示出用于机器学习的设备的示意图;图3示出用于处理文本数据的方法的步骤;图4示出用于机器学习的方法的步骤;以及图5示出文本的文本模块的表示的示意图。具体实施方式图1示出用于处理文本数据102的设备100。该设备100包括用于模型、尤其是递归神经网络的存储器106和处理器104。在该示例中,设备100包括用于输入和输出数据的接口108。处理器104、存储器106和接口108经由至少一个数据线路110、尤其是数据总线连接。处理器104和存储器106可以集成在微控制器中。设备100还可以被构造为服务器基础设施中的分布式系统。这些被构造用于实施在下面根据图3描述的用本文档来自技高网
...

【技术保护点】
1.一种用于处理包括多个文本模块的文本数据(102)的计算机实现的方法(300),用于从文本数据(102)中自动提取信息和/或在模型中用于创建数据库、尤其是结构化知识数据库、尤其是知识图,其中提供(310)文本(102)的表示,并且其中使用模型,所述模型根据所述文本(102)的表示来预测用于所述文本(102)的各自文本模块的分类,其中提供(310)文本(102)的表示包括提供(310')用于所述文本(102)的各自文本模块的总词向量(500),其中所述总词向量(500)由至少两个、优选地多个词向量(510)构成(314),并且根据所述各自文本模块的特性对各自词向量(510)进行加权。/n

【技术特征摘要】
20191029 EP 19205976.41.一种用于处理包括多个文本模块的文本数据(102)的计算机实现的方法(300),用于从文本数据(102)中自动提取信息和/或在模型中用于创建数据库、尤其是结构化知识数据库、尤其是知识图,其中提供(310)文本(102)的表示,并且其中使用模型,所述模型根据所述文本(102)的表示来预测用于所述文本(102)的各自文本模块的分类,其中提供(310)文本(102)的表示包括提供(310')用于所述文本(102)的各自文本模块的总词向量(500),其中所述总词向量(500)由至少两个、优选地多个词向量(510)构成(314),并且根据所述各自文本模块的特性对各自词向量(510)进行加权。


2.根据权利要求1所述的方法(300),其中所述方法(300)进一步包括:计算(312)用于各自词向量(510)的权重(520)。


3.根据前述权利要求中至少一项所述的方法(300),其中附加地根据各自词向量(510)计算用于所述各自词向量(510)的权重(520)。


4.根据前述权利要求中至少一项所述的方法(300),其中各自文本模块的第一特性表示所述文本模块在文本中的相对频率,和/或所述各自文本模块的第二特性表示所述文本模块的长度和/或所述各自文本模块的第三特性表示所述文本模块的形式和/或所述各自文本模块的第四特性表示所述文本模块的句法类别。


5.根据前述权利要求中至少一项所述的方法(300),其中将总词向量(500)的词向量(510)的权重(520)变换(313)成0、1之间的取值范围。


6.根据前述权利要求中至少一项所述的方法(300),其中由至少两个、优选地多个加权的词向量(510)组成的总和构成(314)用于各自文本模块的总词向量(500)。


7.一种用于机器学习的计算机实现的方法(400),其中训练(410)模型用于实施根据权利要求1至6...

【专利技术属性】
技术研发人员:H·埃代尔武J·斯特罗根L·朗格
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1