信息提取方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:21952711 阅读:16 留言:0更新日期:2019-08-24 17:49
本发明专利技术实施例提供一种信息提取方法、装置、计算机设备及计算机存储介质,该方法包括:在字符级编码器层中,根据待提取文本的字符级信息,进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码;在词级编码器层中,进行从所述词级特征向量序列对应的词级信息到词特征向量,以及从所述词特征向量到片段特征向量序列的编码;在条件随机场层中接收所述片段特征向量序列并标注语义标签,确定满足概率条件的所述语义标签。

Information Extraction Method, Device, Computer Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
信息提取方法、装置、计算机设备及计算机可读存储介质
本专利技术涉及自然语言处理
,特别涉及一种信息提取方法、装置、计算机设备及计算机可读存储介质。
技术介绍
随着互联网的迅速扩张,许多网络购物网站、阅读应用软件、视频播放软件等都提供了产品评价平台,方便用户分享产品使用经验,以及对产品进行评价,这些评价无论对于消费者还是产品提供者都有重要参考价值。目前,相关技术使用观点挖掘(也称为评论挖掘)技术对来自产品评价平台的评价文本(也称为语料)进行分析,以提取出评价文本中的结构化知识信息加以保存,以对后续任务,比如用户画像、舆情分析、产品描述生成等都起到了至关重要的作用。比如在舆情分析中,网络上存在海量的用户评论,通过观点挖掘装置让计算机自动理解评论内容,得到用户对于产品的观点信息。但是测试证明,相关的观点挖掘技术所得到的用户观点信息识别的性能(例如准确率和召回率)较低,从而严重影响后续任务的性能表现。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供一种信息提取方法、装置、计算机设备及计算机可读存储介质,能够提升对文本进行信息抽取的性能。为达到上述目的,本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供一种信息提取方法,包括:在字符级编码器层中,根据待提取文本的字符级信息,进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码;在词级编码器层中,进行从所述词级特征向量序列对应的词级信息到词特征向量,以及从所述词特征向量到片段特征向量序列的编码;在条件随机场层中接收所述片段特征向量序列并标注语义标签,确定满足概率条件的所述语义标签。第二方面,本专利技术实施例提供一种信息提取装置,该装置包括:字符级编码器层,用于根据待提取文本的字符级信息,进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码;词级编码器层,用于进行从所述词级特征向量序列对应的词级信息到词特征向量,以及从所述词特征向量到片段特征向量序列的编码;条件随机场层,用于在条件随机场层中接收所述片段特征向量序列并标注语义标签,确定满足概率条件的所述语义标签。第三方面,本专利技术实施例提供一种计算机设备,包括存储器,用于存储可执行程序;处理器,用于通过执行所述存储器中存储的可执行程序时,实现本专利技术任一实施例提供的信息提取方法。第四方面,本专利技术实施例提供一种可读存储介质,存储有可执行程序,所述可执行程序被处理器执行时实现本专利技术任一实施例提供的信息提取方法。本专利技术实施例具有以下有益效果:1)基于字符级编码器层和字级编码器层结合,能够从文本的字符级信息和词级信息中共同发现特征并加以利用和识别,进而能够有效识别未登录词以外的特征,避免了重要信息的遗漏;2)基于字符级编码器层从文本的字符级信息进行编码,从而不需要针对不同业务场景进行特征工程以形成专门的训练数据,克服了对特征功能的依赖;3)基于字符级编码器层和词级编码器共同提取的特征能够强力表达文本原始信息的特性,使得在条件随机场层预测的语义标签的准确率和召回率明显改善,从而可以显著地提高鲁棒性。附图说明图1为本专利技术一实施例中信息提取方法的可选应用场景示意图;图2为本专利技术另一实施例中信息提取方法的可选应用场景示意图;图3为本专利技术再一实施例中信息提取方法的可选应用场景示意图;图4为本专利技术一提供的信息提取装置的示意图;图5为本专利技术一实施例中信息提取方法的流程示意图;图6为本专利技术一实施例中循环神经网络在时间上展开的示意图;图7为本专利技术一实施例中双向循环神经网络沿时间展开的示意图;图8为本专利技术一实施例中长短时记忆模块的示意图;图9为本专利技术一实施例提供的字符级编码器层的网络层次结构示意图;图10为本专利技术一实施例提供的词级编码器层的网络层次结构示意图;图11为本专利技术另一实施例提供的信息提取方法的流程示意图;图12为本专利技术一实施例提供的层次注意力神经网络半马尔科夫随机场模型的结构示意图。具体实施方式以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。对本专利技术进行进一步详细说明之前,对本专利技术实施例中涉及的名词和术语进行说明,本专利技术实施例中涉及的名词和术语适用于如下的解释。1)信息提取,也称为信息抽取,从非结构化的自然语言的文本提取使用语义标签标注的结构化的知识的过程,典型的信息提取任务包括:分词、词性标注、命名实体识别、语义依存分析和语义角色标注等。2)特征工程,是指把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。3)条件随机场,本文中特指在已知目前状态(现在)的条件下,未来的演变(将来)不依赖于它以往的演变(过去)的随机场,例如,马尔科夫条件随机场。4)片段,即文本的字符级别/字级别的特征向量序列中连续的、且具有相同语义标签的序列。5)词嵌入(wordembedding),将单个词在预定义的向量空间中表示为实数向量,每个单词都映射到一个向量。举个例子,比如在一个文本中包含“猫”“狗”“爱情”等若干单词,而这若干单词映射到向量空间中,“猫”对应的向量为(0.10.20.3),“狗”对应的向量为(0.20.20.4),“爱情”对应的映射为(-0.4-0.5-0.2)。像这种将文本X{x1,x2,x3,x4,x5……xn}映射到多维向量空间Y{y1,y2,y3,y4,y5……yn},这个映射的过程就叫做词嵌入。6)准确率,系统正确提取的结果占所有提取结果的比例。其中,所述所有提取结果可以是指待提取文本中包含的提取结果的总数。准确率是用于评价命名实体识别的性能的主要指标之一。7)召回率,系统正确提取的结果占所有可能正确结果的比例。其中,所述可能正确结果可以是指系统找到的提取结果的总数。召回率是用于评价命名实体识别的性能的主要指标之一。8)自然语言处理,计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。9)语料,语言材料,本文主要是指文本数据。10)命名实体(NamedEntityRecognition,NER),识别文本中具有特定意义的以名称为标识的实体,如人名、公司名、地名等。11)神经网络,是指模拟人脑的神经网络以期能够实现类人工智能的机器学习技术,其中,机器学习(MachineLearning)是指从训练数据集中的训练文本(简称为样本)包样本特征和是否属于目标类别(如命名实体)的语义标签标记,对分类器进行训练,使训练后的分类器具有对待提取文本判断是否属于目标类别的特征词的性能。12)注意力机制,与人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。而人类视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的本文档来自技高网
...

【技术保护点】
1.一种信息提取方法,其特征在于,包括:在字符级编码器层中,根据待提取文本的字符级信息,进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码;在词级编码器层中,进行从所述词级特征向量序列对应的词级信息到词特征向量,以及从所述词特征向量到片段特征向量序列的编码;在条件随机场层中接收所述片段特征向量序列并标注语义标签,确定满足概率条件的所述语义标签。

【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:在字符级编码器层中,根据待提取文本的字符级信息,进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码;在词级编码器层中,进行从所述词级特征向量序列对应的词级信息到词特征向量,以及从所述词特征向量到片段特征向量序列的编码;在条件随机场层中接收所述片段特征向量序列并标注语义标签,确定满足概率条件的所述语义标签。2.如权利要求1所述的信息提取方法,其特征在于,所述在字符级编码器层中,根据待提取文本的字符级信息,进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码,包括:在字符级编码器层中接收待提取文本的字符级信息,并进行编码得到所述字符级信息对应的字符特征向量,以及,根据所述字符特征向量及其对应的上下文特征向量进行编码,得到对应的词级特征向量序列。3.如权利要求1所述的信息提取方法,其特征在于,所述在词级编码器层中,进行从所述词级特征向量序列对应的词级信息到词特征向量,以及从所述词特征向量到片段特征向量序列的编码,包括:在词级编码器层中接收所述词级特征向量序列对应的词级信息,并进行编码得到所述词级信息对应的词特征向量,以及,根据所述词特征向量及其对应的上下文特征向量进行编码,得到对应的片段特征向量序列。4.如权利要求2所述的信息提取方法,其特征在于,所述进行编码得到所述字符级信息对应的字符特征向量,包括:将所述待提取文本的字符级信息输入所述字符级编码器层中的第一双向循环网络;在所述第一双向循环网络进行编码,得到所述字符级信息对应的字符特征向量。5.如权利要求4所述的信息提取方法,其特征在于,所述根据输入的字符级信息对应字符特征向量及其对应的上下文特征向量进行编码,得到对应的词级特征向量序列,包括:将所述字符特征向量输入所述字级编码器层中的第一注意力模型,在所述第一注意力模型中执行以下操作:根据输入的字符级信息对应字符特征向量、及其对应的上下文特征向量的余弦相似度,确定输入的字符级信息对应的字符特征向量的重要性权值;根据所述字符特征向量的重要性权值进行加权平均,得到词级特征向量序列。6.如权利要求3所述的信息提取方法,其特征在于,所述进行编码得到所述词级信息对应的词特征向量,包括:将所述词级特征向量序列对应的词级信息输入所述词级编码器层中的第二双向循环网络;在所述第二双向循环网络中进行编码,得到所述词级信息对应的词特征向量。7.如权利要求6所述的信息提取方法,其特征在于,所述根据输入的词级信息对应的词特征向量及其对应的上下文特征向量进行编码,得到片段特征向量序列,包括:将所述词特征向量输入所述词级编码器层中的第二注意力模型,在所述第二注意力模型中执行以下操作:根据输入的词级信息对应的词特征向量、及其对应的上下文特征向量的余弦相似度,确定所述输入的词级信息对应词特征向量的重要性权值,以及,根据所述词特征向量的重要性权值进行加权平均得到所述片段特征向量序列。8.如权利要求1所述的信息提取方法,其特征在于,所述在条件随机场层中接收所述片段特征向量序列并标注语义标签,确定满足概率条件的所述语义标签,包括:在所述条件随机场层中对将所述片段特征向量标...

【专利技术属性】
技术研发人员:林浚玮邵轶男陈伟刘婷婷
申请(专利权)人:哈尔滨工业大学深圳腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1