信息提取方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号：21952711 阅读：16 留言：0更新日期：2019-08-24 17:49

本发明专利技术实施例提供一种信息提取方法、装置、计算机设备及计算机存储介质，该方法包括：在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码；在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签。

Information Extraction Method, Device, Computer Equipment and Computer Readable Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
信息提取方法、装置、计算机设备及计算机可读存储介质
本专利技术涉及自然语言处理
，特别涉及一种信息提取方法、装置、计算机设备及计算机可读存储介质。
技术介绍
随着互联网的迅速扩张，许多网络购物网站、阅读应用软件、视频播放软件等都提供了产品评价平台，方便用户分享产品使用经验，以及对产品进行评价，这些评价无论对于消费者还是产品提供者都有重要参考价值。目前，相关技术使用观点挖掘(也称为评论挖掘)技术对来自产品评价平台的评价文本(也称为语料)进行分析，以提取出评价文本中的结构化知识信息加以保存，以对后续任务，比如用户画像、舆情分析、产品描述生成等都起到了至关重要的作用。比如在舆情分析中，网络上存在海量的用户评论，通过观点挖掘装置让计算机自动理解评论内容，得到用户对于产品的观点信息。但是测试证明，相关的观点挖掘技术所得到的用户观点信息识别的性能(例如准确率和召回率)较低，从而严重影响后续任务的性能表现。
技术实现思路
为解决现有存在的技术问题，本专利技术实施例提供一种信息提取方法、装置、计算机设备及计算机可读存储介质，能够提升对文本进行信息抽取的性能。为达到上述目的，本专利技术实施例的技术方案是这样实现的：第一方面，本专利技术实施例提供一种信息提取方法，包括：在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码；在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定...

【技术保护点】
1.一种信息提取方法，其特征在于，包括：在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码；在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签。

【技术特征摘要】
1.一种信息提取方法，其特征在于，包括：在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码；在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签。2.如权利要求1所述的信息提取方法，其特征在于，所述在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码，包括：在字符级编码器层中接收待提取文本的字符级信息，并进行编码得到所述字符级信息对应的字符特征向量，以及，根据所述字符特征向量及其对应的上下文特征向量进行编码，得到对应的词级特征向量序列。3.如权利要求1所述的信息提取方法，其特征在于，所述在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码，包括：在词级编码器层中接收所述词级特征向量序列对应的词级信息，并进行编码得到所述词级信息对应的词特征向量，以及，根据所述词特征向量及其对应的上下文特征向量进行编码，得到对应的片段特征向量序列。4.如权利要求2所述的信息提取方法，其特征在于，所述进行编码得到所述字符级信息对应的字符特征向量，包括：将所述待提取文本的字符级信息输入所述字符级编码器层中的第一双向循环网络；在所述第一双向循环网络进行编码，得到所述字符级信息对应的字符特征向量。5.如权利要求4所述的信息提取方法，其特征在于，所述根据输入的字符级信息对应字符特征向量及其对应的上下文特征向量进行编码，得到对应的词级特征向量序列，包括：将所述字符特征向量输入所述字级编码器层中的第一注意力模型，在所述第一注意力模型中执行以下操作：根据输入的字符级信息对应字符特征向量、及其对应的上下文特征向量的余弦相似度，确定输入的字符级信息对应的字符特征向量的重要性权值；根据所述字符特征向量的重要性权值进行加权平均，得到词级特征向量序列。6.如权利要求3所述的信息提取方法，其特征在于，所述进行编码得到所述词级信息对应的词特征向量，包括：将所述词级特征向量序列对应的词级信息输入所述词级编码器层中的第二双向循环网络；在所述第二双向循环网络中进行编码，得到所述词级信息对应的词特征向量。7.如权利要求6所述的信息提取方法，其特征在于，所述根据输入的词级信息对应的词特征向量及其对应的上下文特征向量进行编码，得到片段特征向量序列，包括：将所述词特征向量输入所述词级编码器层中的第二注意力模型，在所述第二注意力模型中执行以下操作：根据输入的词级信息对应的词特征向量、及其对应的上下文特征向量的余弦相似度，确定所述输入的词级信息对应词特征向量的重要性权值，以及，根据所述词特征向量的重要性权值进行加权平均得到所述片段特征向量序列。8.如权利要求1所述的信息提取方法，其特征在于，所述在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签，包括：在所述条件随机场层中对将所述片段特征向量标...

【专利技术属性】
技术研发人员：林浚玮，邵轶男，陈伟，刘婷婷，
申请(专利权)人：哈尔滨工业大学深圳，腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人