一种文本识别方法和装置制造方法及图纸

技术编号:21454141 阅读:27 留言:0更新日期:2019-06-26 04:50
本发明专利技术公开了一种文本识别方法和装置,能够识别文本中指定对象的评价值。所述方法包括:将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;使用训练好的模型,识别输入的文本对于指定对象的评价值。采用本发明专利技术实施例,相较于传统有监督模型,不需要使用大量的标注数据来确保最终的模型效果,能够节省人力,实现对文本中不同实体的情感进行分析。

【技术实现步骤摘要】
一种文本识别方法和装置
本专利技术涉及计算机技术,尤指一种文本识别方法和装置。
技术介绍
随着计算机软件、硬件、以及互联网行业的发展,大数据已经成为生活中密不可分的一部分,然而针对非结构化的数据,例如:社会网络舆情,产品意见反馈,酒店餐饮评论等,各行各业的大量非结构化文本的处理都需要人工参与阅读分析总结,最终来确定产品或服务或其他方面需要提高的部分,非常耗时耗力。在传统的情感分类方法中,我们只能大致通过文本整体的极性(积极的或者消极的),来分析对象的特征(如:产品的好坏程度),但是细粒度的区分对象的特征的情感是有所欠缺的。再如,用户反馈:该产品操作非常简单,用户界面设计简洁,但是软件的加载速度耗时比较长。上述反馈信息使用传统的分类方法,仅仅区分区为积极的或者消极,并不能很好的进行情感分类。除了关注整体的情感外,更应该关注细节(指定对象)上的情感分类,例如,操作的分类(简单or复杂),加载速度的分类(快or慢),用户界面的分类(简洁or混乱)等。可见,传统的情感分类只能从句子的整体来区分情感的导向情况,积极或者消极或着多层级的情感分类,但难以针对单一句子中不同实体(指定对象)的情感进行分析。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种文本识别方法和装置,能够高效识别文本中不同实体的评价值。为了达到本专利技术目的,本专利技术提供了一种文本识别方法,所述方法包括:将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;使用训练好的模型,识别输入的文本对于指定对象的评价值。一种示例性的实施例中,所述对预生成的模型进行训练前还包括:根据搜集的文本进行无监督的模型训练,在所述无监督的模型的输出层后加上全连接层,作为所述预生成的模型。一种示例性的实施例中,所述根据搜集的文本进行无监督的模型训练,包括:对搜集的文本进行屏蔽词预测和句子连接关系预测,得到所述无监督的模型。一种示例性的实施例中,所述将每个训练用的文本与不同的指定对象的组合各作为一条输入包括:对所述每个训练用的文本进行如下操作:将该训练用的文本和不同的指定对象分别进行组合,组合时将文本和指定对象用预定字符连接;对于每种组合结果分别进行嵌入,所述嵌入包括字嵌入、段落嵌入和位置嵌入;所述字嵌入是指将输入句子拆分成字级别,并对句子中每一个字都做字嵌入;所述段落嵌入是指使用不同字母标识输入中不同的句子或字段;所述位置嵌入是指为输入中的每一个字符标注具体位置信息;对于每种组合结果,分别根据所述进行嵌入后的训练用的文本和进行嵌入后的指定对象获取一条输入。一种示例性的实施例中,所述使用训练好的模型,识别输入的文本对于指定对象的评价值,包括:当所述指定对象为一个时,所述评价值为所述指定对象的分类结果;当所述指定对象为两个或以上时,所述评价值为所述指定对象的分类结果的表格;其中,所述分类结果包括积极、未提及和消极。为了达到本专利技术目的,本专利技术还提供了一种文本识别装置,包括:存储器和处理器;所述存储器,用于保存用于性能测试的程序;所述处理器,用于读取执行所述用于性能测试的程序,执行如下操作:将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;使用训练好的模型,识别输入的文本对于指定对象的评价值。一种示例性的实施例中,所述处理器对预生成的模型进行训练前,还执行如下操作:根据搜集的文本进行无监督的模型训练,在所述无监督的模型的输出层后加上全连接层,作为所述预生成的模型。一种示例性的实施例中,所述根据搜集的文本进行无监督的模型训练,包括:对搜集的文本进行屏蔽词预测和句子连接关系预测,得到所述无监督的模型。一种示例性的实施例中,所述处理器读取执行所述用于性能测试的程序,还执行如下操作:在所述将每个训练用的文本以及不同的指定对象分别作为输入之前,对所述每个训练用的文本进行如下操作:将该训练用的文本和不同的指定对象分别进行组合,组合时将文本和指定对象用预定字符连接;对于每种组合结果分别进行嵌入,所述嵌入包括字嵌入、段落嵌入和位置嵌入;所述字嵌入是指将输入句子拆分成字级别,并对句子中每一个字都做字嵌入;所述段落嵌入是指使用不同字母标识输入中不同的句子或字段;所述位置嵌入是指为输入中的每一个字符标注具体位置信息;对于每种组合结果,分别根据所述进行嵌入后的训练用的文本和进行嵌入后的指定对象获取一条输入。一种示例性的实施例中,所述处理器使用训练好的模型,识别输入的文本对于指定对象的评价值,包括:当所述指定对象为一个时,所述评价值为所述指定对象的分类结果;当所述指定对象为两个或以上时,所述评价值为所述指定对象的分类结果的表格;其中,所述分类结果包括积极、未提及和消极。与现有技术相比,本专利技术包括将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;使用训练好的模型,识别输入的文本对于指定对象的评价值。相较于传统有监督模型,对无监督模型进行训练,得到有监督模型,不需要使用大量的标注数据来确保最终的模型效果,能够节省人力,实现对文本中不同实体的情感进行分析。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术实施例一的文本识别方法的流程图;图2为本专利技术实施例二的文本识别方法文本的输入输出结构定义示意图;图3为本专利技术实施例三的文本识别装置的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。实施例一本实施例提供了一种文本识别方法,如图1所示,该方法包括S11-S12:S11、将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;S12、使用训练好的模型,识别输入的文本对于指定对象的评价值。本专利技术实施例中,对预生成的模型进行训练,识别输入的文本对于指定对象的评价值,其中,不同的指定对象可以对应不同实体;相较于传统有监督模型,不需要使用大量的标注数据来确保最终的模型效果,还能够节省人力,实现对文本中不同实体的情感进行分析。一种示例性的实施例中,搜集的文本是指特定领域搜集的,如餐饮服务。当特定领域为餐饮服务时,指定对象可以为环境、味道和服务态度等实体。标签是对于指定对象的评价值;例如,对于文本1“这儿的环境很好”,指定对象环境、味道和服务态度和本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,所述方法包括:将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;使用训练好的模型,识别输入的文本对于指定对象的评价值。

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;使用训练好的模型,识别输入的文本对于指定对象的评价值。2.根据权利要求1所述的方法,其特征在于,所述对预生成的模型进行训练前还包括:根据搜集的文本进行无监督的模型训练,在所述无监督的模型的输出层后加上全连接层,作为所述预生成的模型。3.根据权利要求2所述的方法,其特征在于,所述根据搜集的文本进行无监督的模型训练,包括:对搜集的文本进行屏蔽词预测和句子连接关系预测,得到所述无监督的模型。4.根据权利要求1所述的方法,其特征在于,所述将每个训练用的文本与不同的指定对象的组合各作为一条输入包括:对所述每个训练用的文本进行如下操作:将该训练用的文本和不同的指定对象分别进行组合,组合时将文本和指定对象用预定字符连接;对于每种组合结果分别进行嵌入,所述嵌入包括字嵌入、段落嵌入和位置嵌入;所述字嵌入是指将输入句子拆分成字级别,并对句子中每一个字都做字嵌入;所述段落嵌入是指使用不同字母标识输入中不同的句子或字段;所述位置嵌入是指为输入中的每一个字符标注具体位置信息;对于每种组合结果,分别根据所述进行嵌入后的训练用的文本和进行嵌入后的指定对象获取一条输入。5.根据权利要求1所述的方法,其特征在于,所述使用训练好的模型,识别输入的文本对于指定对象的评价值,包括:当所述指定对象为一个时,所述评价值为所述指定对象的分类结果;当所述指定对象为两个或以上时,所述评价值为所述指定对象的分类结果的表格;其中,所述分类结果包括积极、未提及和消极。6.一种文本识别装置,包括:存储器和处理器;其特征在于:所述存储器,用于保存用于性能测试的程序...

【专利技术属性】
技术研发人员:陈栋
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1