一种文本识别方法和装置制造方法及图纸

技术编号：21454141 阅读：27 留言：0更新日期：2019-06-26 04:50

本发明专利技术公开了一种文本识别方法和装置，能够识别文本中指定对象的评价值。所述方法包括：将每个训练用的文本与不同的指定对象的组合各作为一条输入，对于每条输入，将该条输入中的文本对于指定对象的评价值作为标签，对预生成的模型进行训练；使用训练好的模型，识别输入的文本对于指定对象的评价值。采用本发明专利技术实施例，相较于传统有监督模型，不需要使用大量的标注数据来确保最终的模型效果，能够节省人力，实现对文本中不同实体的情感进行分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别方法和装置
本专利技术涉及计算机技术，尤指一种文本识别方法和装置。
技术介绍
随着计算机软件、硬件、以及互联网行业的发展，大数据已经成为生活中密不可分的一部分，然而针对非结构化的数据，例如：社会网络舆情，产品意见反馈，酒店餐饮评论等，各行各业的大量非结构化文本的处理都需要人工参与阅读分析总结，最终来确定产品或服务或其他方面需要提高的部分，非常耗时耗力。在传统的情感分类方法中，我们只能大致通过文本整体的极性(积极的或者消极的)，来分析对象的特征(如：产品的好坏程度)，但是细粒度的区分对象的特征的情感是有所欠缺的。再如，用户反馈：该产品操作非常简单，用户界面设计简洁，但是软件的加载速度耗时比较长。上述反馈信息使用传统的分类方法，仅仅区分区为积极的或者消极，并不能很好的进行情感分类。除了关注整体的情感外，更应该关注细节(指定对象)上的情感分类，例如，操作的分类(简单or复杂)，加载速度的分类(快or慢)，用户界面的分类(简洁or混乱)等。可见，传统的情感分类只能从句子的整体来区分情感的导向情况，积极或者消极或着多层级的情感分类，但难以针对单一句子中不同实体(指定对象)的情感进行分析。
技术实现思路
为了解决上述技术问题，本专利技术提供了一种文本识别方法和装置，能够高效识别文本中不同实体的评价值。为了达到本专利技术目的，本专利技术提供了一种文本识别方法，所述方法包括：将每个训练用的文本与不同的指定对象的组合各作为一条输入，对于每条输入，将该条输入中的文本对于指定对象的评价值作为标签，对预生成的模型进行训练；使用训练好的模型，识别输入的文本对于指定对象的评价...

【技术保护点】
1.一种文本识别方法，其特征在于，所述方法包括：将每个训练用的文本与不同的指定对象的组合各作为一条输入，对于每条输入，将该条输入中的文本对于指定对象的评价值作为标签，对预生成的模型进行训练；使用训练好的模型，识别输入的文本对于指定对象的评价值。

【技术特征摘要】
1.一种文本识别方法，其特征在于，所述方法包括：将每个训练用的文本与不同的指定对象的组合各作为一条输入，对于每条输入，将该条输入中的文本对于指定对象的评价值作为标签，对预生成的模型进行训练；使用训练好的模型，识别输入的文本对于指定对象的评价值。2.根据权利要求1所述的方法，其特征在于，所述对预生成的模型进行训练前还包括：根据搜集的文本进行无监督的模型训练，在所述无监督的模型的输出层后加上全连接层，作为所述预生成的模型。3.根据权利要求2所述的方法，其特征在于，所述根据搜集的文本进行无监督的模型训练，包括：对搜集的文本进行屏蔽词预测和句子连接关系预测，得到所述无监督的模型。4.根据权利要求1所述的方法，其特征在于，所述将每个训练用的文本与不同的指定对象的组合各作为一条输入包括：对所述每个训练用的文本进行如下操作：将该训练用的文本和不同的指定对象分别进行组合，组合时将文本和指定对象用预定字符连接；对于每种组合结果分别进行嵌入，所述嵌入包括字嵌入、段落嵌入和位置嵌入；所述字嵌入是指将输入句子拆分成字级别，并对句子中每一个字都做字嵌入；所述段落嵌入是指使用不同字母标识输入中不同的句子或字段；所述位置嵌入是指为输入中的每一个字符标注具体位置信息；对于每种组合结果，分别根据所述进行嵌入后的训练用的文本和进行嵌入后的指定对象获取一条输入。5.根据权利要求1所述的方法，其特征在于，所述使用训练好的模型，识别输入的文本对于指定对象的评价值，包括：当所述指定对象为一个时，所述评价值为所述指定对象的分类结果；当所述指定对象为两个或以上时，所述评价值为所述指定对象的分类结果的表格；其中，所述分类结果包括积极、未提及和消极。6.一种文本识别装置，包括：存储器和处理器；其特征在于：所述存储器，用于保存用于性能测试的程序...

【专利技术属性】
技术研发人员：陈栋，
申请(专利权)人：北京明略软件系统有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人