文本识别方法、装置、存储介质和电子设备制造方法及图纸

技术编号：26259798 阅读：22 留言：0更新日期：2020-11-06 17:54

本申请提供一种文本识别方法、装置、存储介质和电子设备，属于计算机技术领域，涉及人工智能和自然语言处理技术。本申请获取由两个语句组成的句对对应的词向量特征后，根据词向量特征得到句对对应的文本特征序列，然后根据各个分词对应的词向量特征元素的权重，将文本特征序列转换为所述句对对应的文本特征向量。由于分词对应的词向量特征元素的权重可以表征该分词对判定句对是否为排比句对的重要度，因此基于考虑各个分词对应的词向量特征元素的权重得到的句对对应的文本特征向量，确定该句对是否为排比句，可以提高识别结果的准确率，有利于准确识别文本中的排比句。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法、装置、存储介质和电子设备
本申请涉及计算机
，具体涉及一种文本识别方法、装置、存储介质和电子设备。
技术介绍
近年来，随着在线教育和网络课堂的普及，利用自然语言处理技术自动进行作文批改成为一项急需的技术。排比是一种非常常用的修辞手法，是作文批改的修辞维度评价指标的重要组成部分。排比句一般是由结构上相似、位置上临近、语气上一致的三个或三个以上的语句构成的一个长句。在写作中使用排比句，可使句子更加整齐和谐、更加朗朗上口，也能为整篇作文增辉。如果可以识别出作文中的排比句，有利于在文采维度对作文做出更准确的评价。因此，在利用自然语言处理技术自动进行作文批改的过程中，如何准确识别排比句是一个亟待解决的问题。
技术实现思路
为解决现有存在的技术问题，本申请实施例提供一种文本识别方法、装置、存储介质和电子设备，可以准确地识别出文本中的排比对，从而有利于准确识别文本中的排比句。为达到上述目的，本申请实施例的技术方案是这样实现的：第一方面，本申请实施例提供一种文本识别方法，包括：获取由两个语句组成的句对对应的词向量矩阵，并提取所述词向量矩阵的词向量特征；根据所述词向量特征，得到所述句对对应的文本特征序列；所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素；根据各个分词对应的词向量特征元素的权重，将所述文本特征序列转换为所述句对对应的文本特征向量；所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的...

【技术保护点】
1.一种文本识别方法，其特征在于，包括：/n获取由两个语句组成的句对对应的词向量矩阵，并提取所述词向量矩阵的词向量特征；/n根据所述词向量特征，得到所述句对对应的文本特征序列；所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素；/n根据各个分词对应的词向量特征元素的权重，将所述文本特征序列转换为所述句对对应的文本特征向量；所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度；/n基于所述句对对应的文本特征向量，确定所述句对对应的句对识别结果；所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对。/n

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：
获取由两个语句组成的句对对应的词向量矩阵，并提取所述词向量矩阵的词向量特征；
根据所述词向量特征，得到所述句对对应的文本特征序列；所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素；
根据各个分词对应的词向量特征元素的权重，将所述文本特征序列转换为所述句对对应的文本特征向量；所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度；
基于所述句对对应的文本特征向量，确定所述句对对应的句对识别结果；所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对。

2.根据权利要求1所述的方法，其特征在于，所述获取由两个语句组成的句对对应的词向量矩阵，并提取所述词向量矩阵的词向量特征，包括：
根据所述句对中每个语句包含的分词的词向量，生成所述句对对应的词向量序列；
根据所述句对中每个语句包含的分词的词性向量，生成所述句对对应的词性向量序列；
将所述句对对应的词向量序列和词性向量序列进行拼接，得到所述句对对应的词向量矩阵；
将所述词向量矩阵输入特征提取网络模型，得到所述词向量矩阵的词向量特征。

3.根据权利要求2所述的方法，其特征在于，所述特征提取网络模型包括多个卷积核宽度不同的卷积层；将所述词向量矩阵输入特征提取网络，得到所述词向量矩阵的词向量特征，包括：
将所述词向量矩阵分别输入每个卷积层，得到每个卷积层输出的特征向量；
将得到的所有特征向量进行拼接，获得所述词向量矩阵的词向量特征。

4.根据权利要求1所述的方法，其特征在于，根据所述词向量特征，得到所述句对对应的文本特征序列，包括：
将所述词向量特征输入双向长短期记忆网络模型，得到所述双向长短期记忆网络模型输出的所述句对对应的文本特征序列；
根据各个分词对应的词向量特征元素的权重，将所述文本特征序列转换为所述句对对应的文本特征向量，包括：
将所述文本特征序列输入多头注意力机制模型，得到所述多头注意力机制模型输出的所述句对对应的文本特征向量；所述多头注意力机制模型用于根据各个分词对应的词向量特征元素的权重，将所述文本特征序列转换为文本特征向量；
所述双向长短期记忆网络模型和多头注意力机制模型为利用具有类别标签的训练样本进行训练得到的；其中，类别标签用于指明对应的训练样本为正样本或负样本，所述正样本为从排比句中抽取的两个语句组成的句对样本，所述负样本为随机获取的两个语句组成的句对样本。

5.根据权利要求4所述的方法，其特征在于，所述多头注意力机制模型包括多个具有不同网络参数的注意力子网络；将所述文本特征序列输入多头注意力机制模型，得到所述句对对应的文本特征向量，包括：
将所述文本特征序列分别输入每个注意力子网络，并将所有注意力子网络的输出进行拼接，获得所述句对对应的文本特征向量。

6.根据权利要求1所述的方法，其特征在于，基于所述句对对应的文本特征向量，确定所述句对对应的句对识别结果，包括：
基于所述句对对应的文本特征向量，确定所述句对为排比句对的概率；若所述句对为排比句对的概率大于或等于设定第一阈值，则确定所述句对为排比句对；或者，
基于所述句对对应的文本特征向量，确定所述句对为非排比句对的概率；若所述句对为非排比句对的概率小于或等于设定第二阈值，且所述句对包含的语句满足预设排比条件，则确定所述句对为排比句对。

7.根据权利要求6所述的方法，其特征在于，基于所述句对对应的文本特征向量，确定所述句对为排比句对的概率，包括：
将所述句对对应的文本特征向量输入全连接层，并通过分类器对所述全连接层的输出进行分类，得到所述句对为排比句对的概率。

8.根据权利要求6所述的方法，其特征在于，所述句对包含的语句满足的预设排比条件，包括如下条件中的部分或全...

【专利技术属性】
技术研发人员：蔡晓凤，关俊辉，叶礼伟，刘萌，李超，卢鑫鑫，刘晓靖，肖世伟，孙朝旭，张艺博，滕达，付贵，周伟强，王静，崔立鹏，曹云波，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人