一种基于多层次语义的文本识别方法及系统技术方案

技术编号:31576843 阅读:45 留言:0更新日期:2021-12-25 11:18
本公开提供了一种基于多层次语义的文本识别方法及系统,获取待识别文本数据;提取文本数据的单词,得到各个单词的词向量;根据获取的词向量以及第一双向长短期记忆网络,得到单词的特征表示,结合第一注意力网络,得到不同视角下的词级别局部句子语义表示;根据获取的词级别的不同视角下的句子语义表示以及第二双向长短期记忆网络,得到句子的特征表示,结合第二注意力网络,得到不同视角下的句级别全局句子语义表示;根据得到的全局句子语义表示,得到文本识别结果;本公开不仅突出重要单词和句子对文本语义的贡献,而且从单一视角拓展为多视角文本语义提取,提高了文本识别的准确度。确度。确度。

【技术实现步骤摘要】
一种基于多层次语义的文本识别方法及系统


[0001]本公开涉及文本数据处理
,特别涉及一种基于多层次语义的文本识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
,并不必然构成现有技术。
[0003]文本识别是对印刷体文本、手写体文本或者是现实世界中的含有文字的图片进行处理,并将其转换为机器编码的文本的一种技术。随着计算机以及人工智能技术的发展及其应用,文本识别在许多领域内都得到了广泛的应用,如政府等文件的安全等级确认必须先进行文本识别。文本识别技术是计算机视觉的重要组成部分,是机器认知世界的基础,也是人工智能研究的热点。
[0004]文本特征提取是文本识别的核心,目前文本特征提取中应用最多的是文档频率法、信息增益法、互信息法以及统计法等。这些算法都是采用基于词频统计信息的思想,这就造成了特征提取过程中缺少了作为重要参考指标的词语间的语义关系,使得通过这类方法提取出的某些文本特征不能有效的表示出文本所要表达的主题内容。有研究人员提出的词嵌入模型是一种新的词向量表示方式,为词语之间的关系建立本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多层次语义的文本识别方法,其特征在于:包括以下过程:获取待识别文本数据;提取文本数据的单词,得到各个单词的词向量;根据获取的词向量以及第一双向长短期记忆网络,得到单词的特征表示,结合第一注意力网络,得到不同视角下的词级别局部句子语义表示;根据获取的词级别的不同视角下的句子语义表示以及第二双向长短期记忆网络,得到句子的特征表示,结合第二注意力网络,得到不同视角下的句级别全局句子语义表示;根据得到的全局句子语义表示,得到文本识别结果。2.如权利要求1所述的基于多层次语义的文本识别方法,其特征在于:利用Skip

gram模型进行词嵌入,得到各个单词的词向量。3.如权利要求1所述的基于多层次语义的文本识别方法,其特征在于:第一双向长短期记忆网络和第二双向长短期记忆网络中,每一部分特征向量都由前向长短期记忆网络和后向长短期记忆网络连接产生。4.如权利要求1所述的基于多层次语义的文本识别方法,其特征在于:利用第一注意力网络,将句子中的单词权重描述为二维的权重矩阵,矩阵不同行表示句子不同视角的信息。5.如权利要求4所述的基于多层次语义的文本识别方法,其特征在于:不同视角下的词级别句子语义表示为单词的特征表示与第一注意力机制网络的权重矩阵的乘积,且权重矩阵包括约束:其中A为权重矩阵,I为单位矩阵。6.如权利要求4所述的基于多层次语义的文本识别方法,其特征在于:词级别局部句子语义表示和单词的特征...

【专利技术属性】
技术研发人员:孔浩冉白振昊陈园
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1