一种基于自然语言语义分析的文本识别方法技术

技术编号：30532689 阅读：29 留言：0更新日期：2021-10-30 12:41

本发明专利技术提供了一种基于自然语言语义分析的文本识别方法，包括：建立自然语言语义和标准语言语义的对应关系映射集；获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；将非标准语言语义信息输入非标准语言语义分析系统分析判定，完成文本识别；融合了自然环境中语言语义的分析和同时进行文本识别，使得在对所获取的文本在进行自然语言语义分析时，有益于在自然语言语义的环境下对文本快速、精准、多类型同时识别。多类型同时识别。多类型同时识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言语义分析的文本识别方法

[0001]本专利技术涉及到文本识别领域，尤其涉及一种基于自然语言语义分析的文本识别方法

技术介绍

[0002]目前，随着自然语言处理技术的发展，基于通用信息的语言识别和语义分析技术逐渐提高，但在一些特有领域，识别正确率和理解正确率都非常低，自然语言语义和标准语言语义的对应关系问题仍需进一步解决；同时由于自然环境中的自然语言或视频所包含的文字字符不清晰或被损坏，导致识别率低；如何提取文本中的语言信息并识别语言信息中的标准语言语义和非标准语言语义是尚待完善解决的技术；如何对非标准语言语义信息进行分析判定，技术尚未完全成熟；因此，有必要提出一种基于自然语言语义分析的文本识别方法，以至少部分地解决现有技术中存在的问题。

技术实现思路

[0003]本专利技术提供一种基于自然语言语义分析的文本识别方法，用于解决自然环境中的文本识别。一种基于自然语言语义分析的文本识别方法，包括：
[0004]建立自然语言语义和标准语言语义的对应关系映射集；
[0005]获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；
[0006]将非标准语言语义信息输入非标准语言语义分析系统分析判定，完成文本识别。
[0007]优选的，其特征在于，所述建立自然语言语义和标准语言语义的对应关系映射集包括：
[0008]步骤1：获取自然语言信息；
[0009]步骤2：提取自然语言信息的语义特征，识别自然语言信息...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言语义分析的文本识别方法，其特征在于，包括：建立自然语言语义和标准语言语义的对应关系映射集；获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；将非标准语言语义信息输入非标准语言语义分析系统分析判定，完成文本识别。2.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法，其特征在于，所述建立自然语言语义和标准语言语义的对应关系映射集包括：步骤1：获取自然语言信息；步骤2：提取自然语言信息的语义特征，识别自然语言信息语义信息所处的对应关系映射集区域范围；步骤3：根据识别出的文本区域，将所述区域中的文本与词库中的文本对比，得到初始的文本信息；步骤4：基于所述的初始文本信息的特征，对文本信息进行分析；步骤6：根据分析结果判断所述文本信息特征的准确性及完整性；步骤5：按照自然语言语序对所述文本信息进行矫正；步骤7：将文本字符进行分割，识别文本字符；步骤8：将所述的识别出的文本字符输入系统映射集中，得到完整准确的对应关系映射集。3.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法，其特征在于，所述步骤4：基于所述的初始文本信息的特征，对文本信息进行分析，包括：识别文本在自然语言中的分布纹理；将分布纹理与背景纹理进行纹理对比度分析；当纹理对比度大于设定的限值，则识别为文本特征，进行提取；当纹理对比度不大于设定的限值，则识别为非文本。4.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法，其特征在于，所述自然语言信息的特征包括：自然环境中有干扰噪声场景的文本检测与定位；对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。5.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法，其特征在于，所述：获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；其中，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；包括：步骤S1，实时采集自然语言信息；步骤S2，将采集到的所述自然语言信息进行信息类型判断；步骤S3，判断所述文本信息属于专有信息或通用信息；包括：根据所述文本信息中是否存在包含在所述关键词库中的关键词，判断所述文本信息属于专有信息或通用信息；存在包含在所述关键词库中的关键词则属于所述专有信息；不存在包含在所述关键词库中的关键词则属于所述通用信息；若属于所述通用信息，则转向步骤S4；若属于所述专有信息，则转向步骤S5；步骤S4，对判断为属于所述通用信息的所述文本信息进行语言语义识别，形成第一语
言语义识别并转向步骤S6；步骤S5，将判断为属于所述专有信息的所述文本信息转换为标准拼音信息，并对所述标准拼音信息进行语言语义识别，形成第二语言语义识别并转向步骤S6；步骤S6，执行所述第一语言语义识别和/或所述第二语言语义识别后结束，并生成语义识别字词库。6.根据权利要求5所述的一种基于自然语言语义分析的文本识别方法，其特征在于，所述步骤S5中包括：步骤S51，将所述文本信息转换为初始拼音信息；步骤S52，对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息；步骤S53，对所述标准拼音信息进行语言语义识别，形成所述第二语言语义识别并转向步骤S6。7.根据权利要求6所述一种基于自然语言语义分析的文本识别方法，其特征在于，所述步骤S52，对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息，包括：所述模糊匹配采用同音声母校正和/或前后元音进行校正，校正后将矫正后的信息输入标准自然语言语义分析，如仍包含无法识别内容，则进行循环矫正，直至全部识别为标准自然语言语义分析。8.根据权利要求1所述一种基于自然语言语义分析的文本识别...

【专利技术属性】
技术研发人员：刘如君，刘志杰，陈乔，尚雪松，
申请(专利权)人：北京微智信业科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人