一种基于自然语言语义分析的文本识别方法技术

技术编号:30532689 阅读:29 留言:0更新日期:2021-10-30 12:41
本发明专利技术提供了一种基于自然语言语义分析的文本识别方法,包括:建立自然语言语义和标准语言语义的对应关系映射集;获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;将非标准语言语义信息输入非标准语言语义分析系统分析判定,完成文本识别;融合了自然环境中语言语义的分析和同时进行文本识别,使得在对所获取的文本在进行自然语言语义分析时,有益于在自然语言语义的环境下对文本快速、精准、多类型同时识别。多类型同时识别。多类型同时识别。

【技术实现步骤摘要】
一种基于自然语言语义分析的文本识别方法


[0001]本专利技术涉及到文本识别领域,尤其涉及一种基于自然语言语义分析的文本识别方法

技术介绍

[0002]目前,随着自然语言处理技术的发展,基于通用信息的语言识别和语义分析技术逐渐提高,但在一些特有领域,识别正确率和理解正确率都非常低,自然语言语义和标准语言语义的对应关系问题仍需进一步解决;同时由于自然环境中的自然语言或视频所包含的文字字符不清晰或被损坏,导致识别率低;如何提取文本中的语言信息并识别语言信息中的标准语言语义和非标准语言语义是尚待完善解决的技术;如何对非标准语言语义信息进行分析判定,技术尚未完全成熟;因此,有必要提出一种基于自然语言语义分析的文本识别方法,以至少部分地解决现有技术中存在的问题。

技术实现思路

[0003]本专利技术提供一种基于自然语言语义分析的文本识别方法,用于解决自然环境中的文本识别。一种基于自然语言语义分析的文本识别方法,包括:
[0004]建立自然语言语义和标准语言语义的对应关系映射集;
[0005]获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;
[0006]将非标准语言语义信息输入非标准语言语义分析系统分析判定,完成文本识别。
[0007]优选的,其特征在于,所述建立自然语言语义和标准语言语义的对应关系映射集包括:
[0008]步骤1:获取自然语言信息;
[0009]步骤2:提取自然语言信息的语义特征,识别自然语言信息语义信息所处的对应关系映射集区域范围;
[0010]步骤3:根据识别出的文本区域,将所述区域中的文本与词库中的文本对比,得到初始的文本信息;
[0011]步骤4:基于所述的初始文本信息的特征,对文本信息进行分析;
[0012]步骤6:根据分析结果判断所述文本信息特征的准确性及完整性;
[0013]步骤5:按照自然语言语序对所述文本信息进行矫正;
[0014]步骤7:将文本字符进行分割,识别文本字符;
[0015]步骤8:将所述的识别出的文本字符输入系统映射集中,得到完整准确的对应关系映射集。
[0016]优选的,所述步骤4:基于所述的初始文本信息的特征,对文本信息进行分析,包括:识别文本在自然语言中的分布纹理;将分布纹理与背景纹理进行纹理对比度分析;当纹理对比度大于设定的限值,则识别为文本特征,进行提取;当纹理对比度不大于设定的限
值,则识别为非文本。
[0017]优选的,所述自然语言信息的特征包括:自然环境中有干扰噪声场景的文本检测与定位;对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。
[0018]优选的,所述:获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;其中,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;包括:
[0019]步骤S1,实时采集自然语言信息;
[0020]步骤S2,将采集到的所述自然语言信息进行信息类型判断;
[0021]步骤S3,判断所述文本信息属于专有信息或通用信息;包括:根据所述文本信息中是否存在包含在所述关键词库中的关键词,判断所述文本信息属于专有信息或通用信息;存在包含在所述关键词库中的关键词则属于所述专有信息;不存在包含在所述关键词库中的关键词则属于所述通用信息;若属于所述通用信息,则转向步骤S4;若属于所述专有信息,则转向步骤S5;
[0022]步骤S4,对判断为属于所述通用信息的所述文本信息进行语言语义识别,形成第一语言语义识别并转向步骤S6;
[0023]步骤S5,将判断为属于所述专有信息的所述文本信息转换为标准拼音信息,并对所述标准拼音信息进行语言语义识别,形成第二语言语义识别并转向步骤S6;
[0024]步骤S6,执行所述第一语言语义识别和/或所述第二语言语义识别后结束,并生成语义识别字词库。
[0025]优选的,所述步骤S5中包括:步骤S51,将所述文本信息转换为初始拼音信息;步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息;步骤S53,对所述标准拼音信息进行语言语义识别,形成所述第二语言语义识别并转向步骤S6。
[0026]优选的,所述步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息,包括:所述模糊匹配采用同音声母校正和/或前后元音进行校正,校正后将矫正后的信息输入标准自然语言语义分析,如仍包含无法识别内容,则进行循环矫正,直至全部识别为标准自然语言语义分析。
[0027]优选的,所述将非标准语言语义信息输入非标准语言语义分析系统分析判定,完成文本识别,包括:对文本信息进行语言语义识别,形成语言语义识别状态区分;第一语言语义识别状态区分,对判断为属于通用领域的文本信息进行语言语义识别,形成第一语言语义识别;第二转换状态区分,将判断为属于垂直领域的文本信息转换为标准拼音信息;第二语言语义识别状态区分,将标准拼音信息进行语言语义识别,形成第二语言语义识别;对于所述的第一语言语义识别与第二语言语义识别,进行命令的执行操作;将非标准语言语义信息输入非标准语言语义分析系统分析判定,将判断为属于专有信息的文本信息转换为标准拼音信息,完成文本识别。
[0028]优选的,对文本信息进行语言语义识别,形成语言语义识别状态区分,包括:文本扭曲状态区分、文本伸缩状态区分、文本比例状态
[0029]区分和/或文本模糊状态区分;计算状态区分的最小采集数:
[0030][0031]其中,Q
min
为状态区分的最小采集数,ω为采集错误率,n为状态区分数,P为区分概率;通过计算状态区分的最小采集数Q
min
,当状态区分的最小采集数Q
min
大于系统设定的参考采集数时,形成语言语义识别状态区分,状态区分过程如下:将文本扭曲状态和文本标准状态进行状态识别区分,区分出扭曲度大于设定的扭曲度范围的文本部分,将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分;文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分,将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内,对文本信息进行语言语义识别;文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分;文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分,将缺失的文本通过文本前后文语言语义关联进行状态识别区分。
[0032]优选的,将判断为属于专有信息的文本信息转换为标准拼音信息,包括:将专有信息的文本信息分割成独立字符,将独立字符分别按照间隔权值进行连接;计算自然语言中连接两个字符的间隔权值:
[0033][0034]其中,W为连接两个字符的间隔权值;P(p)为自然语言本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言语义分析的文本识别方法,其特征在于,包括:建立自然语言语义和标准语言语义的对应关系映射集;获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;将非标准语言语义信息输入非标准语言语义分析系统分析判定,完成文本识别。2.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法,其特征在于,所述建立自然语言语义和标准语言语义的对应关系映射集包括:步骤1:获取自然语言信息;步骤2:提取自然语言信息的语义特征,识别自然语言信息语义信息所处的对应关系映射集区域范围;步骤3:根据识别出的文本区域,将所述区域中的文本与词库中的文本对比,得到初始的文本信息;步骤4:基于所述的初始文本信息的特征,对文本信息进行分析;步骤6:根据分析结果判断所述文本信息特征的准确性及完整性;步骤5:按照自然语言语序对所述文本信息进行矫正;步骤7:将文本字符进行分割,识别文本字符;步骤8:将所述的识别出的文本字符输入系统映射集中,得到完整准确的对应关系映射集。3.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法,其特征在于,所述步骤4:基于所述的初始文本信息的特征,对文本信息进行分析,包括:识别文本在自然语言中的分布纹理;将分布纹理与背景纹理进行纹理对比度分析;当纹理对比度大于设定的限值,则识别为文本特征,进行提取;当纹理对比度不大于设定的限值,则识别为非文本。4.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法,其特征在于,所述自然语言信息的特征包括:自然环境中有干扰噪声场景的文本检测与定位;对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。5.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法,其特征在于,所述:获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;其中,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;包括:步骤S1,实时采集自然语言信息;步骤S2,将采集到的所述自然语言信息进行信息类型判断;步骤S3,判断所述文本信息属于专有信息或通用信息;包括:根据所述文本信息中是否存在包含在所述关键词库中的关键词,判断所述文本信息属于专有信息或通用信息;存在包含在所述关键词库中的关键词则属于所述专有信息;不存在包含在所述关键词库中的关键词则属于所述通用信息;若属于所述通用信息,则转向步骤S4;若属于所述专有信息,则转向步骤S5;步骤S4,对判断为属于所述通用信息的所述文本信息进行语言语义识别,形成第一语
言语义识别并转向步骤S6;步骤S5,将判断为属于所述专有信息的所述文本信息转换为标准拼音信息,并对所述标准拼音信息进行语言语义识别,形成第二语言语义识别并转向步骤S6;步骤S6,执行所述第一语言语义识别和/或所述第二语言语义识别后结束,并生成语义识别字词库。6.根据权利要求5所述的一种基于自然语言语义分析的文本识别方法,其特征在于,所述步骤S5中包括:步骤S51,将所述文本信息转换为初始拼音信息;步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息;步骤S53,对所述标准拼音信息进行语言语义识别,形成所述第二语言语义识别并转向步骤S6。7.根据权利要求6所述一种基于自然语言语义分析的文本识别方法,其特征在于,所述步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息,包括:所述模糊匹配采用同音声母校正和/或前后元音进行校正,校正后将矫正后的信息输入标准自然语言语义分析,如仍包含无法识别内容,则进行循环矫正,直至全部识别为标准自然语言语义分析。8.根据权利要求1所述一种基于自然语言语义分析的文本识别...

【专利技术属性】
技术研发人员:刘如君刘志杰陈乔尚雪松
申请(专利权)人:北京微智信业科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1