一种基于自然语言语义分析的文本识别方法及系统技术方案

技术编号:39316051 阅读:32 留言:0更新日期:2023-11-12 15:59
本发明专利技术公开了一种基于自然语言语义分析的文本识别方法及系统,包括以下步骤:根据第一文本字符,通过语义中心标定模型,得到第一文本中的第一中心文本字符;根据第一文本中的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义;根据第一中心文本字符的自然语言语义,通过自然语言语义处理中的文本生成方式,得到第一文本对应的自然语言语义文本。本发明专利技术通过语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定,对关键性语义信息对应的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义,提高文本识别效率。提高文本识别效率。提高文本识别效率。

【技术实现步骤摘要】
一种基于自然语言语义分析的文本识别方法及系统


[0001]本专利技术涉及文本语义分析
,具体涉及一种基于自然语言语义分析的文本识别方法及系统。

技术介绍

[0002]语义识别指的是一种自然语言处理技术,主要实现的是在计算机中模拟人类语言理解效果。它能够有效识别出每句话中所包含的意义,深入了解语句与句子中的内容,分析用户的真实意图。借助于自然语言处理技术及机器学习,这一技术能够根据用户的自然输入,从句子中解析出语法、字符等,实现更有可读性、更精准的文本理解。
[0003]现有技术中利用自然语言语义进行文本分析过程中对文本字符进行逐一识别,以保证文本识别的全面性,但是如此对所有文本字符进行语义识别,在大数据量或实时识别场景中,存在着对掌握文本语义无影响的字符,此类文本字符的语义识别只会占用信道、存储空间和运算器的硬件资源,造成文本识别效率的降低。

技术实现思路

[0004]本专利技术的目的在于提供一种基于自然语言语义分析的文本识别方法,以解决现有技术中存在着对掌握文本语义无影响的字符,此类文本字符的语义识别只会占用信道本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言语义分析的文本识别方法,其特征在于:包括以下步骤:获取第一文本,所述第一文本包括多个第一文本字符;根据第一文本字符,通过语义中心标定模型,得到第一文本中的第一中心文本字符,其中,所述第一中心文本字符对应于第一文本中的关键型语义信息,所述语义中心标定模型基于拓扑学对第一文本字符分析,实现关键性语义信息的标定;根据第一文本中的所述第一中心文本字符,通过自然语言语义匹配关系,得到第一中心文本字符的自然语言语义,所述自然语言语义匹配关系为神经网络,或所述自然语言语义匹配关系为语义信息与自然语言语义的对应关系;根据第一中心文本字符的自然语言语义,通过自然语言语义处理中的文本生成方式,得到第一文本对应的自然语言语义文本。2.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法,其特征在于:语义中心标定模型标定出第一中心文本字符,包括:对第一文本中的各个第一文本字符依据主题、内容和见解三个维度进行拓扑结构搭建,得到字符拓扑复合型结构,所述字符拓扑复合型结构包括主题维度、内容维度和见解维度的拓扑复合型结构;对字符拓扑复合型结构进行拓扑属性量化,并依据拓扑属性进行内容维度的拓扑节点重要度量化;根据内容维度的拓扑节点的重要度在字符拓扑复合型结构中标定出关键型拓扑节点,将关键型拓扑节点对应的第一文本字符作为第一中心文本字符。3.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法,其特征在于:所述字符拓扑复合型结构的构建包括:以第一文本字符的主题为主题维度的拓扑节点,在具有同一主题的第一文本字符间设置主题维度的拓扑边,利用主题维度的拓扑边对主题维度的拓扑节点进行连接得到主题维度的拓扑结构;以第一文本字符为内容维度的拓扑节点,在具有同一第一文本字符的主题维度的拓扑节点和内容维度的拓扑节点间设置主题维度连接至内容维度的拓扑边,利用主题维度连接至内容维度的拓扑边对主题维度的拓扑节点与内容维度的拓扑节点进行连接得到主题维度与内容维度的拓扑复合型结构;以第一文本字符的情感极性作为见解维度的拓扑节点,在具有相同情感极性的内容维度的拓扑节点和见解维度的拓扑节点间设置内容维度连接至见解维度的拓扑边,利用内容维度连接至见解维度的拓扑边对内容维度的拓扑节点与见解维度的拓扑节点进行连接得到主题维度、内容维度和见解维度的拓扑复合型结构;将主题维度、内容维度和见解维度的拓扑复合型结构作为字符拓扑复合型结构。4.根据权利要求3所述的一种基于自然语言语义分析的文本识别方法,其特征在于:所述对字符拓扑复合型结构进行拓扑属性量化,包括:在字符拓扑复合型结构中利用KL距离对主题维度的拓扑边影响力进行量化,所述主题维度的拓扑边影响力的量化公式为:

;式中,,为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,r
i
和r
j
分别为主题维度的第i个拓扑节点和第j个拓扑节点,KL(P,Q)为r
i
对应的所有第一文本字符与r
j
对应的所有第一文本字符间的KL距离,P
k
为第k个第一文本字符在r
i
中出现的概率,Q
k
为第k个第一文本字符在r
j
中出现的概率,m为第一文本字符的总数量,k,i,j均为计数变量;在字符拓扑复合型结构中利用情感极性的情感强度对见解维度的拓扑边影响力进行量化,所述见解维度的拓扑边影响力的量化公式为: ;式中,为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力,e
i
和e
j
分别为见解维度中第i个拓扑节点和第j个拓扑节点,为符号函数,其中,当,则,当,则;EP
i
为e
i
的情感极性,ED
i
为e
i
的情感极性的情感强度,EP
j
为e
j
的情感极性,ED
j
为e
j
...

【专利技术属性】
技术研发人员:唐泰可廖峪黄曙光伏林晗
申请(专利权)人:成都中轨轨道设备有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1