当前位置: 首页 > 专利查询>张永成专利>正文

一种基于知识图谱的语义识别方法及系统技术方案

技术编号:15541961 阅读:179 留言:0更新日期:2017-06-05 11:07
本发明专利技术公开了一种基于知识图谱的语义识别方法及系统,该方法包括:预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层;接收输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元及与每个字单元关联的表示单元;确定与每个表示单元关联的语义单元,根据每个语义单元与输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联选取出选定语义单元;确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与输入信息对应的意图。由此,可以对全部自然语言进行语义识别。

Semantic recognition method and system based on knowledge spectrum

The invention discloses a method and system for semantic recognition based on knowledge mapping, the method comprises the following steps: pre construction of knowledge map, the map of knowledge including voice layer, word layer, presentation layer, semantic layer and layer; receiving the input information, converts the input information into voice unit, said unit and determining unit each speech unit associated with each unit and associated; and each unit to determine the semantic association, according to each semantic unit and the input information in the corresponding relationship between successive groups said precursor group before and after the unit corresponding to the location of the selected selected semantic unit; determine the intention unit associated with each semantic unit selected, and according to the intention of each unit and the corresponding relation between the semantic units selected by the intention unit selected selected to determine the intention unit. The selected intent set composed of the selected intention units is the intention corresponding to the input information. Thus, semantic recognition can be performed on all natural languages.

【技术实现步骤摘要】
一种基于知识图谱的语义识别方法及系统
本专利技术涉及自然语言处理
,更具体地说,涉及一种基于知识图谱的语义识别方法及系统。
技术介绍
在自然语言处理中,语义识别是核心问题,只有完成该项工作,才能有效的识别自然语言输入中的信息,让计算机真正理解文本。简单来说,通过这项工作的实现,计算机可以理解用户通过自然语言形式输入的信息,获取用户输入的数据。现有技术用于实现语义识别的技术方案一般基于机器学习,具体来说,将整个语义识别过程分为多个步骤,包括分词、词性标注、依存分析、命名实体识别及关键词抽取等,而上述步骤均需使用机器学习的方法,基于标注的上述资料训练对应的语义识别模型,进而将用户输入的信息作为该语义识别模型的输入,即可得到该语义识别模型输出的与用户输入信息对应的语义识别结果。但是专利技术人发现,由于语义识别模型与用于训练该模型的资料关联,即其仅仅能够识别出与训练该模型的资料对应的自然语言的语义,因此,对于其他自然语言而无法实现其语义识别。综上所述,现有技术中用于实现语义识别的技术方案存在无法支持与语义识别模型无关联的自然语言的语义识别的问题。
技术实现思路
本专利技术的目的是提供一种基于知识图谱的语义识别方法及系统,以解决现有技术中用于实现语义识别的技术方案存在的无法支持与语义识别模型无关联的自然语言的语义识别的问题。为了实现上述目的,本专利技术提供如下技术方案:一种基于知识图谱的语义识别方法,包括:预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元;接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元;确定与每个表示单元关联的语义单元,并根据每个语义单元与所述输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由所述语义单元中选取出选定语义单元;确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由所述意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与所述输入信息对应的意图。优选的,确定与每个语音单元关联的字单元之后及确定与每个字单元关联的表示单元之后,还包括:将包含第一单元大于对应阈值,但只关联到一个输入信息对应第一单元的第二单元去除,并将关联到的输入信息对应第一单元数量与包含的第一单元数量的比值低于对应阈值的第二单元去除;其中,第二单元为字单元时,第一单元为语音单元;第二单元为表示单元时,第一单元为字单元。优选的,选取出所述选定语义单元,包括:将所述语义单元放入候选集合中,将每个表示单元及对应的语义单元组成与每个表示单元对应的单元组,基于每个单元组的最大前驱置信度及最大后继置信度计算该单元组的语义置信度;由所述候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元;确定该选定语义单元在所述输入信息中对应的表示单元,并将所述候选集合中与该表示单元对应的其他语义单元及与该表示单元在所述输入信息中的位置冲突的表示单元及对应语义单元去除;返回执行由所述候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元的步骤,直至所述候选集合中不存在语义单元为止。优选的,计算每个单元组的语义置信度,包括:确定当前待计算的单元组为目标单元组,并获取所述目标单元组的全部直接前驱组、直接后继组、每个直接前驱组的最大前驱置信度及每个直接后继组的最大后继置信度;基于所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接前驱组的最大前驱置信度及该目标单元组与所述输入信息的关联度计算所述目标单元组对应于每个直接前驱组的前驱置信度,并从中选取最大的前驱置信度为该目标单元组的最大前驱置信度;基于所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接后继组的最大后继置信度及该目标单元组与所述输入信息的关联度计算所述目标单元组对应于每个直接后继组的后继置信度,并从中选取最大的后继置信度为该目标单元组的最大后继置信度;基于所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的字单元数量、最大前驱置信度、最大后继置信度及该单元组与所述输入信息的关联度计算该单元组的语义置信度。优选的,计算所述目标单元组对应于任一直接前驱组的前驱置信度,包括:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pre.rate表示任一直接前驱组的最大前驱置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。优选的,计算所述目标单元组对应于任一直接后继组的后继置信度,包括:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,posSteps表示所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pos.rate表示任一直接后继组的最大后继置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。优选的,计算所述目标单元组的语义置信度,包括:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组的语义置信度:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组的语义置信度:其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,posSteps表示所述目标单元组对应的后继组中与该目标单元组本文档来自技高网...
一种基于知识图谱的语义识别方法及系统

【技术保护点】
一种基于知识图谱的语义识别方法,其特征在于,包括:预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元;接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元;确定与每个表示单元关联的语义单元,并根据每个语义单元与所述输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由所述语义单元中选取出选定语义单元;确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由所述意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与所述输入信息对应的意图。

【技术特征摘要】
1.一种基于知识图谱的语义识别方法,其特征在于,包括:预先构建知识图谱,该知识图谱包括语音层、字层、表示层、语义层及意图层,上述每层均具有对应的单元;接收用户输入的输入信息,将该输入信息转换为语音单元,确定与每个语音单元关联的字单元,并确定与每个字单元关联的表示单元;确定与每个表示单元关联的语义单元,并根据每个语义单元与所述输入信息中位于其对应表示单元对应位置之前的前驱组及之后的后继组之间的关联由所述语义单元中选取出选定语义单元;确定与每个选定语义单元关联的意图单元,并根据每个意图单元与对应选定语义单元之间的关联由所述意图单元中选取出选定意图单元,确定该选定意图单元组成的选定意图集合为与所述输入信息对应的意图。2.根据权利要求1所述的方法,其特征在于,确定与每个语音单元关联的字单元之后及确定与每个字单元关联的表示单元之后,还包括:将包含第一单元大于对应阈值,但只关联到一个输入信息对应第一单元的第二单元去除,并将关联到的输入信息对应第一单元数量与包含的第一单元数量的比值低于对应阈值的第二单元去除;其中,第二单元为字单元时,第一单元为语音单元;第二单元为表示单元时,第一单元为字单元。3.根据权利要求1所述的方法,其特征在于,选取出所述选定语义单元,包括:将所述语义单元放入候选集合中,将每个表示单元及对应的语义单元组成与每个表示单元对应的单元组,基于每个单元组的最大前驱置信度及最大后继置信度计算该单元组的语义置信度;由所述候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元;确定该选定语义单元在所述输入信息中对应的表示单元,并将所述候选集合中与该表示单元对应的其他语义单元及与该表示单元在所述输入信息中的位置冲突的表示单元及对应语义单元去除;返回执行由所述候选集合中选取对应单元组的语义置信度最大的语义单元为选定语义单元的步骤,直至所述候选集合中不存在语义单元为止。4.根据权利要求3所述的方法,其特征在于,计算每个单元组的语义置信度,包括:确定当前待计算的单元组为目标单元组,并获取所述目标单元组的全部直接前驱组、直接后继组、每个直接前驱组的最大前驱置信度及每个直接后继组的最大后继置信度;基于所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接前驱组的最大前驱置信度及该目标单元组与所述输入信息的关联度计算所述目标单元组对应于每个直接前驱组的前驱置信度,并从中选取最大的前驱置信度为该目标单元组的最大前驱置信度;基于所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的字单元数量、该目标单元组对应的每个直接后继组的最大后继置信度及该目标单元组与所述输入信息的关联度计算所述目标单元组对应于每个直接后继组的后继置信度,并从中选取最大的后继置信度为该目标单元组的最大后继置信度;基于所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的表示单元与所述输入信息中对应位置的表示单元的匹配程度、该目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量、该目标单元组对应的字单元数量、最大前驱置信度、最大后继置信度及该单元组与所述输入信息的关联度计算该单元组的语义置信度。5.根据权利要求4所述的方法,其特征在于,计算所述目标单元组对应于任一直接前驱组的前驱置信度,包括:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接前驱组的前驱置信度:其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,preSteps表示所述目标单元组对应的前驱组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pre.rate表示任一直接前驱组的最大前驱置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。6.根据权利要求4所述的方法,其特征在于,计算所述目标单元组对应于任一直接后继组的后继置信度,包括:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:如果所述目标单元组对应的表示单元与该表示单元在所述输入信息中对应位置的表示单元不完全匹配,则按照下式计算该目标单元组对应于任一直接后继组的后继置信度:其中,FULLMATHRATE、STEPRATE、SESSIONRELATIONRATE为预先设定的系数,posSteps表示所述目标单元组对应的后继组中与该目标单元组存在语义关联的单元组的数量,step.length表示所述目标单元组对应的字单元数量,pos.rate表示任一直接后继组的最大后继置信度,sessionRelationRate表示所述目标单元组与所述输入信息的关联度。7.根据权利要求4...

【专利技术属性】
技术研发人员:张永成尹弘
申请(专利权)人:张永成尹弘
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1