一种语法特征的匹配方法、装置、介质和计算设备制造方法及图纸

技术编号:19692638 阅读:33 留言:0更新日期:2018-12-08 11:23
本发明专利技术的实施方式提供一种语法特征的匹配方法、装置、介质和计算设备。该方法包括:将自然语言数据转换为至少一个预设格式的数据,预设格式为用于描述自然语言的特征的编程语言格式;判断预先存储的至少一个预设格式的语法特征中是否存在与至少一个预设格式的数据相匹配的部分;若至少一个预设格式的语法特征中存在与至少一个预设格式的数据相匹配的部分,则将相匹配的部分作为匹配信息,匹配信息用于指示自然语言数据具备的语法特征。

【技术实现步骤摘要】
一种语法特征的匹配方法、装置、介质和计算设备
本专利技术的实施方式涉及软件
,更具体地,本专利技术的实施方式涉及一种语法特征的匹配方法、装置、介质和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。自然语言是指随文化自然演化而形成的语言,例如英语、汉语、日语、法语等。对于一门自然语言,语法特征包括语法结构、单词、短语以及固定搭配等,语言素材包括语言数据、文本数据、图像数据等。目前,现有技术中通常会基于正则表达式(regularexpression)来实现为语言素材匹配语法特征。以语言素材“Heisgoingtoplaybasketball”为例,采用基于正则表达式的技术方案对该语言素材进行匹配时能够为该语言素材匹配到具体单词和“am/are/isgoingto”这一固定搭配,但由于缺乏对自然语言的处理分析,这种技术方案无法进一步匹配到“dosth”(动词原形引导的动词词组)这一语法结构,致使这种技术方案无法匹配到该语言素材包括的语法结构“begoingtodosth”。此外,受限于正则表达式的匹配原理,这种技术方案还存在计算代价高,计算效率低等问题。综上可知,现有基于正则表达式的技术方案存在自然语言处理性能差,计算代价高,计算效率低等问题,因此现有的基于正则表达式的技术方案无法实现对语法结构等语法特征的匹配。
技术实现思路
本专利技术实施例提供一种语法特征的匹配方法、装置、介质和计算设备,用以解决现有基于正则表达式的技术方案存在自然语言处理性能差,计算代价高,计算效率低等问题。为此,非常需要一种语法特征的匹配方法、装置、介质和计算设备,用以实现对语法结构等语法特征的匹配。在本专利技术实施方式的第一方面中,提供了一种语法特征的匹配方法,包括:将自然语言数据转换为至少一个预设格式的数据,预设格式为用于描述自然语言的特征的编程语言格式;判断预先存储的至少一个预设格式的语法特征中是否存在与至少一个预设格式的数据相匹配的部分,至少一个预设格式的语法特征是对语法素材进行转换得到的,语法素材为承载有语法特征的样本数据;若至少一个预设格式的语法特征中存在与至少一个预设格式的数据相匹配的部分,则将相匹配的部分作为匹配信息,匹配信息用于指示自然语言数据具备的语法特征。可选的,通过如下方法将语法素材转换为至少一个预设格式的语法特征,还包括:将语法素材描述为预设格式,得到至少一个预设格式的语法特征;或者将语法素材输入转换模型,通过转换模型识别语法素材中的语法特征,并将识别出的语法特征作为预设格式的至少一个预设格式的语法特征。相应地,可选的,语法素材包括以下之一或组合:语法结构、固定搭配、词汇、短语。可选的,将自然语言数据转换为至少一个预设格式的数据,包括:对自然语言数据进行NLP解析得到至少一个数据段,其中NLP解析包括语句切分、词汇切分、词性标注、语法解析、词汇变形识别中的之一或组合;将至少一个数据段转换为至少一个预设格式的数据。可选的,对自然语言数据进行词汇变形识别得到至少一个数据段,包括:将自然语言数据分割为至少一个词汇;针对至少一个词汇,确定每一词汇在预先存储的词汇索引库中对应的索引,根据索引得到每一词汇的相关知识点;其中,相关知识点包括以下之一或组合:每一词汇的词性、每一词汇的词尾变化。可选的,至少一个预设格式的语法特征构成树状结构。判断预先存储的至少一个预设格式的语法特征中是否存在与至少一个预设格式的数据相匹配的部分,包括:针对至少一个预设格式的数据中的每一数据,以树状结构的根节点为起始节点,在树状结构中对该数据进行遍历,判断树状结构中是否存在与该数据相匹配的节点。可选的,判断预先存储的至少一个预设格式的语法特征中是否存在与至少一个预设格式的数据相匹配的部分,包括:若至少一个预设格式的语法特征包括短语,则采用动态规划的方式判断预先存储的至少一个预设格式的语法特征中是否存在与至少一个预设格式的数据相匹配的部分。可选的,在将相匹配的部分作为匹配信息之后,还包括:在自然语言数据中标记匹配信息,其中标记包括标题标记和/或高亮标记。可选的,自然语言数据包括下列之一或组合:文本数据、语音数据、图像数据。在本专利技术实施方式的第二方面中,提供了一种语法特征的匹配装置,包括:第一转换单元,用于将自然语言数据转换为至少一个预设格式的数据,预设格式为用于描述自然语言的特征的编程语言格式;判断单元,用于判断预先存储的至少一个预设格式的语法特征中是否存在与至少一个预设格式的数据相匹配的部分,至少一个预设格式的语法特征是对语法素材进行转换得到的,语法素材为承载有语法特征的样本数据;匹配单元,用于若至少一个预设格式的语法特征中存在与至少一个预设格式的数据相匹配的部分,则将相匹配的部分作为匹配信息,匹配信息用于指示自然语言数据具备的语法特征。可选的,还包括第二转换单元用于:将语法素材描述为预设格式,得到至少一个预设格式的语法特征。或者,将语法素材输入转换模型,通过转换模型识别语法素材中的语法特征,并将识别出的语法特征作为预设格式的至少一个预设格式的语法特征。其中,语法素材包括以下之一或组合:语法结构、固定搭配、词汇、短语。可选的,第一转换单元具体用于:对自然语言数据进行NLP解析得到至少一个数据段,其中NLP解析包括语句切分、词汇切分、词性标注、语法解析、词汇变形识别中的之一或组合;将至少一个数据段转换为至少一个预设格式的数据。可选的,第一转换单元在对自然语言数据进行词汇变形识别得到至少一个数据段时,具体用于:将自然语言数据分割为至少一个词汇;针对至少一个词汇,确定每一词汇在预先存储的词汇索引库中对应的索引,根据索引得到每一词汇的相关知识点。其中,相关知识点包括以下之一或组合:每一词汇的词性、每一词汇的词尾变化。可选的,至少一个预设格式的语法特征构成树状结构。判断单元具体用于:针对至少一个预设格式的数据中的每一数据,以树状结构的根节点为起始节点,在树状结构中对该数据进行遍历,判断树状结构中是否存在与该数据相匹配的节点。可选的,判断单元具体用于:若至少一个预设格式的语法特征包括短语,则采用动态规划的方式判断预先存储的至少一个预设格式的语法特征中是否存在与至少一个预设格式的数据相匹配的部分。可选的,还包括标记单元用于:在匹配单元将相匹配的部分作为匹配信息之后,在自然语言数据中标记匹配信息,其中标记包括标题标记和/或高亮标记。可选的,自然语言数据包括下列之一或组合:文本数据、语音数据、图像数据。在本专利技术实施方式的第三方面中,提供了一种介质,该介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行第一方面中任一实施例的方法。在本专利技术实施方式的第四方面中,提供了一种计算设备,包括处理器、存储器以及收发机;存储器,用于存储处理器执行的程序;处理器,用于根据存储器存储的程序,执行第一方面中任一实施例的方法;收发机,用于在处理器的控制下接收或发送数据。在本专利技术实施方式的第五方面中,提供了另一种计算设备,包括处理单元以及收发单元。处理单元,用于执行第一方面中任一实施例的方法;收发单元,用于在处理单元的控制下接收或发送数据。通过本专利技术实施例提供的技术方案,可以实现对语法结构等语本文档来自技高网...

【技术保护点】
1.一种语法特征的匹配方法,其特征在于,包括:将自然语言数据转换为至少一个预设格式的数据,所述预设格式为用于描述自然语言的特征的编程语言格式;判断预先存储的至少一个预设格式的语法特征中是否存在与所述至少一个预设格式的数据相匹配的部分,所述至少一个预设格式的语法特征是对语法素材进行转换得到的,所述语法素材为承载有所述语法特征的样本数据;若所述至少一个预设格式的语法特征中存在与所述至少一个预设格式的数据相匹配的部分,则将所述相匹配的部分作为匹配信息,所述匹配信息用于指示所述自然语言数据具备的语法特征。

【技术特征摘要】
1.一种语法特征的匹配方法,其特征在于,包括:将自然语言数据转换为至少一个预设格式的数据,所述预设格式为用于描述自然语言的特征的编程语言格式;判断预先存储的至少一个预设格式的语法特征中是否存在与所述至少一个预设格式的数据相匹配的部分,所述至少一个预设格式的语法特征是对语法素材进行转换得到的,所述语法素材为承载有所述语法特征的样本数据;若所述至少一个预设格式的语法特征中存在与所述至少一个预设格式的数据相匹配的部分,则将所述相匹配的部分作为匹配信息,所述匹配信息用于指示所述自然语言数据具备的语法特征。2.如权利要求1所述的方法,其特征在于,通过如下方法将所述语法素材转换为所述至少一个预设格式的语法特征,还包括:将所述语法素材描述为预设格式,得到所述至少一个预设格式的语法特征;或者将所述语法素材输入转换模型,通过所述转换模型识别所述语法素材中的语法特征,并将识别出的语法特征作为所述预设格式的所述至少一个预设格式的语法特征。3.如权利要求1所述的方法,其特征在于,所述将自然语言数据转换为至少一个预设格式的数据,包括:对所述自然语言数据进行NLP解析得到至少一个数据段,其中NLP解析包括语句切分、词汇切分、词性标注、语法解析、词汇变形识别中的之一或组合;将所述至少一个数据段转换为所述至少一个预设格式的数据。4.如权利要求3所述的方法,其特征在于,对所述自然语言数据进行词汇变形识别得到所述至少一个数据段,包括:将所述自然语言数据分割为至少一个词汇;针对所述至少一个词汇,确定每一词汇在预先存储的词汇索引库中对应的索引,根据所述索引得到所述每一词汇的相关知识点;其中,所述相关知识点包括以下之一或组合:所述每一词汇的词性、所述每一词汇的词尾变化。5.如权利要求1所述的方法,其特征在于,所述至少一个预设格式的语法特征构成...

【专利技术属性】
技术研发人员:孙怿金溆林冯璟王俊喆谭嘉薇
申请(专利权)人:上海萌番文化传播有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1