【技术实现步骤摘要】
一种语法特征的匹配方法、装置、介质和计算设备
本专利技术的实施方式涉及软件
,更具体地,本专利技术的实施方式涉及一种语法特征的匹配方法、装置、介质和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。自然语言是指随文化自然演化而形成的语言,例如英语、汉语、日语、法语等。对于一门自然语言,语法特征包括语法结构、单词、短语以及固定搭配等,语言素材包括语言数据、文本数据、图像数据等。目前,现有技术中通常会基于正则表达式(regularexpression)来实现为语言素材匹配语法特征。以语言素材“Heisgoingtoplaybasketball”为例,采用基于正则表达式的技术方案对该语言素材进行匹配时能够为该语言素材匹配到具体单词和“am/are/isgoingto”这一固定搭配,但由于缺乏对自然语言的处理分析,这种技术方案无法进一步匹配到“dosth”(动词原形引导的动词词组)这一语法结构,致使这种技术方案无法匹配到该语言素材包括的语法结构“begoingtodosth”。此 ...
【技术保护点】
1.一种语法特征的匹配方法,其特征在于,包括:将自然语言数据转换为至少一个预设格式的数据,所述预设格式为用于描述自然语言的特征的编程语言格式;判断预先存储的至少一个预设格式的语法特征中是否存在与所述至少一个预设格式的数据相匹配的部分,所述至少一个预设格式的语法特征是对语法素材进行转换得到的,所述语法素材为承载有所述语法特征的样本数据;若所述至少一个预设格式的语法特征中存在与所述至少一个预设格式的数据相匹配的部分,则将所述相匹配的部分作为匹配信息,所述匹配信息用于指示所述自然语言数据具备的语法特征。
【技术特征摘要】
1.一种语法特征的匹配方法,其特征在于,包括:将自然语言数据转换为至少一个预设格式的数据,所述预设格式为用于描述自然语言的特征的编程语言格式;判断预先存储的至少一个预设格式的语法特征中是否存在与所述至少一个预设格式的数据相匹配的部分,所述至少一个预设格式的语法特征是对语法素材进行转换得到的,所述语法素材为承载有所述语法特征的样本数据;若所述至少一个预设格式的语法特征中存在与所述至少一个预设格式的数据相匹配的部分,则将所述相匹配的部分作为匹配信息,所述匹配信息用于指示所述自然语言数据具备的语法特征。2.如权利要求1所述的方法,其特征在于,通过如下方法将所述语法素材转换为所述至少一个预设格式的语法特征,还包括:将所述语法素材描述为预设格式,得到所述至少一个预设格式的语法特征;或者将所述语法素材输入转换模型,通过所述转换模型识别所述语法素材中的语法特征,并将识别出的语法特征作为所述预设格式的所述至少一个预设格式的语法特征。3.如权利要求1所述的方法,其特征在于,所述将自然语言数据转换为至少一个预设格式的数据,包括:对所述自然语言数据进行NLP解析得到至少一个数据段,其中NLP解析包括语句切分、词汇切分、词性标注、语法解析、词汇变形识别中的之一或组合;将所述至少一个数据段转换为所述至少一个预设格式的数据。4.如权利要求3所述的方法,其特征在于,对所述自然语言数据进行词汇变形识别得到所述至少一个数据段,包括:将所述自然语言数据分割为至少一个词汇;针对所述至少一个词汇,确定每一词汇在预先存储的词汇索引库中对应的索引,根据所述索引得到所述每一词汇的相关知识点;其中,所述相关知识点包括以下之一或组合:所述每一词汇的词性、所述每一词汇的词尾变化。5.如权利要求1所述的方法,其特征在于,所述至少一个预设格式的语法特征构成...
【专利技术属性】
技术研发人员:孙怿,金溆林,冯璟,王俊喆,谭嘉薇,
申请(专利权)人:上海萌番文化传播有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。