【技术实现步骤摘要】
一种扩充样本语料的语料正则式的方法和系统
本专利技术涉及语义解析
,尤指一种扩充样本语料的语料正则式的方法和系统。
技术介绍
当前随着网络的飞速发展,通过计算机智能处理信息也是越来越普遍。计算机、智能设备等每天可能需要处理成千上万的信息。智能设备一般通过分析语料得到对应的语料正则式,从而解析语料。但是常规语料正则式的编写通过用户语料句式的解析和词库扩充,泛化能力较差。因此,需要一种扩充样本语料的语料正则式的方法和系统提高语料正则式的泛化能力。
技术实现思路
本专利技术的目的是提供一种扩充样本语料的语料正则式的方法和系统,实现通过知识图谱获取样本语料中实体分词对应的上一层级的实体概念,根据实体概念扩充根据样本语料得到的语料正则式,从而增加语义正则的泛化能力的目的。本专利技术提供的技术方案如下:本专利技术提供一种扩充样本语料的语料正则式的方法,包括:根据实体内容建立知识图谱;获取样本语料,根据所述样本语料生成语料正则式;对所述样本语料进行分词得到语料分词; ...
【技术保护点】
1.一种扩充样本语料的语料正则式的方法,其特征在于,包括:/n根据实体内容建立知识图谱;/n获取样本语料,根据所述样本语料生成语料正则式;/n对所述样本语料进行分词得到语料分词;/n将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;/n根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;/n根据所述实体概念调整所述语料正则式得到正则表达式。/n
【技术特征摘要】
1.一种扩充样本语料的语料正则式的方法,其特征在于,包括:
根据实体内容建立知识图谱;
获取样本语料,根据所述样本语料生成语料正则式;
对所述样本语料进行分词得到语料分词;
将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;
根据所述实体概念调整所述语料正则式得到正则表达式。
2.根据权利要求1所述的扩充样本语料的语料正则式的方法,其特征在于,根据实体建立知识图谱具体包括:
获取所述实体内容以及所述实体内容之间的关联关系;
根据所述实体内容以及所述关联关系建立所述知识图谱。
3.根据权利要求1所述的扩充样本语料的语料正则式的方法,其特征在于,根据所述实体概念调整所述语料正则式得到正则表达式具体包括:
选取目标实体分词对应的目标实体概念,所述目标实体分词为所述实体分词中的任意一个;
根据所述知识图谱判断所述目标实体概念与其余的实体分词是否匹配;
若匹配,则将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词保持不变,得到所述正则表达式。
4.根据权利要求3所述的扩充样本语料的语料正则式的方法,其特征在于,还包括:
若不匹配,则根据所述知识图谱获取其余的实体分词对应的上一层级的实体概念,所述其余的实体分词对应的实体概念与所述目标实体概念匹配;
将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词替换为对应的实体概念,得到所述正则表达式。
5.根据权利要求1-4任一项所述的扩充样本语料的语料正则式的方法,其特征在于,还包括:
根据所述知识图谱获取所述正则表达式中实体概念下一层级的所有实体内容;
将所述所有实体内容作为对应的正则表达式中实体概念的语义槽。
6.一种扩充样本语料的语料正则式的系统,其特征在于,包括:
知识图谱建立模块,根据实体内容建立知识图谱;
语料获取模块,获取样本语料;
正则式生成模块,根据所述语料获取模块获取的所述样本语料生成语料正则式;
分词模块,对所述语料获取模块获取的所述样本语料进行分词得到语料分词;...
【专利技术属性】
技术研发人员:李选洪,
申请(专利权)人:广东小天才科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。