语料泛化方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:18783608 阅读:27 留言:0更新日期:2018-08-29 06:53
本发明专利技术提供一种语料泛化方法、装置、电子设备及可读存储介质,通过接收用户输入的初始语料,将初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。从而实现了基于已有的语料组分之间转移关系泛化生成大量的衍生语料,且该泛化的语料是基于初始语料的语料组分转移顺序生成的,符合人们的自然语言表达,增加了用于模型训练的语料数量,提升了语料质量,使得采用该泛化后的语料训练出的模型的识别效果得以提升。

【技术实现步骤摘要】
语料泛化方法、装置、电子设备及可读存储介质
本专利技术涉及数据处理技术,尤其涉及一种语料泛化方法、装置、电子设备及可读存储介质。
技术介绍
随着人工智能的兴起,数据驱动的机器学习和深度学习方法得到了广泛的研究和应用。在以上这些方法的研究和应用过程中,需要充足且高质量的数据作为支撑进行模型训练和效果评估。现有技术中对于诸如搜索引擎、智能语音等交互产品,其为了能够更为准确地识别用户意图,需要建立用于识别用户意图的模型,而模型的识别能力很大程度是取决于用于训练该模型的数据的数量。用于训练模型的数据越多,通常来说模型的识别准确度会越高。用于这些产品的训练数据通常包括用户的查询(Query),如搜索引擎中用户输入的检索词,智能语音交互产品中用户的表述话语,上述这种自然语言表述的Query被称之为语料。然而,一方面,对于一些偏僻冷门的行业和领域,往往很难积累相关的语料;另一方面,一些网站其用户访问量很少,很难累计语料。因此,由于领域偏僻或用户访问量低等因素,造成在对语料应用机器学习或者深度学习模型的时候,经常会遇到语料不够充足的问题,从而影响模型的识别效果。
技术实现思路
为解决现有技术中存在的问题,本专利技术提供一种语料泛化方法、装置、电子设备及可读存储介质,可以基于已有的语料泛化生成大量的衍生语料,从而增加用于模型训练的语料数量,使得训练后的模型的识别效果得以提升。第一方面,本专利技术实施例提供一种语料泛化方法,包括:接收用户输入的初始语料,将所述初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。可选地,所述在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径之后,还包括:在所述多个语料组分节点中标识出每个所述初始语料的起始语料组分节点,和/或,终止语料组分节点。可选的,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料,包括:以每个所述起始语料组分节点作为起始点,遍历所有路径可达语料组分,形成所述泛化后的语料;或者,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料;或者,以每个所述起始语料组分节点作为起始点,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料。可选的,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料之后,还包括:基于句式结构转换关系,建立语言模型;将所述泛化后的语料输入到所述语言模型中,确定各个泛化后得到的语料符合所述句式结构的概率;根据所述概率对泛化后的语料进行筛选。可选的,所述方法还包括:根据语料的应用场景,判断所述泛化后的语料的语义;根据语义与所述应用场景的匹配程度,对所述泛化后的语料进行筛选。可选的,所述方法还包括:确定所述泛化后的语料中所包含的语料组分节点的个数,根据预设节点数量阈值,对所述泛化后的语料进行筛选。可选的,所述语料组分的组分粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。可选的,所述方法还包括:以每个语料组分节点作为原始语料组分节点,根据所述原始语料组分节点的词性属性对其进行衍生,得到与所述原始语料组分节点具有关联性的衍生语料组分节点;其中所述词性属性包括以下属性中的至少一种:同义词、反义词、数量词、人称代词。可选的,所述得到与所述原始语料组分节点具有关联性的衍生语料组分节点之后,还包括:根据每个所述原始语料组分节点的转移路径,确定与所述原始语料组分节点对应的衍生语料组分节点的转移路径。可选的,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料,包括:遍历由所述原始语料组分节点和所述衍生语料组分节点形成的转移路径,形成泛化后的语料。第二方面,本专利技术实施例提供一种语料泛化装置,包括:接收模块,用于接收用户输入的初始语料;切分模块,用于将所述初始语料切分为语料组分;合并模块,用于合并相同的语料组分,形成多个语料组分节点;确定模块,用于根据每个初始语料中各语料组分的连接顺序,在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;形成模块,用于遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。可选的,还包括:标识模块,用于在所述多个语料组分节点中标识出每个所述初始语料的起始语料组分节点,和/或,终止语料组分节点。可选的,所述形成模块,包括:第一形成子模块,用于以每个所述起始语料组分节点作为起始点,遍历所有路径可达语料组分,形成所述泛化后的语料;第二形成子模块,用于以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料;第三形成子模块,用于以每个所述起始语料组分节点作为起始点,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料。可选的,还包括:模型建立模块,用于基于句式结构转换关系,建立语言模型;所述确定模块,还用于将所述泛化后的语料输入到所述语言模型中,确定各个泛化后得到的语料符合所述句式结构的概率;第一筛选模块,用于根据所述概率对泛化后的语料进行筛选。可选的,还包括:判断模块,用于根据语料的应用场景,判断所述泛化后的语料的语义;第二筛选模块,用于根据语义与所述应用场景的匹配程度,对所述泛化后的语料进行筛选。可选的,所述确定模块,还用于确定所述泛化后的语料中所包含的语料组分节点的个数;所述装置还包括:第三筛选模块,用于根据预设节点数量阈值,对所述泛化后的语料进行筛选。可选的,所述语料组分的组分粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。可选的,还包括:衍生模块,用于以每个语料组分节点作为原始语料组分节点,根据所述原始语料组分节点的词性属性对其进行衍生,得到与所述原始语料组分节点具有关联性的衍生语料组分节点;其中所述词性属性包括以下属性中的至少一种:同义词、反义词、数量词、人称代词。可选的,所述确定模块,还用于根据每个所述原始语料组分节点的转移路径,确定与所述原始语料组分节点对应的衍生语料组分节点的转移路径。可选的,所述形成模块包括:第四形成子模块,用于遍历由所述原始语料组分节点和所述衍生语料组分节点形成的转移路径,形成泛化后的语料。第三方面,本专利技术实施例提供一种电子设备,包括:处理器;存储器;以及程序;其中,所述程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述程序包括用于执行如第一方面所述的方法的指令。第四方面,本专利技术实施例提供一种电子设备可读存储介质,所述电子设备可读存储介质存储有程序,所述程序使得电子设备执行第一方面所述的方法。本专利技术提供的语料泛化方法、装置、电子设备及可读存储介质,通过接收用户输入的初始语料,将初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。从而实现了基于已有的本文档来自技高网...

【技术保护点】
1.一种语料泛化方法,其特征在于,包括:接收用户输入的初始语料,将所述初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。

【技术特征摘要】
1.一种语料泛化方法,其特征在于,包括:接收用户输入的初始语料,将所述初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。2.根据权利要求1所述的方法,其特征在于,所述在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径之后,还包括:在所述多个语料组分节点中标识出每个所述初始语料的起始语料组分节点,和/或,终止语料组分节点。3.根据权利要求2所述的方法,其特征在于,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料,包括:以每个所述起始语料组分节点作为起始点,遍历所有路径可达语料组分,形成所述泛化后的语料;或者,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料;或者,以每个所述起始语料组分节点作为起始点,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料。4.根据权利要求1~3任一项所述的方法,其特征在于,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料之后,还包括:基于句式结构转换关系,建立语言模型;将所述泛化后的语料输入到所述语言模型中,确定各个泛化后得到的语料符合所述句式结构的概率;根据所述概率对泛化后的语料进行筛选。5.根据权利要求1~3任一项所述的方法,其特征在于,所述方法还包括:根据语料的应用场景,判断所述泛化后的语料的语义;根据语义与所述应用场景的匹配程度,对所述泛化后的语料进行筛选。6.根据权利要求1~3任一项所述的方法,其特征在于,所述方法还包括:确定所述泛化后的语料中所包含的语料组分节点的个数,根据预设节点数量阈值,对所述泛化后的语料进行筛选。7.根据权利要求1~3任一项所述的方法,其特征在于,所述语料组分的组分粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:以每个语料组分节点作为原始语料组分节点,根据所述原始语料组分节点的词性属性对其进行衍生,得到与所述原始语料组分节点具有关联性的衍生语料组分节点;其中所述词性属性包括以下属性中的至少一种:同义词、反义词、数量词、人称代词。9.根据权利要求8所述的方法,其特征在于,所述得到与所述原始语料组分节点具有关联性的衍生语料组分节点之后,还包括:根据每个所述原始语料组分节点的转移路径,确定与所述原始语料组分节点对应的衍生语料组分节点的转移路径。10.根据权利要求9所述的方法,其特征在于,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料,包括:遍历由所述原始语料组分节点和所述衍生语料组分节点形成的转移路径,形成泛化后的语料。11.一种语料泛化装置,其特征在于,包括:接收模块,用于接收用户输入的初始语料;切分模块,用于将所述初始语料切分为语料组分;合并模块,用于合并相同的语料组...

【专利技术属性】
技术研发人员:王武生石磊
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1