一种语料生成装置和方法制造方法及图纸

技术编号:15919336 阅读:42 留言:0更新日期:2017-08-02 04:32
一种语料生成装置和方法,该装置(100))包括:分词模块(110),连接至少一个单语平行语料库,用于对语句分词,对分词进行知识驱动;分类模块(120)),用于将标签序列不同的相同含义的语句分类到同一语句簇;映射模块(130)),用于确定语句簇中所有语句的句式结构类别,记录存储同一语句簇中不同句式结构类别变换时,句式结构之间的标签变换的映射方式;句式结构生成模块(140),用于根据语句簇其中之一者的第一类别句式结构与同一语句簇中其他类别句式结构的第一类映射方式;以及,语料生成模块(150),用于序列标签对应的词语,生成新的单语平行语料库。该装置和方法能够通过将词语嵌套到扩充得到的句式结构中获取语料,操作简单,节省资源,同时较大程度的扩充了语料库。

【技术实现步骤摘要】
【国外来华专利技术】一种语料生成装置和方法
本专利技术涉及文字处理领域,特别是涉及一种语料生成装置和方法。
技术介绍
随着互联网的发展,网络检索的需求也越来越高,因此需要储备更多的关键词,以及语料,存储于云端的语料库中,供网民上网搜索时使用。但是语言表达方式丰富多变,仅需通过若干词语随机组合,可能就会形成语句,如果语料库通过依次采集输入全部的语料,需要投入过大的精力,而且容易遗漏。现有技术有采用编辑距离的方法,通过删除、移位、插入等操作扩充语料库,但是实际操作的过程繁琐。
技术实现思路
本专利技术主要解决的技术问题是提供一种语料生成装置和方法,能够通过将词语嵌套到扩充得到的句式结构中获取语料,操作简单,节省资源,同时较大程度的扩充了语料库。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种语料生成装置,该装置包括:分词模块,连接至少一个单语平行语料库,用于对每一平行语料库内的语句进行分词,并对分词进行知识驱动以实现标签化;分类模块,用于识别知识驱动处理后的语句,将标签序列不同的相同含义的语句分类到同一语句簇;映射模块,用于分析每一单语平行语料库中每一语句簇中的语句,确定语句簇中所有语句的句式结构类本文档来自技高网...
一种语料生成装置和方法

【技术保护点】
一种基于知识驱动的语料生成装置,其特征在于,包括:分词模块,连接至少一个单语平行语料库,用于对每一所述平行语料库内的语句进行分词,并对分词进行知识驱动以实现标签化;分类模块,用于识别知识驱动处理后的语句,将标签序列不同的相同含义的语句分类到同一语句簇;映射模块,用于分析每一所述单语平行语料库中每一所述语句簇中的语句,确定所述语句簇中所有语句的句式结构类别,确定并记录存储同一所述语句簇中不同所述句式结构类别之间进行变换时,相应的所述句式结构之间的标签变换的映射方式;句式结构生成模块,用于查找所有单语平行语料库中每一所述语句簇中相同的第一类别句式结构,并根据所述语句簇其中之一者的所述第一类别句式结...

【技术特征摘要】
【国外来华专利技术】1.一种基于知识驱动的语料生成装置,其特征在于,包括:分词模块,连接至少一个单语平行语料库,用于对每一所述平行语料库内的语句进行分词,并对分词进行知识驱动以实现标签化;分类模块,用于识别知识驱动处理后的语句,将标签序列不同的相同含义的语句分类到同一语句簇;映射模块,用于分析每一所述单语平行语料库中每一所述语句簇中的语句,确定所述语句簇中所有语句的句式结构类别,确定并记录存储同一所述语句簇中不同所述句式结构类别之间进行变换时,相应的所述句式结构之间的标签变换的映射方式;句式结构生成模块,用于查找所有单语平行语料库中每一所述语句簇中相同的第一类别句式结构,并根据所述语句簇其中之一者的所述第一类别句式结构与同一所述语句簇中其他类别句式结构的第一类映射方式,在其余的所述语句簇中对所述第一类别句式结构按照所述映射方式分别进行映射,生成相应的句式结构类别;以及,语料生成模块,用于对新生成的所述句式结构嵌套所述语句簇中句式结构的序列标签对应的词语,生成新的单语平行语料库。2.根据权利要求1所述的语料生成装置,其特征在于,所述分词模块包括:分词单元,用于对所有单语平行语料库中的所述语句进行分词;第一标签单元,用于按照词语的词性对分词处理后的所述语句添加第一标签;第二标签单元,用于按照词语在句中成分对分词处理后的所述语句添加第二标签。3.根据权利要求2所述的语料生成装置,其特征在于,所述分词模块还包括第三标签单元;所述第三标签单元用于对经标签化处理后标签序列相同的不同含义的语句,按照词语含义对所述语句添加第三标签。4.根据权利要求1所述的语料生成装置,其特征在于,所述语料生成模块包括:标签识别单元,用于识别所有单语平行语料库中每一所述语句簇中全部句式结构中的标签;语料生成单元,用于将每一所述语句簇中全部句式结构中的标签对应的词语嵌套到所述句式结构中,生成新的单语平行语料库。5.根据权利要求4所述的语料生成装置,其特征在于,所述语料生成单元按照所述分词模块的...

【专利技术属性】
技术研发人员:王昊奋邱楠杨新宇
申请(专利权)人:深圳狗尾草智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1