【技术实现步骤摘要】
文本翻译器训练方法、专业领域文本语义解析方法和装置
本专利技术涉及自然语言处理领域,尤其涉及一种文本翻译器训练方法、专业领域文本语义解析方法和装置。
技术介绍
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。需要让只认识0和1的机器能够理解并表达人类的语言,首要关键是将自然语言的原始形态转化为一种对于机器来说是有意义的、可以理解的含义表示,这一过程被称之为语义解析,换言之,在技术实现上需要为人类的自然语言设计出机器可读的表示规则,并形成运用该规则进行语义解析的配套方案。但是,针对较为特定的专业领域,例如建筑工程、制造加工等工业领域,其文本模式涉及工程实现以及相关法规标准,因此相比人类日常使用的会话语言来说,专业领域文本存在较多的书面性、规则性、多样性以及专业性,并且专业领域对于文本内容的解析要求相比自然会话来说,由于其可能面向工程实施或者精密 ...
【技术保护点】
1.一种文本翻译器训练方法,其特征在于,所述训练方法包括:/n对专业领域文本进行句式处理,得到源端句式数据以及按预设的语义表示结构表征的目标端数据;/n将所述目标端数据转换为序列形式;/n基于专业领域词典,对所述源端句式数据以及序列化的所述目标端数据进行分词;/n将所述源端句式数据的分词结果作为输入,且将所述目标端数据的分词结果作为输出,训练所述文本翻译器。/n
【技术特征摘要】
1.一种文本翻译器训练方法,其特征在于,所述训练方法包括:
对专业领域文本进行句式处理,得到源端句式数据以及按预设的语义表示结构表征的目标端数据;
将所述目标端数据转换为序列形式;
基于专业领域词典,对所述源端句式数据以及序列化的所述目标端数据进行分词;
将所述源端句式数据的分词结果作为输入,且将所述目标端数据的分词结果作为输出,训练所述文本翻译器。
2.根据权利要求1所述的文本翻译器训练方法,其特征在于,所述对专业领域文本进行句式处理包括:
利用预先构建的分类器对所述专业领域文本中的语句进行句式分类;
根据预设的语法策略,将已确定类型的各类句式分别转换为基于专业领域的语义表示结构;
对无确定类型的语句进行专家拆解,并将拆解后的语句利用所述分类器进行重分类处理。
3.根据权利要求1所述的文本翻译器训练方法,其特征在于,所述预设的语义表示结构包括:基于专业领域预设的主级句式、次级句式以及底层句式;
所述主级句式能够以至少一层嵌套所述次级句式和/或所述底层句式;
所述次级句式能够以至少一层嵌套其他次级句式和/或所述底层句式;
所述底层句式为不能嵌套其他句式的最小句式单元。
4.根据权利要求1~3任一项所述的文本翻译器训练方法,其特征在于,所述训练方法还包括:
所述源端句式数据与所述目标端数据共享词向量;和/或,
融合训练后期的多轮的更新参数,对所述文本翻译器进行加权平均优化。
5.一种专业领域文本语义解析方法,其特征在于,包括:
接收原始的专业领域文本;
对所述专业领域文本进行句...
【专利技术属性】
技术研发人员:张兆银,李直旭,吴自成,顾宏晔,李慧真,葛东来,
申请(专利权)人:科大讯飞苏州科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。