语料泛化方法及用于工业领域的人机对话情感分析方法技术

技术编号:28623312 阅读:24 留言:0更新日期:2021-05-28 16:19
本发明专利技术提供一种语料泛化方法及用于工业领域的人机对话情感分析方法。语料泛化方法包括:获取工业领域的初始文本语料,并对初始文本语料中的实体词进行替换,得到第一类文本语料;对初始文本语料和/或第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;对初始文本语料、第一类文本语料以及第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对至少一项进行句式变换,得到第三类文本语料;基于第一类文本语料、第二类文本语料以及第三类文本语料中的至少两项,对初始文本语料进行泛化。通过上述方法,可以完成工业领域中人机对话等功能所需要的文本语料的扩充。

【技术实现步骤摘要】
语料泛化方法及用于工业领域的人机对话情感分析方法
本专利技术涉及数据处理
,尤其涉及一种语料泛化方法及用于工业领域的人机对话情感分析方法。
技术介绍
在工业等相关专业领域中实现人机交互、聊天对话等功能需要大量的语料数据作为支撑进行模型训练和效果评估,而这些场景往往很难积累相关的语料。因此,需要进行语料泛化,以增加用于模型训练和效果评估的语料。语料泛化是指将某个特定的句子,扩展为具有相同含义或者类似场景中的一类句子,目前,通常采用人工定义固定应用场景的句式模板的方式进行语料泛化。这种通过人工定义句式模板的方式对应用场景和效果都会有很大的局限性。
技术实现思路
本专利技术提供一种语料泛化方法及用于工业领域的人机对话情感分析方法,用以解决现有技术中通过人工定义句式模板进行语料泛化具有很大局限性的缺陷,实现工业领域的人机对话中的语料泛化。本专利技术提供一种语料泛化方法,包括:获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;对所述初始文本语料和/或所述第一类本文档来自技高网...

【技术保护点】
1.一种语料泛化方法,其特征在于,包括:/n获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;/n对所述初始文本语料和/或所述第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;/n对所述初始文本语料、所述第一类文本语料以及所述第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对所述至少一项进行句式变换,得到第三类文本语料;/n基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化。/n

【技术特征摘要】
1.一种语料泛化方法,其特征在于,包括:
获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;
对所述初始文本语料和/或所述第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;
对所述初始文本语料、所述第一类文本语料以及所述第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对所述至少一项进行句式变换,得到第三类文本语料;
基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化。


2.根据权利要求1所述的语料泛化方法,其特征在于,所述对所述初始文本语料中的实体词进行替换,之前还包括:
构建与所述初始文本语料具有相同业务场景的实体词典;
基于实体识别模型和/或所述实体词典,识别所述初始文本语料中的实体词;所述实体识别模型基于携带有实体词标签的文本语料训练得到。


3.根据权利要求2所述的语料泛化方法,其特征在于,所述对所述初始文本语料中的实体词进行替换,具体包括:
确定所述初始文本语料中的实体词对应的实体槽;
基于所述初始文本语料中的实体词与所述实体词典中各实体词的相似度,选取所述实体词典中的实体词对所述实体槽进行填充。


4.根据权利要求1所述的语料泛化方法,其特征在于,所述基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料,之前还包括:
确定分词处理得到的词语中属于目标词性的目标词语;
基于词向量模型,计算所述目标词语的近义词;
相应的,所述基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料,具体包括:
基于所述目标词语的近义词,对所述目标词语进行替换,得到所述第二类文本语料。


5.根据权利要求1所述的语料泛化方法,其特征在于,所述获取工业领域的初始文本语料,之后还包括:
获取所述初始文本语料的目标模板;
对所述目标模板进行填充,确定第四类文本语料;
相应地,所述基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料,对所述初始文本语料进行泛化,具体包括:
基于所述第一类文本语料、所述第二类文本语料、所述第三类文本语料以及所述第四类文本语料...

【专利技术属性】
技术研发人员:王健健蒋华晨刘扬
申请(专利权)人:三一重工股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1