模型训练方法、文本识别方法、装置及计算设备制造方法及图纸

技术编号:23484976 阅读:30 留言:0更新日期:2020-03-10 12:36
本申请实施例提供一种模型训练方法、文本识别方法、装置及计算设备。其中,进行模型训练时,基于其语义信息生成目标训练文本的语义级别特征,从而将目标训练文本的词级别特征以及语义级别特征融合获得文本特征,在基于目标训练文本的文本特征,训练文本识别模型,训练获得的文本识别模型可以具体基于待处理文本的文本特征进行文本识别,待处理文本的文本特征由其语义级别特征以及词级别特征融合获得,本申请实施例中在原有词级别特征基础上,加入语义级别特征,使得文本识别模型可以从语义上进行文本识别,提高了模型识别准确度。

Model training method, text recognition method, device and computing equipment

【技术实现步骤摘要】
模型训练方法、文本识别方法、装置及计算设备
本申请实施例涉及计算机应用
,尤其涉及一种模型训练方法、文本识别方法、装置及计算设备。
技术介绍
随着人机交互技术的发展,人机对话在诸多场景中得到了广泛应用,所谓人机对话也即是基于用户输入语句,能够智能输出相应的应答内容,看起来像是用户与设备进行了对话。目前实现人机对话的方案中,通常是将用户输入语句与知识库中的<Q,A>数据进行匹配,其中,Q为知识库中的知识点,也即采用标准术语表述的标准文本,A为知识点对应的应答内容,基于相似度可以从知识库中查找与用户输入语句匹配的知识点,从而即可以找到对应的应答内容。因此,如何准确识别与用户输入语句匹配的知识点,是提高人机对话准确度的关键技术,现有的一种方式是采用机器学习模型来进行识别,使用机器学习模型进行文本识别时,需要将文本转换为向量表示,常见方式是将文本进行分词,再采用诸如one-hot(独热编码)等方式进行编码获得词级别特征,词级别特征即作为文本的向量表示输入至机器学习模型中,但是词级别特征往往忽略了词与词之间的关联,因此就本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,包括:/n确定目标训练文本对应的词级别特征;/n基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;/n将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;/n利用所述目标训练文本的文本特征,训练文本识别模型。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:
确定目标训练文本对应的词级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。


2.根据权利要求1所述的方法,其特征在于,所述基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征包括:
确定所述目标训练文本所属目标类别对应的多个训练文本;
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集;
从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集;
将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本语义信息的至少一个语义单元;
基于所述至少一个语义单元,确定所述目标训练文本的语义级别特征。


3.根据权利要求2所述的方法,其特征在于,所述将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集包括:
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个备选频繁项集;
确定每个备选频繁项集相对于所述至少一个备选频繁项集的信息增益;
基于每个备选频繁项集的信息增益,从所述至少一个备选频繁项集中筛选获得至少一个频繁项集。


4.根据权利要求2所述的方法,其特征在于,所述将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集包括:
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个备选频繁项集;
从所述至少一个备选频繁项集中,筛选项数目大于特定阈值的至少一个频繁项集。


5.根据权利要求2所述的方法,其特征在于,所述将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本的语义信息的至少一个语义单元包括:
将每个目标频繁项集中的项,按照在所述目标训练文本中的出现顺序组合得到一个语义单元,以获得表示所述目标训练文本的语义信息的至少一个语义单元。


6.根据权利要求2所述的方法,其特征在于,所述从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集包括:
从所述至少一个频繁项集中,选择每个项均包含于所述目标训练文本中的频繁项集作为目标训练文本命中的目标频繁项集,以获得至少一个目标频繁项集。


7.根据权利要求1所述的方法,其特征在于,所述确定所述目标训练文本的语义信息对应的语义级别特征包括:
利用主题模型识别所述目标训练文本对应的主题分布概率;
将所述目标训练文本对应的主题分布概率作为所述目标训练文本的语义级别特征。


8.根据权利要求1所述的方法,其特征在于,还包括:
基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征;
基于所述目标训练文本的N元分词,确定所述目标训练文本的N元模型级别特征;
所述将所述目标训练文本的语义级别特征与词级别特征融合获得所述目标训练文本的文本特征包括:
将所述目标训练文本的语义级别特征、字符级别特征、N元模型级别特征以及词级别特征融合获得所述目标训练文本的文本特征。


9.根据权利要求8所述的方法,其特征在于,所述确定所述目标训练文本的词级别特征包括:
将所述目标训练文本的词作为离散特征,编码获得词级别特征;
所述基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征包括:
将所述目标训练文本的字符作为离散特征,编码获得字符级别特征;
所述基于所述目标训练文本的N元分词,确定所述目标训练文本的N元模型级别特征包括:
将所述目标训练文本的N元分词作为离散特征,编码获得N元模型级别特征。


10.根据权利要求1所述的方法,其特征在于,还包括:
确定文本库中预定数量的标准文本;
确定每个标准文本的词级别特征;
基于每个标准文本的语义信息,确定每个标准文本的语义级别特征;
将每个标准文本的语义级别特征与词级别特征融合获得每个标准文本的文本特征;
所述利用所述目标训练文本的文本特征,训练文本识别模型包括:
将所述目标训练文本的文本特征以及所述预定数量的标准文本各自的文本特征作为输入样本,以及将所述目标训练文本分别与所述预定数量的标准文本的匹配概率作为训练结果,训练获得文本识别模型;
所述文本识别模型用于从所述文本库中识别与待处理文本匹配的目标文本。


11.根据权利要求10所述的方法,其特征在于,所述确定文本库中的预定数量的标准文本包括:
从文本库中筛选与所述目标训练文本的相似度满足相似条件的预定数量的标准文本。


12.根据权利要求1所述的方法,其特征在于,所述将所述目标训练文本的语义级别特征与词级别特征融合获得所述目标训练文本的文本特征包括:
将所述目标训练文本的语义级别特征与词级别特征拼接获得所述目标训练文本的文本特征。


13.一种文本识别方法,其特征在于,包括:
确定待处理文本的词级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的词级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。


14.根据权利要求13所述的方法,其特征在于,所述基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征包括:
从不同类别各自对应的至少一个频繁项集中,确定所述待处理文本命中的至少一个候选频繁项集;
将所述待处理文本命中的每个候选频繁项集中的项组合得到一个语义单元,以获得表示所述待处理文本语义信息的至少一个语义单元;
基于所述...

【专利技术属性】
技术研发人员:任巨伟赵伟朋周伟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1