【技术实现步骤摘要】
模型训练方法及装置和语句业务类型的识别方法及装置
本申请涉及文本处理领域,具体而言,涉及一种模型训练方法及装置和语句业务类型的识别方法及装置。
技术介绍
目前,计算机系统能够识别出用户咨询的问题,并确定出用户所要咨询的业务类型,业务类型是指该计算机系统所提供的业务的类型,例如,某网站业务分为交通、旅游等类型。计算机系统识别出用户咨询的业务类型之后,会搜索相关的信息以对用户进行答复,例如,当用户在线咨询“故宫怎么去?”计算机系统识别信息类型,回复交通类业务的信息,并进入相关流程,如调用地图等;而当用户咨询“故宫门票多少钱”,计算机系统应回复旅游类业务信息。对于用户咨询的业务类型的识别,目前主要是对用户输入的文本进行识别,对文本的语句中关键词匹配,输出关键词相关结果,然而,这种通过关键词来识别语句对应的业务类型的方式,通常是将与该关键词相关的所有业务类型输出,而非语句的业务类型,导致识别准确性低,例如将“故宫怎么去?”可能识别出“故宫”,然后输出旅游类或者门票类信息等各种业务类型信息。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种模型训 ...
【技术保护点】
一种模型训练方法,其特征在于,包括:采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定所述第一训练集中每条语句对应的语句向量,其中,所述语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,所述支持向量机的训练模型用于识别语句的业务类型。
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定所述第一训练集中每条语句对应的语句向量,其中,所述语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,所述支持向量机的训练模型用于识别语句的业务类型。2.根据权利要求1所述的模型训练方法,其特征在于,利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型包括:对于所述多个业务类型中每个业务类型,分别执行以下步骤,直到训练得到每个业务类型对应的支持向量机的训练模型:将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为所述多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。3.根据权利要求1所述的模型训练方法,其特征在于,确定所述第一训练集中每条语句对应的语句向量包括:对所述第一训练集中每条语句进行分词处理;查找每条语句分词后每个词语对应的词向量,其中,所述词向量为用于唯一表示对应的词语的多维数组;根据每条语句中每个词语对应的词向量确定出相应语句的语句向量。4.根据权利要求3所述的模型训练方法,其特征在于,在查找每条语句分词后每个词语对应的词向量之前,所述模型训练方法还包括:采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息集合;利用机器学习方式生成所述文本信息集合中每个词语的词向量,得到每个业务类型的词向量集合;其中,查找每条语句分词后每个词语对应的词向量包括:从每个业务类型的词向量集合查找出所述分词后每个词语对应的词向量。5.一种语句业务类型的识别方法,其特征在于,包括:确定待测语句对应的语句向量;将待测语句对应的语句向量输入到权利要求1至4中任一项所述的模型训练方法训练得到的支持向量机的训练模型中,利用所述支持向量机的训练模型识别出...
【专利技术属性】
技术研发人员:刘粉香,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。