【技术实现步骤摘要】
一种文本类型确定方法及装置
本专利技术涉及文本处理领域,尤其涉及一种文本类型确定方法及装置。
技术介绍
随着通信技术的发展,越来越多的人拥有了通信设备。通过通信设备,用户之间可以方便的进行对话。用户之间的对话常携带有大量的有用信息,例如:可以对某角色的对话进行分类。当获得该角色的对话内容后,可以根据该对话内容确定该角色的对话的类型。例如:专利代理师常需要和专利委托方进行电话沟通,则可以将专利代理师的对话内容进行分类,例如:分为:沟通电学领域技术方案、沟通化学领域技术方案、沟通机械领域技术方案、沟通生物领域技术方案等。上述对话内容类型,对于后续进行对话的统计分析十分重要,但是现在还没有确定对话的对话内容类型的方法。
技术实现思路
鉴于上述问题,本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种文本类型确定方法及装置,技术方案如下:一种文本类型确定方法,包括:获得待检测对话文本;通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本; ...
【技术保护点】
1.一种文本类型确定方法,其特征在于,包括:/n获得待检测对话文本;/n通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;/n对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;/n将确定的预设文本类型确定为该文本的文本类型。/n
【技术特征摘要】
1.一种文本类型确定方法,其特征在于,包括:
获得待检测对话文本;
通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;
对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;
将确定的预设文本类型确定为该文本的文本类型。
2.根据权利要求1所述的方法,其特征在于,所述获得待检测对话文本包括:
获得对话语音;
对所述对话语音进行语音识别,获得语音识别结果;
将所述语音识别结果转化为待检测对话文本。
3.根据权利要求1所述的方法,其特征在于,所述获得该文本对应的词组向量,包括:
对该文本进行结巴分词处理,获得分词结果向量;
对所述分词结果向量进行停用词过滤处理,获得词组向量。
4.根据权利要求1所述的方法,其特征在于,所述场景分类模型的训练过程可以包括:
获得携带有场景类别标记的训练对话文本;
对所述训练对话文本进行结巴分词处理,获得训练分词结果向量;
对所述训练分词结果向量进行停用词过滤处理,获得训练词组向量;
对所述训练词组向量进行机器学习,获得场景分类模型,其中,所述场景分类模型的输入为:文本对应的词组向量,输出为:与该文本对应的场景类型。
5.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
在所述场景类型对应的每种预设文本类型的词库:确定该文本是否包含该词库中的词汇,如果是,则确定该文本与该预设文本类型匹配。
6.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
在所述场景类型对应的每种预设文本类型的文本模板库:确定该文本与该文本模...
【专利技术属性】
技术研发人员:秦艳婷,李思雯,陈健,
申请(专利权)人:慧择保险经纪有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。