【技术实现步骤摘要】
文本处理方法、装置、设备及介质
本申请属于人机交互自然语言处理领域,尤其涉及一种文本处理方法、装置、设备及介质。
技术介绍
随着人工智能时代的来临,以智能客服为代表的一类智能对话技术也发展迅速,但是由于自然语言表达具有多样性和歧义性,使得同一文本可以表达出不同含义,使得智能客服系统无法识别文本所属领域,进而对该文本的回复信息也不够准确,因此,智能客服系统在与客户进行人机对话过程中,需要准确识别用户输入文本所属领域。在现有技术中,一般是针对领域知识库中的实体-属性、实体-关系-实体的三元信息进行建模,再由回归模型判断文本所对应的实体链接对象。但是,由于其过于依赖于知识库信息,且适用于长文本的语义环境。而在绝大多数智能客服系统的问答环境中,经常使用短文本表达,因此,导致现有技术中存在无法准确确定用户输入文本的所属领域,进而无法准确得到对用户输入文本进行回答的相关信息。
技术实现思路
本申请实施例提供一种文本处理方法、装置、设备及介质,可以准确确定用户输入文本的所属领域,进而可以准确得到对用户输入文本进行回答的相关信息。第一方面,本申请实施例提供一种文本处理方法,方法包括:获取待处理文本;将待处理文本输入至预先训练的文本处理模型中,确定待处理文本所属领域属于预设领域的概率;在概率大于预设阈值的情况下,从预设领域的知识库中确定对待处理文本进行回答的信息。在第一方面的一些实施例中,将待处理文本输入至预先训练的文本处理模型中,确定待处理文本所属领域属于预设领域的 ...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取待处理文本;/n将所述待处理文本输入至预先训练的文本处理模型中,确定所述待处理文本所属领域属于预设领域的概率;/n在所述概率大于预设阈值的情况下,从所述预设领域的知识库中确定对所述待处理文本进行回答的信息。/n
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入至预先训练的文本处理模型中,确定所述待处理文本所属领域属于预设领域的概率;
在所述概率大于预设阈值的情况下,从所述预设领域的知识库中确定对所述待处理文本进行回答的信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入至预先训练的文本处理模型中,确定所述待处理文本所属领域属于预设领域的概率,包括:
将所述待处理文本输入至预先训练的文本处理模型中的第一网络,确定至少一个标有特征标记的文本编码向量,所述特征标记用于表示所述文本编码向量的语义特征;
将所述至少一个文本编码向量输入至预先训练的文本处理模型中的第二网络,确定与所述至少一个文本编码向量对应的至少一个待处理词语、与每个所述待处理词语对应的词语开始位置和词语结束位置;
将所述至少一个文本编码向量、所述至少一个待处理词语、与每个所述待处理词语对应的词语开始位置和词语结束位置输入至预先训练的文本处理模型中的第三网络,确定所述待处理文本所属领域属于预设领域的概率。
3.根据权利要求2所述的方法,其特征在于,在所述获取待处理文本之前,所述方法还包括:
获取训练样本集,所述训练样本集中包括多个待处理文本样本组,每一个待处理文本样本组包括待处理文本样本及其对应的标签概率;
利用所述训练样本集中的待处理文本样本组训练预设的文本处理模型,直至满足训练停止条件,得到训练后的文本处理模型。
4.根据权利要求3所述的方法,其特征在于,所述利用所述训练样本集中的待处理文本样本组训练预设的文本处理模型,直至满足训练停止条件,得到训练后的文本处理模型,具体包括:
对每个所述待处理文本样本组,分别执行以下步骤:
将所述待处理文本样本组输入至预设文本处理模型中的第一网络,确定与每一所述待处理文本样本对应的至少一个标有参考特征标记的参考文本编码向量,所述参考特征标记用于表示所述参考文本编码向量的语义特征;
将所述至少一个参考文本编码向量输入至预设文本处理模型中的第二网络,确定与所述至少一个参考文本编码向量对应的至少一个参考待处理词语、与每个所述参考待处理词语对应的参考词语开始位置和参考词语结束位置;
将所述至少一个参考文本编码向量、所述至少一个参考待处理词语、与每个所述参考待处理词语对应的参考词语开始位置和参考词语结束位置输入至预设文本处理模型中的第三...
【专利技术属性】
技术研发人员:王创,张瑜,高睿,魏卓,
申请(专利权)人:中国移动通信集团陕西有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。