【技术实现步骤摘要】
对话信息完整性判断方法、装置、电子设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种对话信息完整性判断方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]随着信息时代特别是网络时代的到来,人们生活的方方面面越来越依赖互联网,任何信息都是数据。互联网便利了的我们生活,例如:可以在网上预约医生,不用特意去医院挂号问诊;利用网购可以解决我们购置物品的需求。当获取完整信息时,对信息进行整合分析,方可充分了解用户的需求,以便更好的按照用户意愿提供服务。
[0003]互联网上涌现的海量文本数据,既带来了丰富的语料资源,同时也使文本感知、分析和处理面临了巨大的挑战。大数据时代信息的冗余导致人们获取信息的精准度较低,信息的完整性难以把控。在大多数企业的应用系统中,用户和企业间的对话采取一问一答的形式,无法自动进入下一程序,而且所获得的对话信息要么缺失,要么重复,系统无法适时的判断对话信息是否完整。因此提高对话信息完整性判断的精准度,成为了亟待解决的问题。
技术实现思路
[0004] ...
【技术保护点】
【技术特征摘要】
1.一种对话信息完整性判断方法,其特征在于,所述方法包括:获取多轮次的对话信息,提取所述对话信息的词序列;对所述词序列进行向量化表征,得到主诉表征;获取与所述对话信息对应的理论文本,提取所述理论文本的关键词信息;对所述关键词信息进行赋权量化计算,得到每个所述关键词信息的权重,汇集所述权重大于预设权重的关键词信息为强关联内容集合;计算所述主诉表征和所述强关联内容集合的匹配值,根据所述匹配值和关联阈值判断所述对话信息是否完整。2.如权利要求1所述的对话信息完整性判断方法,其特征在于,所述提取所述对话信息的词序列,包括:生成所述对话信息的文本集合;利用预设的停用词表,过滤所述文本集合的停用词;对过滤后的文本集合进行去低频词处理;对去低频词处理后得到的文本集合进行分词处理,得到词序列。3.如权利要求1所述的对话信息完整性判断方法,其特征在于,所述对所述词序列进行向量化表征,得到主诉表征,包括:利用预先训练的语料模型,将每个所述词序列表征为n维的词向量;对所述词向量进行加权计算,得到所述词向量的权重值;按照预设的向量降维设定选取所述权重值最高的前N项为主诉表征。4.如权利要求1所述的对话信息完整性判断方法,其特征在于,所述提取所述理论文本的关键词信息,包括:随机选取部分所述理论文本,生成被选取部分的所述理论文本的理论数据集,使用分层抽样将所述理论数据集分为训练集和测试集;对所述训练集进行停用词和分词处理,得到训练集语料;对所述测试集进行停用词和分词处理,得到测试集语料;根据所述训练集语料和所述测试集语料构建关键词提取模型,利用所述关键词提取模型提取所述理论文本的关键词信息。5.如权利要求4所述的对话信息完整性判断方法,其特征在于,所述根据所述训练集语料和所述测试集语料构建关键词提取模型,包括:构建所述训练集语料的语料矩阵,利用所述语料矩阵训练预设的关键词提取模型;构建所述测试集语料的语料矩阵,利用所述测试集语料验证所述关键词提取模型的正确率,直至所述正确率大于预设正确率阈值,得到训练完成的关键词提取模型。6.如权利要求1所述的对话信息完整性判断方法,其特征在于,所述对所述关键词信息进行赋权量化计算,得到每个所述关键词信息的权重,包...
【专利技术属性】
技术研发人员:骆加维,阮晓雯,陈远旭,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。