一种数据采集处理方法、系统、电子设备及介质技术方案

技术编号:29673447 阅读:20 留言:0更新日期:2021-08-13 21:55
本发明专利技术提供了一种数据采集处理方法、系统、电子设备及介质,该方法通过按照预设问答模板对目标用户进行初次询问,并获取目标用户的初次回答文本,对初次回答文本进行分词处理,得到若干个初次回答词,将初次回答词与各标准回答词进行比对,得到初次回答词与标准回答词之间的相关度,若存在至少一个相关度高于预设相关度阈值,将初次回答词替换为目标回答词,并填写入表单,可以实现数据采集处理的标准化,便于后续数据查看、处理、节约人力、时间、资源。

【技术实现步骤摘要】
一种数据采集处理方法、系统、电子设备及介质
本专利技术涉及数据处理
,尤其涉及一种数据采集处理方法、系统、电子设备及介质。
技术介绍
随着社会发展节奏的加快,人们事务处理效率有了更高的要求,在一些场景下,例如信息收集过程中,由于用户的非专业性,往往在谈论或回答一些问题时会夹杂着大量的“水话”、停顿、口头语和“非正式用语”,使得沟通效率较差。此外,在信息收集的过程中,往往是通过人工“一对一”的进行信息采集,将采集到的相关信息填写入事先制定好的表单之中,但一方面不同的人可能对同一件事情的描述存在一定差异,填写好的表单仍然具有一定的个性化表现,不利于后续的数据查看以及数据处理,另一方面也将会耗费大量的时间人力,造成资源浪费。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术提供一种数据采集处理方法、系统、电子设备及介质,以解决相关技术中通过人工进行信息采集填写的表单存在差异性、不利于后续数据查看、数据处理、耗费时间人力、浪费资源的技术问题。本专利技术提供的一种数据采集处理方法,所述方法包括:按照预本文档来自技高网...

【技术保护点】
1.一种数据采集处理方法,其特征在于,所述方法包括:/n按照预设问答模板对目标用户进行初次询问,并获取所述目标用户的初次回答文本;/n对所述初次回答文本进行分词处理,得到若干个初次回答词;/n获取所述预设问答模板对应的标准词库,所述标准词库包括若干个所述预设问答模板的标准回答词;/n将所述初次回答词与各所述标准回答词进行比对,得到所述初次回答词与所述标准回答词之间的相关度;/n若存在至少一个所述相关度高于预设相关度阈值,将所述初次回答词替换为目标回答词,并确定所述目标回答词的词置信度,所述目标回答词包括与所述初次回答词相似度最高的所述标准回答词,所述词置信度根据所述相关度、所述预设相关度阈值、...

【技术特征摘要】
1.一种数据采集处理方法,其特征在于,所述方法包括:
按照预设问答模板对目标用户进行初次询问,并获取所述目标用户的初次回答文本;
对所述初次回答文本进行分词处理,得到若干个初次回答词;
获取所述预设问答模板对应的标准词库,所述标准词库包括若干个所述预设问答模板的标准回答词;
将所述初次回答词与各所述标准回答词进行比对,得到所述初次回答词与所述标准回答词之间的相关度;
若存在至少一个所述相关度高于预设相关度阈值,将所述初次回答词替换为目标回答词,并确定所述目标回答词的词置信度,所述目标回答词包括与所述初次回答词相似度最高的所述标准回答词,所述词置信度根据所述相关度、所述预设相关度阈值、预设目标回答词影响因子中至少之一确定;
将所述目标回答词填写入表单,并根据各所述词置信度确定所述表单的表单置信度。


2.如权利要求1所述的数据采集处理方法,其特征在于,所述将所述目标回答词填写入表单之前,所述方法还包括:
获取所述目标回答词所对应的所述标准回答词的属性信息,所述属性信息包括关键词、描述词以及描述词类别,将所述属性信息包括关键词的所述目标回答词作为关键回答词,将所述属性信息包括描述词的所述目标回答词作为描述回答词;
根据所述目标回答词所对应的所述初次回答文本的语句信息,对所述目标回答词进行分句处理,得到若干个标准化语句;
将包括有相同关键回答词的所述标准化语句进行合并处理,保留一个所述关键回答词,得到简化语句,并将所述简化语句填写入表单。


3.如权利要求2所述的数据采集处理方法,其特征在于,将所述简化语句填写入表单之前,所述方法还包括:
获取所述简化语句中的所述描述词类别,并与预设描述词类别进行比对,以确定缺失描述词类别;
根据所述缺失描述词类别和所述简化语句中的关键回答词确定补充问答模板,并对所述目标用户进行补充询问,获取补充回答文本;
对所述补充回答文本进行分词处理,得到若干个补充回答词;
将所述补充回答词与各所述标准回答词进行比对,得到所述补充回答词与所述标准回答词之间的相关度;
若存在至少一个所述相关度高于预设相关度阈值,将所述补充回答词替换为目标回答词,所述目标回答词包括与所述补充回答词相似度最高的所述标准回答词;
将所述目标回答词增加到所述简化语句。


4.如权利要求2所述的数据采集处理方法,其特征在于,将所述简化语句填写入表单之前,所述方法还包括:
根据各所述简化语句中的关键回答词在预设关键回答词关联词库中确定关联关键回答词;
根据所述关联关键回答词确定补充问答模板,并对所述目标用户进行补充询问,获取补充回答文本;
根据所述补充回答文本生成所述简化语句。


5.如权利要求1-4任一项所述的数据采集处理方法,其特征在于...

【专利技术属性】
技术研发人员:姚娟娟樊代明钟南山
申请(专利权)人:明品云北京数据科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1