语料自动化获取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：29940237 阅读：33 留言：0更新日期：2021-09-04 19:23

本发明专利技术公开了语料自动化获取方法、装置、计算机设备及存储介质，涉及人工智能技术，先根据语料库中每一预先标注了主题概率分布结果的文档对LDA模型进行训练得到LDA模型，之后该LDA模型用于根据所输入的对象的描述文本数据运算得到预测主题概率分布结果，最后根据预测主题概率分布结果在与语料库中筛选相同主题的语料组成第一目标语料子集并发送至用户端。通过LDA模型实现了对面试过程中所需语料的预测，并基于预测的预测主题自动筛选目标语料并推送，不仅提高了目标文本的获取效率，而且更及时的推送目标文本提高了实时性。且更及时的推送目标文本提高了实时性。且更及时的推送目标文本提高了实时性。

全部详细技术资料下载

【技术实现步骤摘要】
语料自动化获取方法、装置、计算机设备及存储介质

[0001]本专利技术涉及人工智能的语音语义
，尤其涉及一种语料自动化获取方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前，企业面试场景中，面试官都是基于一套固定的面试流程与面试者进行沟通或测试后，得到针对面试者的评估结果。这一过程中，面试官使用的话术和沟通素材可以是面试官所使用用户端上预先存储的文本，也可以是打印材料中提供的文本，通过这一方式用户需要预先操作用户端编辑文本或者是从数据库大量文本库中选定文本，之后再根据实际使用需求确定是否打印文本，这就导致文本的整理过程并不是用户端自动接收系统发送的文本，而是人为选定并存储的，使得文本的获取效率低下，而且实时性较差。

技术实现思路

[0003]本专利技术实施例提供了一种语料自动化获取方法、装置、计算机设备及存储介质，旨在解决现有技术中现场面试场景下面试官使用的话术和沟通素材可以是面试官所使用用户端上预先存储的文本，也可以是打印材料中提供的文本，文本的整理过程并不是用户端自动接收系统发送的文本，...

【技术保护点】

【技术特征摘要】
1.一种语料自动化获取方法，其特征在于，包括：获取语料库；其中，所述语料库中包括多篇文档；解析并获取文档的词频矩阵，对词频矩阵中的每一个元素矩阵进行随机主题编号，得到每一元素矩阵对应的主题编号；将文档中每一元素矩阵对应的主题编号作为待训练LDA模型的输入值，将文档的主题概率分布结果作为待训练LDA模型的输出值，计算得到待训练LDA模型的吉布斯采样模型及狄利克雷参数估计值，将所述吉布斯采样模型及狄利克雷参数估计值作为LDA模型的模型参数；其中，所述模型参数用于在采样过程中估出文档的主题概率分布结果，并根据所述主题概率分布结果中的高频主题进行语料推荐；接收第一用户端上传的对象清单，获取与对象清单中每一对象对应的描述文本数据；其中，每一对象的描述文本数据至少包括对象描述文本和对象画像标签；解析并获取与每一对象的描述文本数据相应的描述词频矩阵，将各描述词频矩阵输入至所述LDA模型进行运算，得到与描述文本数据对应的预测主题概率分布结果；根据与描述文本数据对应的预测主题概率分布结果，获取与描述文本数据分别对应的预测主题；以及在所述语料库中获取具有所述预测主题的语料，组成与预测主题对应的第一目标语料子集，将第一目标语料子集发送至第一用户端。2.根据权利要求1所述的语料自动化获取方法，其特征在于，所述在所述语料库中获取具有所述预测主题的语料，组成与预测主题对应的第一目标语料子集，将第一目标语料子集发送至第一用户端之后，还包括：若接收到第二用户端上传的学习需求数据，获取所述学习需求数据相应的需求词频矩阵，将需求词频矩阵输入至所述LDA模型进行运算，得到与所述需求词频矩阵对应的需求主题概率分布结果；根据所述需求主题概率分布结果中的最大概率值，获取与所述需求主题概率分布结果的需求预测主题。3.根据权利要求1所述的语料自动化获取方法，其特征在于，所述解析并获取文档的词频矩阵，包括：将每一文档分别依次进行分词，得到与每一文档分别对应的关键词集；获取每一关键词集中每一关键词对应的词语ID和词频，由每一关键词的词语ID和词频组成每一关键词的矩阵元素，由每一关键词的矩阵元素组成对应关键词集的词频矩阵。4.根据权利要求1所述的语料自动化获取方法，其特征在于，所述接收第一用户端上传的对象清单，获取与对象清单中每一对象对应的描述文本数据之前，还包括：若检测到用户端上传的对象初始沟通数据，获取所述对象初始沟通数据中包括的数据类型；其中，所述数据类型包括图片数据、语音数据、文本数据、视频数据中的一种或多种组合；若所述数据类型是语音数据，调用预先存储的语音识别模型，通过语音识别模型获取与所述初始沟通数据对应的第一识别文本数据；若所述数据类型是图片数据，调用预先存储的图像识别模型，通过图像识别模型获取与所述初始沟通数据对应的第二识别文本数据；若所述数据类型是文本数据，将所述对象初始沟通数据作为对应的第三识别文本数
据；若所述数据类型是视频数据，获取并分离得到对象初始沟通数据中的音频数据，调用预先存储的语音识别模型，通过语音识别模型获取与所述初始沟通数据对应的第四识别文本数据...

【专利技术属性】
技术研发人员：袁雅云，张莉，任杰，吴志成，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人