数据查询方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号：22308284 阅读：11 留言：0更新日期：2019-10-16 08:23

本公开关于一种数据查询方法、装置、计算机设备及计算机可读存储介质，属于计算机技术领域。本公开通过对第一初始模型进行训练，得到第一识别模型，并应用该第一识别模型生成训练数据，基于该训练数据对第二初始模型进行训练，得到第二识别模型，当检测到文本信息输入时，应用该第二识别模型对用户输入的文本信息进行特征提取，基于提取到的文本特征输出该文本信息所对应的标签，计算机设备可以基于该标签进行数据查询。由于该第二识别模型的架构相较于该第一识别模型的架构更简化，因此该第二识别模型的运算速度比该第一识别模型的运算速度更快，即应用该第二识别模型，可以缩短文本分析阶段的耗时，降低数据查询的延时，提高数据查询效率。

Data query method, device, computer equipment and computer readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
数据查询方法、装置、计算机设备及计算机可读存储介质
本公开涉及计算机
，特别涉及一种数据查询方法、装置、计算机设备及计算机可读存储介质。
技术介绍
随着互联网技术的发展，网络中的数据量日益增大，如何根据用户需求，对网络中的海量数据进行查询，获取到用户需要的数据，成为当前的一个重要研究方向。目前，在进行数据查询时，通常会应用BERT(BidirectionalEncoderRepresentationsfromTransformers，Transformers(转换器)的双向编码表示)模型，对用户输入的一段文本信息进行分析，来获取该文本信息对应的类别或该文本信息中包含的关键词，从而基于该类别或该关键词进行数据查询。但是，由于BERT模型中包含的运算层较多，导致模型的复杂度较高，使得在应用该模型分析文本信息时，数据运算的复杂度较高，运算时间较长，进而导致在进行在线数据查询时，返回查询结果的延时较长，数据查询效率较低。
技术实现思路
本公开提供了一种数据查询方法、装置、计算机设备及计算机可读存储介质，可以解决相关技术中获取查询结果的耗时较长，数据查询效率低的问题。该技术方案如下：一方面，提供了一种数据查询方法，该方法包括：基于第一训练数据集对第一初始模型进行训练，得到第一识别模型，该第一识别模型为转换器的双向编码表示模型，该第一训练数据集包括多个已标注的第一文本数据；获取第二训练数据集，该第二训练数据集包括多个未标注的第二文本数据；将该第二训练数据集中各个第二文本数据输入该第一识别模型，得到该各个第二文本数据对应的标签；基于该各个第二文本数据对应的标签对该各个...

【技术保护点】
1.一种数据查询方法，其特征在于，所述方法包括：基于第一训练数据集对第一初始模型进行训练，得到第一识别模型，所述第一识别模型为转换器的双向编码表示模型，所述第一训练数据集包括多个已标注的第一文本数据；获取第二训练数据集，所述第二训练数据集包括多个未标注的第二文本数据；将所述第二训练数据集中各个第二文本数据输入所述第一识别模型，得到所述各个第二文本数据对应的标签；基于所述各个第二文本数据对应的标签对所述各个第二文本数据进行标注，得到包括已标注的第二文本数据的第三训练数据集；基于所述第三训练数据集对第二初始模型进行训练，得到第二识别模型，所述第二识别模型为快速文本模型或迭代膨胀卷积神经网络‑条件随机场模型，所述第二识别模型的模型架构相较于所述第一识别模型的模型架构更简化；当检测到文本信息输入时，通过所述第二识别模型，对所述文本信息进行特征提取，得到文本特征，基于所述文本特征输出所述文本信息的至少一个标签；基于所述至少一个标签，进行数据查询。

【技术特征摘要】
1.一种数据查询方法，其特征在于，所述方法包括：基于第一训练数据集对第一初始模型进行训练，得到第一识别模型，所述第一识别模型为转换器的双向编码表示模型，所述第一训练数据集包括多个已标注的第一文本数据；获取第二训练数据集，所述第二训练数据集包括多个未标注的第二文本数据；将所述第二训练数据集中各个第二文本数据输入所述第一识别模型，得到所述各个第二文本数据对应的标签；基于所述各个第二文本数据对应的标签对所述各个第二文本数据进行标注，得到包括已标注的第二文本数据的第三训练数据集；基于所述第三训练数据集对第二初始模型进行训练，得到第二识别模型，所述第二识别模型为快速文本模型或迭代膨胀卷积神经网络-条件随机场模型，所述第二识别模型的模型架构相较于所述第一识别模型的模型架构更简化；当检测到文本信息输入时，通过所述第二识别模型，对所述文本信息进行特征提取，得到文本特征，基于所述文本特征输出所述文本信息的至少一个标签；基于所述至少一个标签，进行数据查询。2.根据权利要求1所述的方法，其特征在于，所述基于所述第三训练数据集对第二初始模型进行训练，得到第二识别模型包括：将所述第一训练数据集和所述第三训练数据集作为训练数据，来对所述第二初始模型进行训练，得到所述第二识别模型。3.根据权利要求2所述的方法，其特征在于，所述基于所述第三训练数据集对第二初始模型进行训练，得到第二识别模型之前，所述方法还包括：从所述第三训练数据集中，筛选掉标签对应的概率值小于目标阈值的第二文本数据。4.根据权利要求1所述的方法，其特征在于，所述各个第二文本数据对应的标签是指下述任一种标签：用于指示所述文本数据对应类别的类别标签；用于指示所述文本数据中所包含的命名实体的实体标签。5.一种数据查询装置，其特征在于，所述装置包括：第一识别模型获取模块，用于基于第一训练数据集对第一初始模型进行训练，得到第一识别模型，所述第一识别模型为转换器的双向编码表示模型，所述第一训练数据集包括多个已标注的第一文本数据；第一数据...

【专利技术属性】
技术研发人员：李鹏，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人