训练文件生成及评价方法、装置、计算机系统及存储介质制造方法及图纸

技术编号:25399080 阅读:39 留言:0更新日期:2020-08-25 23:04
本发明专利技术公开了训练文件生成及评价方法、装置、计算机系统及存储介质,包括:接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件;通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件;将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。本发明专利技术实现了自动获得训练文件的技术效果,保证了训练文件的生成质量和生成速度,解决了当前无法获知训练样本真实的命中率,导致训练样本的标注质量无法得到保证的问题。

【技术实现步骤摘要】
训练文件生成及评价方法、装置、计算机系统及存储介质
本专利技术涉及机器学习
,尤其涉及一种训练文件生成及评价方法、装置、计算机系统及存储介质。
技术介绍
机器学习模型是一种通过从大量历史数据中挖掘出其中隐含的规律,实现预测或者分类的算法的总称,具体表现为通过接收样本数据,并通过其自身的函数进行运算以输出预测结果或分类结果;在智能搜索领域,目前,通常采用具有标注的样本文件对基于机器学习模型构建的智能搜索模型进行训练,以获得能够准确理解样本数据,并根据该数据获得准确的检索结果的成熟模型。因此,高质量的样本文件对于训练智能搜索模型来说是至关重要的;然而,由于当前训练文件的生成方法无法获知训练样本真实的命中率,导致训练样本的标注质量无法得到保证,因此造成了无法快速准确的训练智能搜索模型的局面。
技术实现思路
本专利技术的目的是提供一种训练文件生成及评价方法、装置、计算机系统及存储介质,用于解决现有技术存在的无法获知训练样本真实的命中率,导致训练样本的标注质量无法得到保证的问题。为实现上述目的,本专利技术提供一种本文档来自技高网...

【技术保护点】
1.一种训练文件生成及评价方法,其特征在于,包括:/n标注服务器接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器;其中,所述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中的命名实体;/n所述识别服务器通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件,将所述训练文件发送命中服务器;/n所述命中服务器具有智能搜索模型和命中分析算法,所述命中服务器将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训...

【技术特征摘要】
1.一种训练文件生成及评价方法,其特征在于,包括:
标注服务器接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器;其中,所述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中的命名实体;
所述识别服务器通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件,将所述训练文件发送命中服务器;
所述命中服务器具有智能搜索模型和命中分析算法,所述命中服务器将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。


2.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述接收原始文件并获取所述原始文件的领域信息和训练实体包括:
获取原始文件,对所述原始文件进行领域识别获得领域信息,对所述原始文件进行实体识别获得独立实体;
通过预设的关系清单获得独立实体的编码,并将其与所述独立实体关联;
根据预设的关系规则判断相邻的两个独立实体是否具有关联关系;若具有关联关系,则合并所述两个独立实体形成关联实体,并识别下一相邻的两个独立实体是否具有关联关系;若不具有关联关系,则识别下一相邻的两个独立实体是否具有关联关系;
将所述独立实体和关联实体设为训练实体。


3.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述根据所述领域信息和训练实体处理所述原始文件获得标注文件包括:
根据所述训练实体标注所述原始文件获得标注处理文件;
将所述领域信息载入所述标注处理文件获得标注文件。


4.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述识别所述标注文件的语义,并对其进行序列标注获得训练文件包括:
对所述标注文件进行语义识别获得查询意图;
根据标注文件中的编码对所述标注文件进行槽值填充,以实现对所述标注文件中的训练实体的序列标注;
汇总所述查询意图以及具有序列标注的标注文件形成训练文件。


5.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果包括:
根据所述训练文件的领域信息在生产环境中选择对应的智能搜索模型,将所述训练文件录入所述智能搜索模型;
所述智能搜索模型根据所述训练文件的查询意图和标注文件获得训练结果。


6.根...

【专利技术属性】
技术研发人员:王巍
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1