【技术实现步骤摘要】
样本生成方法及装置、计算机可读存储介质和电子设备
本公开涉及文本搜索
,具体而言,涉及一种样本生成方法、样本生成装置、计算机可读存储介质和电子设备。
技术介绍
搜索系统是指从因特网或数据库中搜寻信息并整理后提供给用户的系统。在搜索的过程中,用户的需求通常通过用户输入搜索框的搜索语句来体现,而搜索系统的一大核心任务就是充分理解用户输入的搜索语句,这其中涉及到搜索语句的实体识别。通常,可以借助模型来实现实体识别。然而,目前基于模型进行实体识别的方案存在识别不准确的问题。
技术实现思路
本公开提供一种样本生成方法、样本生成装置、计算机可读存储介质和电子设备,进而至少在一定程度上克服搜索中实体识别不准确的问题。根据本公开的第一方面,提供了一种样本生成方法,包括:获取第一样本,并确定第一样本中实体的类别属性信息;根据第一样本以及第一样本中实体的类别属性信息,生成与第一样本对应的样本模板,样本模板中与实体对应的位置被配置为槽位置;获取与实体的类别属性信息对应的实体词典;将实体词典中的实体配置于槽 ...
【技术保护点】
1.一种样本生成方法,其特征在于,包括:/n获取第一样本,并确定所述第一样本中实体的类别属性信息;/n根据所述第一样本以及所述第一样本中实体的类别属性信息,生成与所述第一样本对应的样本模板,所述样本模板中与所述实体对应的位置被配置为槽位置;/n获取与所述实体的类别属性信息对应的实体词典;/n将所述实体词典中的实体配置于所述槽位置处,以生成第二样本。/n
【技术特征摘要】
1.一种样本生成方法,其特征在于,包括:
获取第一样本,并确定所述第一样本中实体的类别属性信息;
根据所述第一样本以及所述第一样本中实体的类别属性信息,生成与所述第一样本对应的样本模板,所述样本模板中与所述实体对应的位置被配置为槽位置;
获取与所述实体的类别属性信息对应的实体词典;
将所述实体词典中的实体配置于所述槽位置处,以生成第二样本。
2.根据权利要求1所述的样本生成方法,其特征在于,获取第一样本包括:
从用户日志中获取第一样本。
3.根据权利要求1或2所述的样本生成方法,其特征在于,确定所述第一样本中实体的类别属性信息包括:
将所述第一样本与标注词典中的词句进行比较;
确定所述第一样本中与所述标注词典中的词句匹配的文本部分,作为所述第一样本中的实体;
获取所述标注词典中的所述词句的类别属性信息,作为所述第一样本中实体的类别属性信息。
4.根据权利要求1所述的样本生成方法,其特征在于,所述第一样本为获取到的多个初始样本之一,在获取与所述实体的类别属性信息对应的实体词典之前,所述样本生成方法还包括:
确定所述多个初始样本对应的样本模板中,与所述第一样本对应的样本模板相同的模板的数量;
其中,在与所述第一样本对应的样本模板相同的模板的数量满足预定要求的情况下,获取与所述实体的类别属性信息对应的实体词典。
5.根据权利要求4所述的样本生成方法,其特征在于,所述样本生成方法还包括:
计算与所述第一样本对应的样本模板相同的模板的数量,与所述多个初始样本的数量的比值;...
【专利技术属性】
技术研发人员:曾冠荣,
申请(专利权)人:深圳市欢太科技有限公司,OPPO广东移动通信有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。