System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能(artificial intelligence,ai),尤其涉及一种资源处理方法以及资源处理装置。
技术介绍
1、在资源服务平台中,多个供应商提供的资源可能出现重复的情况中。以资源为酒店例,两个或两个以上的酒店供应商可能提供同一家酒店。在这种情况下,需要将同一资源识别出来,进行合并去重,避免涌现出同质的信息,干扰用户选择。
2、在相关技术中,采用计算资源的相似度的方法进行识别。具体是,根据两个资源的信息计算相似度,再根据预先设置的相似度阈值判断两个资源是否重复。但是,这种方法依赖于相似度算法和阈值,不仅很难确定最优的算法和阈值,算法还会出现判断错误的情况。
技术实现思路
1、本申请提供了一种资源处理方法以及资源处理装置,通过树形数据结构匹配的方法判断是否为重复资源,可以解决上述计算相似度的方法存在的问题。
2、第一方面,本申请提供了一种资源处理方法。该方法包括:确定第二供应商的第二资源的标识和属性信息;根据所述第二资源对应的多个特征的值在树形数据结构中进行匹配,所述第二资源对应的多个特征的值基于所述第二资源的属性信息确定,所述树形数据结构的根结点和中间结点基于所述多个特征和至少一个第一供应商的多个第一资源对应的多个特征的值确定,所述树形数据结构的叶结点为空集或者包括所述多个第一资源中的一个第一资源的标识;在匹配成功的情况中,根据目标资源的标识确定是否将所述第二资源的标识和属性信息加入资源库,所述目标资源的标识包括在所述树形数据结构中匹配到
3、上述方案中,树形数据结构预先基于多个第一资源确定,采用树形数据结构进行特征匹配的方式判断第二资源与多个第一资源是否重复,判断准确,可以解决相关技术中采用相似度计算方法带来的误差问题。同时,采用的树形数据结构通过无监督方式获得,以及不需要标注样本,降低了方案复杂度,方案简单易实现,使用门槛低,维护成本也较低。
4、结合第一方面,在一种可能的实施方式中,所述根结点和所述中间结点包括分裂特征和分裂特征的值,所述多个特征中包括所述根结点的分裂特征和所述中间结点的分裂特征,所述根结点的分裂特征的值基于所述根结点待处理的第一资源对应的多个特征的值确定,所述中间结点的分裂特征的值基于所述中间结点待处理的第一资源对应的多个特征的值确定,所述多个第一资源包括所述根结点待处理的第一资源和所述中间结点待处理的第一资源。
5、结合第一方面,在一种可能的实施方式中,所述方法还包括按照下述步骤确定所述树形数据结构的当前结点:在所述当前结点待处理的第一资源的数量大于1的情况中,在所述多个特征中选择一个特征作为所述当前结点的分裂特征,根据所述当前结点待处理的各个第一资源对应的分裂特征的值确定所述当前结点的分裂特征的值,将所述当前结点的分裂特征和分裂特征的值写入所述当前结点,其中,所述当前结点的分裂特征的值用于对所述当前结点待处理的第一资源进行划分,得到多个子集,每个子集包括所述当前结点的一个子结点待处理的第一资源的标识及其对应的所述多个特征的值,或者,在所述当前结点待处理的第一资源的数量等于1的情况中,将所述当前结点待处理的第一资源的标识写入所述当前结点。
6、结合第一方面,在一种可能的实施方式中,在所述当前结点的分裂特征的值的数据类型为文本类型或者字符串类型的情况中,所述根据所述当前结点待处理的各个第一资源对应的分裂特征的值确定所述当前结点的分裂特征的值,包括:在所述当前结点待处理的各个第一资源对应的分裂特征的值中选择一个值作为所述当前结点的分裂特征的值。在所述当前结点的分裂特征的值的数据类型为浮点数类型的情况中,所述根据所述当前结点待处理的各个第一资源对应的分裂特征的值确定所述当前结点的分裂特征的值,包括:确定所述当前结点待处理的各个第一资源对应的分裂特征的值中的最大值和最小值;根据所述最大值和最小值确定所述当前结点的分裂特征的数据分布;根据所述数据分布确定所述当前结点的分裂特征的值。
7、上述方案中,可以根据分裂特征的不同数据类型,采用不同方法选择分裂特征的值。
8、结合第一方面,在一种可能的实施方式中,所述根结点和中间结点还包括一个或多个子结点的指针,所述根据所述第二资源对应的多个特征的值在树形数据结构中进行匹配,包括:在所述树形数据结构的当前结点中包括分裂特征和分裂特征的值的情况中,根据所述第二资源对应的分裂特征的值和所述当前结点的分裂特征的值确定比较结果,根据所述比较结果在所述当前结点的一个或多个子结点的指针中确定目标子结点的指针,以及,根据所述目标子结点的指针获取所述目标子结点进行匹配,或者,在所述当前结点中包括第一资源的标识的情况中,将所述当前结点中的第一资源的标识作为所述目标资源的标识。
9、结合第一方面,在一种可能的实施方式中,所述根据目标资源的标识确定是否将所述第二资源的标识和属性信息加入资源库包括:根据所述目标资源的标识确定所述目标资源的属性信息,所述属性信息中包括第一信息;根据所述目标资源的第一信息和所述第二资源的第一信息确定判断参数的值;在所述判断参数的值小于或等于所述判断参数的阈值的情况中,将所述第二资源的标识和属性信息加入所述资源库。
10、结合第一方面,在一种可能的实施方式中,包括多个所述树形数据结构,在所述树形数据结构中匹配成功的情况中,所述方法还包括:将所述目标资源的标识写入匹配集合,以及更新所述匹配集合中所述目标资源的频次;或者,更新所述匹配集合中所述目标资源的频次。
11、上述方案中,多个树形数据结构均基于上述的多个第一资源确定。由于在确定树形数据结构过程中,根结点和中间结点的分裂特征及其值是随机选择的,采用多个树形数据结构匹配,可以提高鲁棒性以及降低一个树形数据结构带来的过拟合风险。
12、结合第一方面,在一种可能的实施方式中,所述匹配集合中包括一个所述目标资源,所述根据目标资源的标识确定是否将所述第二资源的标识和属性信息加入资源库包括:根据所述目标资源的标识确定所述目标资源的属性信息,所述属性信息中包括第一信息;根据所述目标资源的第一信息和所述第二资源的第一信息确定判断参数的值;在所述判断参数的值小于或等于所述判断参数的阈值的情况中,将所述第二资源的标识和属性信息加入所述资源库。
13、结合第一方面,在一种可能的实施方式中,所述匹配集合中包括多个所述目标资源,多个所述目标资源中包括一个参考资源,所述参考资源的频次大于多个所述目标资源中其他资源的频次,所述根据目标资源的标识确定是否将所述第二资源的标识和属性信息加入资源库包括:根据所述参考资源的标识确定所述参考资源的属性信息,所述属性信息中包括第一信息;根据所述参考资源的第一信息和所述第二资源的第一信息确定判断参数的值;在所述判断参数的值小于或等于所述判断参数的阈值的情况中,将所述第二资源的标识和属性信息加入所述资源库
14、结合本文档来自技高网...
【技术保护点】
1.一种资源处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根结点和所述中间结点包括分裂特征和分裂特征的值,所述多个特征中包括所述根结点的分裂特征和所述中间结点的分裂特征,所述根结点的分裂特征的值基于所述根结点待处理的第一资源对应的多个特征的值确定,所述中间结点的分裂特征的值基于所述中间结点待处理的第一资源对应的多个特征的值确定,所述多个第一资源包括所述根结点待处理的第一资源和所述中间结点待处理的第一资源。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括按照下述步骤确定所述树形数据结构的当前结点:
4.根据权利要求3所述的方法,其特征在于,在所述当前结点的分裂特征的值的数据类型为文本类型或者字符串类型的情况中,所述根据所述当前结点待处理的各个第一资源对应的分裂特征的值确定所述当前结点的分裂特征的值,包括:
5.根据权利要求3所述的方法,其特征在于,在所述当前结点的分裂特征的值的数据类型为浮点数类型的情况中,所述根据所述当前结点待处理的各个第一资源对应的分裂特征的值确定所述当前结点的分裂特
6.根据权利要求2-5任一项所述的方法,其特征在于,所述根结点和中间结点还包括一个或多个子结点的指针,所述根据所述第二资源对应的多个特征的值在树形数据结构中进行匹配,包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据目标资源的标识确定是否将所述第二资源的标识和属性信息加入资源库包括:
8.根据权利要求1-6任一项所述的方法,其特征在于,包括多个所述树形数据结构,在所述树形数据结构中匹配成功的情况中,所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述匹配集合中包括一个所述目标资源,所述根据目标资源的标识确定是否将所述第二资源的标识和属性信息加入资源库包括:
10.根据权利要求8所述的方法,其特征在于,所述匹配集合中包括多个所述目标资源,多个所述目标资源中包括一个参考资源,所述参考资源的频次大于多个所述目标资源中其他资源的频次,所述根据目标资源的标识确定是否将所述第二资源的标识和属性信息加入资源库包括:
11.根据权利要求8所述的方法,其特征在于,所述匹配集合中包括多个所述目标资源,多个所述目标资源中包括多个参考资源,所述多个参考资源的频次相同且大于多个所述目标资源中其他资源的频次,所述根据目标资源的标识确定是否将所述第二资源的标识和属性信息加入资源库包括:
12.一种资源处理装置,其特征在于,所述装置包括:
13.一种计算设备,其特征在于,所述计算设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的指令,以使得所述计算设备执行如权利要求1至11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至11任一项所述的方法。
15.一种计算机程序产品,其特征在于,包括指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至11任一项所述的方法。
...【技术特征摘要】
1.一种资源处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根结点和所述中间结点包括分裂特征和分裂特征的值,所述多个特征中包括所述根结点的分裂特征和所述中间结点的分裂特征,所述根结点的分裂特征的值基于所述根结点待处理的第一资源对应的多个特征的值确定,所述中间结点的分裂特征的值基于所述中间结点待处理的第一资源对应的多个特征的值确定,所述多个第一资源包括所述根结点待处理的第一资源和所述中间结点待处理的第一资源。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括按照下述步骤确定所述树形数据结构的当前结点:
4.根据权利要求3所述的方法,其特征在于,在所述当前结点的分裂特征的值的数据类型为文本类型或者字符串类型的情况中,所述根据所述当前结点待处理的各个第一资源对应的分裂特征的值确定所述当前结点的分裂特征的值,包括:
5.根据权利要求3所述的方法,其特征在于,在所述当前结点的分裂特征的值的数据类型为浮点数类型的情况中,所述根据所述当前结点待处理的各个第一资源对应的分裂特征的值确定所述当前结点的分裂特征的值,包括:
6.根据权利要求2-5任一项所述的方法,其特征在于,所述根结点和中间结点还包括一个或多个子结点的指针,所述根据所述第二资源对应的多个特征的值在树形数据结构中进行匹配,包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据目标资源的标识确定是否将所述第二资源的标识和属性信息加入资源库包括:
8.根据...
【专利技术属性】
技术研发人员:陈文冬,孔祥红,孟平,
申请(专利权)人:南京意博软件科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。