System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及的是数据融合领域,特别涉及一种人在回路的多源异构数据融合方法和系统。
技术介绍
1、信息时代,利用海量数据可以挖掘出很多有价值的信息。例如在电商领域,通过用户在多个app之间的聊天、搜索、出行、浏览和购买记录,可以更加精准地分析用户画像。由于生产场景、获取方式不同,因此数据通常是多源异构的。如前所述,多个app的数据代表了“多源”,聊天、搜索、购买等代表了“异构”。对于单独的某一种数据进行分析,仅能获得较少信息。因此,需要将多源异构数据进行融合。通过一些常见的自然语言处理任务训练模型和制定策略,能够实现多源异构数据融合的功能,但是针对新的数据和现象则不能覆盖,不能适应新的数据和新的场景。因此,亟需一种人在回路的多源异构数据融合方法和系统解决此问题。
技术实现思路
1、鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种人在回路的多源异构数据融合方法和系统。
2、为了解决上述技术问题,本申请实施例公开了如下技术方案:
3、一种人在回路的多源异构数据融合方法,包括:
4、s100.构建种子线索库,并设置优先级;
5、s200.构建线索队列,将种子线索库中的种子线索依次送入队列;
6、s300.按照进入队列的先后顺序依次进行多源异构数据融合;
7、s400.基于融合结果与数据变化情况,获取新线索,并将新线索加入队列;
8、s500.重复s300-s400,直
9、进一步地,s100中,通过设置手机号绑定信息、姓名和身份证号码实名信息线索作为种子线索,放入种子线索库中。
10、进一步地,s200中,按照设置的优先级顺序将种子线索库中的种子线索依次送入队列。
11、进一步地,s300中,多源异构数据,至少包括多app之间的聊天、搜索、出行、浏览和购买记录数据。
12、进一步地,s300中,按照进入队列的先后顺序依次进行多源异构数据融合,具体方法包括:通过实体识别、关系抽取和规则策略的融合模型进行多源异构数据融合,线索处理完毕后出列。
13、进一步地,s400中,基于融合结果与数据变化情况,发现新线索,并将新线索加入队列,新线索至少包括出行的时间和位置。
14、进一步地,一种人在回路的多源异构数据融合方法,还包括:s600.将新线索抽象为种子线索,更新至种子线索库。
15、本专利技术还公开了一种人在回路的多源异构数据融合系统,包括:种子线索库构建单元、线索队列构建单元、多源异构数据融合单元、新线索获取单元;其中:种子线索库构建单元,用于构建种子线索库,并设置优先级;
16、线索队列构建单元,用于构建线索队列,将种子线索库中的种子线索依次送入队列;
17、多源异构数据融合单元,用于按照进入队列的先后顺序依次进行多源异构数据融合;
18、新线索获取单元,用于基于融合结果与数据变化情况,获取新线索,并将新线索加入队列。
19、进一步地,种子线索库构建单元中,通过设置手机号绑定信息、姓名和身份证号码实名信息线索作为种子线索,放入种子线索库中。
20、进一步地,多源异构数据融合单元,按照进入队列的先后顺序依次进行多源异构数据融合,具体方法包括:通过实体识别、关系抽取和规则策略的融合模型进行多源异构数据融合,线索处理完毕后出列。
21、本专利技术实施例提供的上述技术方案的有益效果至少包括:
22、本专利技术公开了一种人在回路的多源异构数据融合方法,包括:s100.构建种子线索库,并设置优先级;s200.构建线索队列,将种子线索库中的种子线索依次送入队列;s300.按照进入队列的先后顺序依次进行多源异构数据融合;s400.基于融合结果与数据变化情况,获取新线索,并将新线索加入队列;s500.重复s300-s400,直到不产生新的融合结果。
23、本专利技术基于人在回路的多源异构数据融合框架,通过维护一个线索队列,不断将线索作为一个条件输入到融合模型中得到融合结果,通过融合结果,人为发现更多的新线索并添加到线索队列中继续进行融合,新线索可以进行抽象并更新到种子库中。基于这种融合框架,可以解决单纯一个融合模型所导致的适应性差和实时性差的缺点。
24、下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
本文档来自技高网...【技术保护点】
1.一种人在回路的多源异构数据融合方法,其特征在于,包括:
2.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,S100中,通过设置手机号绑定信息、姓名和身份证号码实名信息线索作为种子线索,放入种子线索库中。
3.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,S200中,按照设置的优先级顺序将种子线索库中的种子线索依次送入队列。
4.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,S300中,多源异构数据,至少包括多App之间的聊天、搜索、出行、浏览和购买记录数据。
5.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,S300中,按照进入队列的先后顺序依次进行多源异构数据融合,具体方法包括:通过实体识别、关系抽取和规则策略的融合模型进行多源异构数据融合,线索处理完毕后出列。
6.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,S400中,基于融合结果与数据变化情况,发现新线索,并将新线索加入队列,新线索至少包括出行的时间和位置。<
...【技术特征摘要】
1.一种人在回路的多源异构数据融合方法,其特征在于,包括:
2.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,s100中,通过设置手机号绑定信息、姓名和身份证号码实名信息线索作为种子线索,放入种子线索库中。
3.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,s200中,按照设置的优先级顺序将种子线索库中的种子线索依次送入队列。
4.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,s300中,多源异构数据,至少包括多app之间的聊天、搜索、出行、浏览和购买记录数据。
5.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,s300中,按照进入队列的先后顺序依次进行多源异构数据融合,具体方法包括:通过实体识别、关系抽取和规则策略的融合模型进行多源异构数据融合,线索处理完毕后出列。
6.如权利要求1所述的一种人在回路的多源异构数据融合方法,其特征在于,s40...
【专利技术属性】
技术研发人员:周玉,徐兆璞,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。