基于关系挖掘的快件收发组织发现方法及相关设备技术

技术编号:27880775 阅读:24 留言:0更新日期:2021-03-31 01:17
本公开提供了一种基于关系挖掘的快件收发组织发现方法、装置、电子设备及存储介质。该方法包括:获取包括收件地址和收件人的报关单数据;根据所述收件地址之间的相似度,形成地址簇;将所述地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图;根据所述图中的收件地址的类型,对所述图中的节点和边进行处理,获得连通子图;根据所述连通子图确定快件收发组织关系网络。该方法可以快速、准确地发现快件收发组织关系网络。

【技术实现步骤摘要】
基于关系挖掘的快件收发组织发现方法及相关设备
本公开涉及计算机
,尤其涉及一种基于关系挖掘的快件收发组织发现方法、装置、电子设备及存储介质。
技术介绍
随着国际物流的发展,入境快件数量快速增长,如何对海量快件进行高效且精准的监管与查验,是海关面临的一大挑战。在海关的监管过程中,如何识别“化整为零”“蚂蚁搬家”的有组织行为,以及挖掘代购团伙组织,是一项重要的任务。在海关快件查验的业务场景中,关系的定义与构建涉及复杂的业务场景,需要对报关单内容进行挖掘从而构建关系,相关技术中的业务场景的构建方法并不适用;而且,在网络中进行社团或组织发现的过程中,相关技术中的聚类算法复杂度较高,在实际业务中也不能有效应用。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种基于关系挖掘的快件收发组织发现方法、装置、电子设备及存储介质,该方法可以快速、准确地发现快件收发组织关系网络。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。本公开实施例提供一种基于关系挖掘的快件收发组织发现方法,包括:获取包括收件地址和收件人的报关单数据;根据收件地址之间的相似度,形成地址簇;将地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图;根据图中的收件地址的类型,对图中的节点和边进行处理,获得连通子图;根据连通子图确定快件收发组织关系网络。在本公开一些示例性实施例中,上述方法还包括:对收件地址进行清洗,获得收件地址的收件地址信息;对收件地址信息进行分词,获得收件地址的分词结果;根据收件地址的收件地址信息和分词结果,确定收件地址之间的相似度。在本公开一些示例性实施例中,对收件地址进行清洗,获得收件地址信息,包括:删除收件地址中的预设字符,并转换收件地址中的字符格式,以使收件地址中的字符格式相同;根据最大正向匹配法获得收件地址信息中的省信息;若收件地址信息中不含有省信息,则根据最大正向匹配法获得收件地址信息中的市信息,且根据市信息确定省信息;若收件地址信息中不含有市信息,则根据最大正向匹配法获得收件地址信息中的区信息,且根据省信息和区信息确定市信息;若收件地址信息中不含有区信息,则根据最大正向匹配法获得收件地址信息中的镇信息,且根据省信息、市信息和镇信息确定区信息。在本公开一些示例性实施例中,根据收件地址的收件地址信息和分词结果,确定收件地址之间的相似度,包括:确定收件地址的收件地址信息之间的相似度;确定收件地址的分词结果中各部分之间的相似度;根据分词结果中各部分之间的相似度,确定收件地址的分词结果之间的相似度;对收件地址的收件地址信息之间的相似度和收件地址的分词结果之间的相似度加权求和,获得收件地址之间的相似度。在本公开一些示例性实施例中,根据图中的收件地址的类型,对图中的节点和边进行处理,获得连通子图,包括:若连通子图中的收件地址为公共区域,确定与收件地址相连的目标收件人,将目标收件人中度为预设常数的目标收件人对应的节点及其相连的边删除,获得连通子图;若连通子图中的收件地址为非公共区域,确定与收件地址相连的目标收件人,若目标收件人之间不存在直接相连的边,且目标收件人之间通过收件地址对应的节点相连,则将收件地址和目标收件人之间的边删除,获得连通子图。在本公开一些示例性实施例中,其特征在于,根据连通子图确定快件收发组织关系网络,包括:将连通子图中总节点数量大于2的连通子图确定为快件收发组织关系网络。在本公开一些示例性实施例中,上述方法还包括:将收件人和收件地址均相同的报关单的出现次数作为收件人和收件地址之间对应的边的边权重;将预设字段相同的报关单的出现次数作为对应的收件人之间对应的边的边权重;将预设字段相同的报关单的出现次数作为对应的收件地址之间对应的边的边权重;其中,预设字段包括收件人电话、发件人、发件人城市、提运单号码、物品列表、物品价值中的至少一个。在本公开一些示例性实施例中,上述方法还包括:根据收发组织关系网络中各节点对应的边及边权重,确定收发组织关系网络中各节点的集聚系数和平均集聚系数;若收发组织关系网络的平均集聚系数大于第一平均集聚系数阈值,收发组织关系网络的收件人数量大于第一数量,收发组织关系网络中集聚系数为集聚系数阈值的节点占比小于预设比例,收发组织关系网络的物品种类大于第二数量,收发组织关系网络的物品申报频率大于第三数量,且收发组织关系网络的平均购买次数大于第四数量,则将收发组织关系网络的风险等级确定为第一风险等级。在本公开一些示例性实施例中,上述方法还包括:分别对收发组织关系网络的申报频率、收发组织关系网络的平均申报价值、收发组织关系网络的各物品的平均购买次数、收发组织关系网络的各收件人的物品种类进行归一化,获得申报频率的归一化结果、平均申报价值的归一化结果、平均购买次数的归一化结果和物品种类的归一化结果;将申报频率的归一化结果、平均申报价值的归一化结果、平均购买次数的归一化结果、物品种类的归一化结果及平均集聚系数加权后相加,获得收发组织关系网络的风险值;根据收发组织关系网络的风险值,对收发组织关系网络进行排序。在本公开一些示例性实施例中,上述方法还包括:若收发组织关系网络的平均集聚系数大于第二集聚系数阈值,收发组织关系网络的边的数量大于第五数量,且收发组织关系网络的物品申报频率大于第六数量,则将收发组织关系网络的风险等级确定为第二风险等级。在本公开一些示例性实施例中,上述方法还包括:若收发组织关系网络的边的数量大于第七数量,且收发组织关系网络的收件人对应的节点数量大于第八数量,则将收发组织关系网络的风险等级确定为第三风险等级。在本公开一些示例性实施例中,上述方法还包括:若收发组织关系网络的风险等级确定为第一风险等级,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途;若收发组织关系网络的风险等级确定为第二风险等级,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值并且收发组织关系网络的总价值大于或等于预设价值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途;若收发组织关系网络的风险等级确定为第三风险等级,且收发组织关系网络的物品数量大于物品数量阈值或者收发组织关系网络的物品种类数量大于物品种类数量阈值、收发组织关系网络的总价值大于或等于预设价值并且收发组织关系网络的收件频率大于频率阈值,则将收发组织关系网络中的收件地址对应的物品用途确定为商用用途。本公开实施例提供一种基于关系挖掘的快件收发组织发现装置,包括:数据获取模块,用于获取包括收件地址和收件人的报关单数据;地址簇形成模块,用于根据收件地址之间的相似度,形成地址簇;图构建模块,本文档来自技高网...

【技术保护点】
1.一种基于关系挖掘的快件收发组织发现方法,其特征在于,包括:/n获取包括收件地址和收件人的报关单数据;/n根据所述收件地址之间的相似度,形成地址簇;/n将所述地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图;/n根据所述图中的收件地址的类型,对所述图中的节点和边进行处理,获得连通子图;/n根据所述连通子图确定快件收发组织关系网络。/n

【技术特征摘要】
1.一种基于关系挖掘的快件收发组织发现方法,其特征在于,包括:
获取包括收件地址和收件人的报关单数据;
根据所述收件地址之间的相似度,形成地址簇;
将所述地址簇中的收件人、收件地址作为节点,将收件人之间的关系、收件地址之间的关系以及收件人和收件地址之间的关系作为边,构建图;
根据所述图中的收件地址的类型,对所述图中的节点和边进行处理,获得连通子图;
根据所述连通子图确定快件收发组织关系网络。


2.根据权利要求1所述的方法,其特征在于,还包括:
对所述收件地址进行清洗,获得所述收件地址的收件地址信息;
对所述收件地址信息进行分词,获得所述收件地址的分词结果;
根据所述收件地址的收件地址信息和分词结果,确定所述收件地址之间的相似度。


3.根据权利要求2所述的方法,其特征在于,对所述收件地址进行清洗,获得收件地址信息,包括:
删除所述收件地址中的预设字符,并转换所述收件地址中的字符格式,以使所述收件地址中的字符格式相同;
根据最大正向匹配法获得所述收件地址信息中的省信息;
若所述收件地址信息中不含有省信息,则根据最大正向匹配法获得所述收件地址信息中的市信息,且根据所述市信息确定所述省信息;
若所述收件地址信息中不含有市信息,则根据最大正向匹配法获得所述收件地址信息中的区信息,且根据所述省信息和所述区信息确定所述市信息;
若所述收件地址信息中不含有区信息,则根据最大正向匹配法获得所述收件地址信息中的镇信息,且根据所述省信息、所述市信息和所述镇信息确定所述区信息。


4.根据权利要求2所述的方法,其特征在于,根据所述收件地址的收件地址信息和分词结果,确定所述收件地址之间的相似度,包括:
确定所述收件地址的收件地址信息之间的相似度;
确定所述收件地址的分词结果中各部分之间的相似度;
根据所述分词结果中各部分之间的相似度,确定所述收件地址的分词结果之间的相似度;
对所述收件地址的收件地址信息之间的相似度和所述收件地址的分词结果之间的相似度加权求和,获得所述收件地址之间的相似度。


5.根据权利要求1所述的方法,其特征在于,根据所述图中的收件地址的类型,对所述图中的节点和边进行处理,获得连通子图,包括:
若所述连通子图中的收件地址为公共区域,确定与所述收件地址相连的目标收件人,将所述目标收件人中度为预设常数的目标收件人对应的节点及其相连的边删除,获得所述连通子图;
若所述连通子图中的收件地址为非公共区域,确定与所述收件地址相连的目标收件人,若所述目标收件人之间不存在直接相连的边,且所述目标收件人之间通过所述收件地址对应的节点相连,则将所述收件地址和所述目标收件人之间的边删除,获得所述连通子图。


6.根据权利要求5所述的方法,其特征在于,根据所述连通子图确定快件收发组织关系网络,包括:
将所述连通子图中总节点数量大于2的连通子图确定为所述快件收发组织关系网络。


7.根据权利要求1所述的方法,其特征在于,还包括:
将收件人和收件地址均相同的报关单的出现次数作为所述收件人和所述收件地址之间对应的边的边权重;
将预设字段相同的报关单的出现次数作为对应的收件人之间对应的边的边权重;
将预设字段相同的报关单的出现次数作为对应的收件地址之间对应的边的边权重;
其中,所述预设字段包括收件人电话、发件人、发件人城市、提运单号码、物品列表、物品价值中的至少一个。


8.根据权利要求7所述的方法,其特征在于,还包括:
根据所述收发组织关系网络中各节点对应的边及边权重,确定所述收发组织关系网络中各节点的集聚系数和平均集聚系数;
若所述收发组织关系网络的平均集聚系数大于第一平均集聚系数阈值,所述收发组织关系网络...

【专利技术属性】
技术研发人员:仲小琴黎盈婷黄凯鑫唐虎张丽李元景李博文
申请(专利权)人:同方威视科技江苏有限公司同方威视技术股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1