【技术实现步骤摘要】
一种业务处理方法和装置
[0001]本专利技术涉及人工智能领域中的自然语言处理领域,尤其涉及一种业务处理方法和装置。
技术介绍
[0002]近年来大数据建设进入了崭新的阶段,从传统行业到互联网企业,从实体商品到金融服务,基于大数据的服务层出不穷,但大多数企业存在数据量少、数据来源单一、数据维度不够丰富的问题。且随着数据监管力度的不断收紧,数据的安全合规性也逐渐被重视,使得数据流动的难度大大增加。另外,涉及企业核心价值的数据或者政务相关数据,也难以做到开放和分享。
[0003]为了释放海量数据的价值,对用户行为数据的挖掘成为了一个重要方向,用户行为数据一方面来自用户在各种应用程序的点击和申请记录,另一方面来自事项办理系统。基于用户事项办理数据的挖掘目前仍停留在用户行为序列的维度,并没有针对于事项蕴含的内容和属性进行挖掘,因而无法构建代表用户属性的标签。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供一种业务处理方法和装置,至少能够解决现有技术没有针对事项蕴含的内容和属性进行挖掘,因而无法加工形 ...
【技术保护点】
【技术特征摘要】
1.一种业务处理方法,其特征在于,包括:响应于对目标用户的选择操作,获取与所述目标用户的标识对应的业务事项名称集;计算所述业务事项名称集中每个业务事项名称和其他业务事项名称的相似度,筛选相似度超过预设相似度阈值的相似业务事项名称;提取所述每个业务事项名称和所述相似业务事项名称的重合语料,对所述重合语料做拆分去重处理得到目标语料,将所述目标语料作为所述每个业务事项名称的用户标签;统计所有业务事项名称的用户标签,以基于所得用户标签进行相应业务处理操作。2.根据权利要求1所述的方法,其特征在于,在所述获取与所述目标用户的标识对应的业务事项名称集之后,还包括:通过预设非常规信息表,去除每个业务事项名称中的非常规信息;以及对去除非常规信息后的业务事项名称做去重处理。3.根据权利要求1或2所述的方法,其特征在于,还包括:对每个业务事项名称做分词处理,基于预设停用词库去除分词中的停用词;其中,停用词为与用户属性无关的词语;对于剩余词语统计位于预设位置的词语的词频,按照词频从大到小的顺序,选取排序靠前的预设数量个词语以构建业务动词库;在所述提取所述每个业务事项名称和所述相似业务事项名称的重合语料之后,还包括:基于所述业务动词库,对重合预料做去除业务动词操作,得到更新后的重合预料。4.根据权利要求3所述的方法,其特征在于,在所述基于所得用户标签进行相应业务处理操作之前,还包括:基于所述业务动词库,筛选包括预设业务动词的第一业务事项名称,确定所述第一业务事项名称的第一用户标签;从与所述目标用户对应的业务事项名称集中,筛选出与所述第一用户标签对应的所有业务事项名称,以从中确定办理时间最新的第二业务事项名称;响应于所述第二业务事项名称中包含所述预设业务动词,确定所述第一用户标签为不可打标的标签。5.根据权利要求1所述的方法,其特征在于,所述计算所述业务事项名称集中每个业务事项名称和其他业务事项名称的相似度,包括:计算每个业务事项名称和其他业务事项名称的莱文斯坦距离;分别确定所述每个业务事项名称的字符串长度、所述其他业务事项名称的字符串长度,以累加得到字符串长度之和;计算字符串长度之和与莱文斯坦距离的差值,将差值和字符串长度之和的比值,作为所述每个业务事项名称和所述其他业务事项名称的相似度。6.根据权利要求1所述的方法,其特征在于,所述提取所述每个业务事项名称和所述相似业务事项名称的重合语料,包括:确定所述每个业务事项名称中排序第一的第一字符,响应于在所述相似业务事项名称中检索到所述第一字符,继续确定所述每个业务事项名称中排序第二的第二字符;响应于所述相似业务事项名称中位于所述第一字符之后且相邻位置为所述第二字符,继续确定所述每个业务事项名称中排序第三的第三字符,重复上述匹配操作,直至匹配失
败为止,将匹配到的字符按序排列得到第一重合语料;分别确定所述每个业务事项名称去除所述第一重合语料后的第一剩余信息、所述相似业务事项名称去除所述第一重合语料后的第二剩余信息,确定所述第一剩余信息中排序第一的第四字符;响应于在所述第二剩余信息中检索到所述第四字符,继续确定所述第一剩余信息中排序第二的第五字符,并重复上述匹配操作,直至匹配失败为止,将匹配到的字符按序排列得到第二重合语料;继续分别确定所述第一剩余信息和所述第二剩余信息去除所述第二重合语料后的剩余信息,并重复上述匹配操作,直至所述每个业务事项名称中的字符匹配完毕为止,得到多个重复语料;将所述多个重复语料中长度最长的重合语料,作为所述每个业务事项名称和所述相似业务事项名称的目标重合语料。7.根据权利要求6所述的方法,其特征在于,所述将所述多个重复语料中长度最长的重合语料,作为所述每个业务事项名称和所述相似业务事项名称的目标重合语料,包括:若长度最长的重合语料的数量为多个,则保留多个长度最长的重合语料。8.根据权利要求1所述的方法,其特征在于,所述对所述重合语料做拆分去重处理得到目标语料,包括:确定每个重合语料和每个其他重合语料的重合部分和不重合部分,响应于重合部分不为空,将重合部分和不重合部分的语料作为第一待筛选语料;确定每个第一待筛选语料和每个其他第一待筛选语料的重合部分和不重合部分,响应于重合部分不为空,继续将本次重合部分和不重合部分的语料作为第二待筛选语料;确定每个第二待筛选语料和每个其他第二待筛选语料的重合部分和不重合部分,响应于重合部分为空,将不重合部分的语料作...
【专利技术属性】
技术研发人员:朱俊衡,贾国琛,郭赜,李萌,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。