一种账单信息提取方法、装置和存储介质制造方法及图纸

技术编号:21004143 阅读:46 留言:0更新日期:2019-04-30 21:32
本发明专利技术实施例公开了一种账单信息提取方法、装置和存储介质;本发明专利技术实施例可以获取多个已解析成功的样本账单消息,获取各样本账单消息中目标账单信息之间的共同特征,获取样本账单消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合,获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征;根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中提取目标账单信息。该方案可以提升消息解析的能力、消息解析的覆盖度、以及节省资源。

【技术实现步骤摘要】
一种账单信息提取方法、装置和存储介质
本专利技术涉及信息处理
,具体涉及一种账单信息提取方法、装置和存储介质。
技术介绍
随着终端技术的发展,终端已经开始从以前简单地提供通话设备渐渐变成一个通用软件运行的平台。该平台不再以提供通话管理为主要目的,而是提供一个包括通话管理、游戏娱乐、办公记事、移动支付等各类应用程序在内的运行环境,随着大量的普及,已经深入至人们的生活、工作的方方面面。为了便于用户记账理财,一些应用开发商提供了在一些具有记账功能的应用程序,这些应用程序可以实现用户还款提醒,或者预约还款等记账功能。目前记账功能实现方式包括:基于预设的消息解析规则对终端接收到的一系列账单消息如账单短信等进行解析,以提取相应的账单内容,然后,基于提取的账单内容实现相应的记账功能。随着记账功能的发展的越来越成熟,消息解析能力也越来越强,消息解析规则也越来越多。然而,在实际情况中,还是有部分账单消息不能被解析规则解析如频次比较低、格式比较特殊的账单消息,消息解析规则覆盖不到。可见目前的账单信息提取能力相对还是比较低的,且覆盖度较小。
技术实现思路
本专利技术实施例提供一种账单信息提取方法、装置和本文档来自技高网...

【技术保护点】
1.一种账单信息提取方法,其特征在于,包括以下步骤:获取多个已解析成功的样本账单消息;获取各样本账单消息中目标账单信息之间的的共同特征;获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合;获取所述待解析账单消息中与所述共同特征匹配的候选账单信息及其匹配特征;根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取所述目标账单信息。

【技术特征摘要】
1.一种账单信息提取方法,其特征在于,包括以下步骤:获取多个已解析成功的样本账单消息;获取各样本账单消息中目标账单信息之间的的共同特征;获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合;获取所述待解析账单消息中与所述共同特征匹配的候选账单信息及其匹配特征;根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取所述目标账单信息。2.如权利要求1所述的账单信息提取方法,其特征在于,获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,包括:对所述样本账单消息进行分段,得到若干消息片段;当所述消息片段包含与所述共同特征匹配的样本匹配账单信息时,对所述消息片段进行分词处理,得到消息片段对应的分词集合;从所述分词集合中选取相应的特征分词,以组成所述样本匹配账单消息的样本匹配特征。3.如权利要求2所述的账单信息提取方法,其特征在于,从所述分词集合中选取相应的分词,以组成所述样本匹配账单消息的样本匹配特征,包括:按照预设选取规则从所述分词集合中若干连续的分词作为特征分词;将所述特征分词作为所述样本匹配账单消息的样本匹配特征。4.如权利要求1所述的账单信息提取方法,其特征在于,根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取所述目标账单信息,包括:根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,获取所述候选账单信息与所述目标账单信息的匹配参数;根据所述匹配参数从所述候选账单信息中提取所述目标账单信息。5.如权利要求4所述的账单信息提取方法,其特征在于,所述样本匹配特征包括若干样本特征词;在获取候选账单信息及其匹配特征之前,所述方法还包括:获取所述样本匹配账单信息的样本特征词在所述样本匹配特征集合中的词频,得到词频集合;根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,获取所述候选账单信息与所述目标账单信息的匹配参数,具体包括:根据所述词频集合获取所述候选账单信息的特征词在所述样本匹配特征集合中的词频;根据所述词频获取所述候选账单信息与所述目标账单信息的匹配参数。6.如权利要求5所述的账单信息提取方法,其特征在于,所述样本匹配特征集合包括:所述样本账单消息的样本匹配特征单元,所述匹配特征单元包括所述匹配账单信息及其匹配特征;获取所述样本匹配账单信息的样本特征词在所述样本匹配特征集合中的词频,得到词频集合,包括:对所述匹配特征集合中匹配特征单元进行划分,得到第一匹配特征子集合和第二匹配特征子集合,所述第一匹配特征子集合包括样本匹配账单信息为所述目标账单信息的样本匹配特征单元,所述第二匹配特征子集合包括样本匹配账单信息不为所述目标账单信息的样本匹配特征单元;获取第一匹配子集合中样本匹配账单信息的样本特征词,在所述第一匹配子集合中的词频,得到第一词频子集合;获取第二匹配子集合中样本匹配账单信息的样本特征词,在所述第二匹配子集合中的词频,得到第二词频子集合。7.如权利要求6所述的账单信息提取方法,其特征在于,所述样本匹配特征单元还包括:样本匹配账单信息的指示信息,所述指示信息用于指示所述样本匹配账单信息是否为所述目标账单信息;对所述样本匹配特征集合中匹配特征单元进行划分,包括:根据所述样本匹配账单信息的指示信息,对所述样本匹配特征集合中匹配特征单元进行划分。8.如权利要求7所述的账单信息提取方法,其特征在于,根据所述词频集合获取所述候选账单信息的特征词在所述样本匹配特征集合中的词频,包括:根据所述第一词频子集合,获取所述候选账单信息的特征词在第一...

【专利技术属性】
技术研发人员:麦金凯戴云峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1