一种汇票交易机器人的买票信息识别方法,包括如下步骤:S1、通过计算后台数据的词频,过滤垃圾信息;S2、对买票信息进行清洗以及初步规范化;S3、根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素;S4、对提取的元素进行格式化和标准化转换;S5、对元素进行词性标注和位置标注;S6、按照位置和关键词信息确定元素作用域和元素优先级,并在元素作用域内,将所有利率元素补充上该元素;S7、将补充结果解析为格式化数据;S8、将格式化数据去重,对银行进行分类合并,格式化为入库格式;S9、入库前查询和和删除已有数据,将新数据写入数据库。本发明专利技术能够从各种信息中识别出买票信息,对买票信息中的元素进行提取和匹配,输出格式化的买票信息数据。
【技术实现步骤摘要】
一种汇票交易机器人的买票信息识别方法和识别器
本专利技术主要涉及金融行业银行承兑汇票交易中使用的人工智能技术相关领域,具体是一种汇票交易机器人的买票信息识别方法和识别器。
技术介绍
目前汇票交易信息撮合主要在微信、qq等即时通讯软件上进行。汇票交易商(买卖方)通过交换各自的汇票库存和汇票利率表,计算各自的卖出价格,协商交易方式,实现汇票交易。由于汇票价格计算中需要计算计息天数,每一笔报价要结合票面要素和利率表进行混合运算,敲击电子计算器进行汇票报价和交易,耗时费力、容易出错;每一笔报价要结合票面承兑人授信情况和不同报价的交易方式,人脑难以长期记忆,交易商不得不反复问询,增加了交易障碍;汇票交易商交易对话违约率高,交易对话无法形成标准化合约,增加交易风险和成本。因此,将人工智能机器人应用在汇票交易中,能够大幅度提高汇票交易效率,完善汇票交易方法,降低相关人员劳动强度。而要实现汇票的智能交易,汇票买票信息的自动识别必不可少,而目前尚无完善的技术能够从各种汇票信息中实现买票信息的智能识别。
技术实现思路
为解决目前技术的不足,本专利技术结合现有技术,从实际应用出发,提供一种汇票交易机器人的买票信息识别方法和识别器,能够从各种信息中识别出买票信息,对买票信息中的元素进行提取和匹配,输出格式化的买票信息数据。为实现上述目的,本专利技术的技术方案如下:一种汇票交易机器人的买票信息识别方法,包括如下步骤:S1、通过计算后台数据的词频,将垃圾信息词频与买票信息词频对比,得到垃圾信息关键词,以过滤垃圾信息;S2、对买票信息进行清洗以及初步规范化;S3、根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素;S4、对提取的元素进行格式化和标准化转换;S5、对元素进行词性标注和位置标注;S6、按照位置和关键词信息确定元素作用域和元素优先级,并在元素作用域内,将所有利率元素补充上该元素;S7、将补充结果解析为格式化数据;S8、将格式化数据去重,对银行进行分类合并,格式化为入库格式;S9、入库前查询和和删除已有数据,将新数据写入数据库。在步骤S4中,转换的元素集中在承兑人、日期、金额三中类型的元素上,对于承兑人元素是进行简称和全称的转换;对于金额元素,根据表达方式分为汉字和数字,表达作用域分为范围型、以上型、以下型、准确型;对于日期元素,根据表述方式的作用域分为范围型、以上型、以下型。在步骤S5中,按照元素类型分为金额、日期、承兑人、利率四中词性,依次对元素进行标注,同时按照元素所在行列进行位置标注,使用二维数组存放以上信息。在步骤S6中,元素所在位置按照所在行有没有利率信息分为单独成行和非单独成行,单独成行按照与利率所在行的相对位置分为段首、段中、段末,非单独成行按照与利率相对位置分为行首、行中、行末,元素作用于大小由元素所在位置和与下一个元素的间隔决定,元素优先级由元素的位置决定,其中行末>行中>行首=段首=段中=段末。在步骤S8中,对重复数据去重同时对相同条件的单个银行进行合并,补充银行大类类型,对银行大类,补充详细的银行列表,然后格式化为入库格式。一种汇票交易机器人的买票信息识别器,该识别器使用上述的识别方法。本专利技术的有益效果:本专利技术可以识别公司名称、多种格式和表达方式的日期、多种格式和表达方式的金额、承兑人类型、利率以及加价;并将采集到的以上信息进行识别和转换,标注元素词性、作用于和优先级,并按照相应信息匹配各个元素并格式化输出,从而能够快速的处理银行承兑汇票中汇票的买票信息识别以及格式化输出,为汇票自动交易提供有利的技术支持。附图说明附图1为本专利技术主要流程图;附图2为本专利技术买票信息识别流程图。具体实施方式结合附图和具体实施例,对本专利技术作进一步说明。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所限定的范围。如图1、2所示,本专利技术主要提供一种汇票交易机器人的买票信息识别方法和识别器,本识别器能够从各种信息中识别出买票信息,对买票信息中的元素进行提取和匹配,输出格式化的买票信息数据。本识别器可以识别公司名称、多种格式和表达方式的日期、多种格式和表达方式的金额、承兑人类型、利率以及加价;并将采集到的以上信息进行匹配,输出格式化数据。买票信息识别方法和识别器主要流程如下:①垃圾信息识别:通过计算后台百万数据的词频,将垃圾信息词频与买票信息词频比对,得到垃圾信息关键词,用来过滤垃圾信息。②买票信息清洗以及初步规范化:例如把“股份”替换为“国股”、“直扣”替换为“+”等等共几十条处理规则。③根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素。④对提取的元素进行格式化和标准化转换:对元素进行转换主要集中在承兑人、日期、金额三种类型元素上,对于承兑人元素主要是进行简称和全称的转换;对于金额元素,根据表达方式分为汉字和数字,表达作用域分为范围型、以上型、以下型、准确型,全部组合可以有八种类型;对于日期元素,根据表述方式的作用域可以分为范围型、以上型、以下型,跟据所使用的单位,例如日月天年季度等等,以及特殊类型,以上组合大致分为28种。将以上提取结果按照分类不同,进行进一步转换,日期转换为xx-xxx天、金额转换为xx-xxx万等格式。⑤进行词性标注和位置标注:按照元素类型可以分为M(金额)、D(日期)、B(承兑人)、R(利率)等四种词性,以此对元素进行标注;同时按照元素所在行列进行标注。标注完成的元素格式为:row.column.type例如某日期元素在三行四列则标注为3.4.D,使用二维数组存放以上信息。⑥按照位置和关键词等信息确定元素作用域和元素优先级,并在在元素作用域内,将所有利率元素补充上该元素:元素所在位置按照所在行有没有利率信息分为单独成行和非单独成行,单独成行按照与利率所在行的相对位置分为段首、段中、段末,非单独成行按照与利率相对位置分为行首、行中、行末。元素作用域大小由元素所在位置和与下一个元素的间隔决定;元素优先级由元素的位置决定:行末>行中>行首=段首=段中=段末。根据以上规则确定元素作用域之后,将作用域内所有利率元素添加上该元素。⑦将上面的补充结果,解析为格式化数据:将以上填充完的数据解析为适合写入日志的格式和适合写入买票数据的格式,例如某填充结果为:城商银行,1-180天,10-499.99万,3.85+50解析为:10-499.99万,1-180天,城商银行,3.85+50和(10,499.99,1,180,城商银行,3.85,50)两种类型。⑧将格式化数据进行去重,对银行进行分类合并,格式化为入库格式:对重复数据去重,并且对相同条件的单个银行进行合并,补充银行大类类型;对银行大类,补充详细的银行列表,然后格式化为入库格式。⑨入库前查询和删除已有数据,将新数据写入数据库。通过本专利技术所提供的识别器,能够快速的处理银行承兑汇票买卖信息买票信息识别问题,进而为汇票自动交易机器人提供有利的技术支持。本文档来自技高网...
【技术保护点】
1.一种汇票交易机器人的买票信息识别方法,其特征在于,包括如下步骤:S1、通过计算后台数据的词频,将垃圾信息词频与买票信息词频对比,得到垃圾信息关键词,以过滤垃圾信息;S2、对买票信息进行清洗以及初步规范化;S3、根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素;S4、对提取的元素进行格式化和标准化转换;S5、对元素进行词性标注和位置标注;S6、按照位置和关键词信息确定元素作用域和元素优先级,并在元素作用域内,将所有利率元素补充上该元素;S7、将补充结果解析为格式化数据;S8、将格式化数据去重,对银行进行分类合并,格式化为入库格式;S9、入库前查询和和删除已有数据,将新数据写入数据库。
【技术特征摘要】
1.一种汇票交易机器人的买票信息识别方法,其特征在于,包括如下步骤:S1、通过计算后台数据的词频,将垃圾信息词频与买票信息词频对比,得到垃圾信息关键词,以过滤垃圾信息;S2、对买票信息进行清洗以及初步规范化;S3、根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素;S4、对提取的元素进行格式化和标准化转换;S5、对元素进行词性标注和位置标注;S6、按照位置和关键词信息确定元素作用域和元素优先级,并在元素作用域内,将所有利率元素补充上该元素;S7、将补充结果解析为格式化数据;S8、将格式化数据去重,对银行进行分类合并,格式化为入库格式;S9、入库前查询和和删除已有数据,将新数据写入数据库。2.如权利要求1所述的一种汇票交易机器人的买票信息识别方法,其特征在于,在步骤S4中,转换的元素集中在承兑人、日期、金额三中类型的元素上。3.如权利要求2所述的一种汇票交易机器人的买票信息识别方法,其特征在于,对于承兑人元素是进行简称和全称的转换;对于金额元素,根据表达方式分为汉字和数字,表达作用域分为范围型、以上型、以下型、准确型;对于日...
【专利技术属性】
技术研发人员:张壳,田标,
申请(专利权)人:天津做票君机器人科技有限公司,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。