一种基于中文分词的跨系统台账匹配系统及方法技术方案

技术编号:20797979 阅读:39 留言:0更新日期:2019-04-06 11:36
本发明专利技术提供一种基于中文分词的跨系统台账匹配系统,包括业务场景定义模块,用于从业务对象源获得相应业务对象,同时对所述业务对象的业务场景进行定义,通过定义业务需求确定数据源及数据范围,根据所述业务对象及特征属性确定匹配算法模型对所述业务场景进行标准化;分词模块,用于对所述业务对象进行中文分词,包括经典中文分词、改进型Trie索引树分词和双数组Trie分词;特征提取模块,用于提取得到所述业务对象的业务对象特征;匹配引擎实现模块,用于根据所述业务场景,将分词算法与匹配模型相结合,并基于大数据处理平台获得相应的词典、模型、配置和匹配的结果,存储所述结果并将所述结果反馈至所述匹配引擎。

A cross-system account matching system and method based on Chinese word segmentation

The invention provides a cross-system account matching system based on Chinese word segmentation, including a business scenario definition module, which is used to obtain corresponding business objects from business object sources and define the business scenarios of the business objects. The data source and data range are determined by defining business requirements, and the matching algorithm model is determined according to the business objects and characteristics. Scene standardization; Word segmentation module, which is used for Chinese word segmentation of the business object, including classical Chinese word segmentation, improved Trie index tree word segmentation and double array Trie word segmentation; feature extraction module, which is used to extract the business object features of the business object; matching engine implementation module, which is used to combine word segmentation algorithm with matching model according to the business scene. Based on the large data processing platform, the corresponding dictionary, model, configuration and matching results are obtained, stored and fed back to the matching engine.

【技术实现步骤摘要】
一种基于中文分词的跨系统台账匹配系统及方法
本专利技术涉及台账系统
,具体涉及一种基于中文分词的跨系统台账匹配系统及方法。
技术介绍
配用电是电网企业的核心业务,营配台账是配用电业务开展的重要基础。由于电网营配调业务关联性强、营配台账(例如线路、台区、变压器、用户等)分属不同专业管理且存在交集,故营配调基础台账的贯通、对应问题一直是电力业务难点之一。公司营配调数据贯通专项治理工作已取得阶段性成果,依靠辅助工具加人工梳理方式实现存量台账数据匹配,再结合两端业务系统定制开发数据集成接口方式持续维护台账匹配关系,主要存在以下不足:1.工具对现有数据结构设计依赖性强,自动化程度有限。目前主要使用营配贯通等工具,指定两端系统表和字段辅助台账匹配,对于设计时未考虑不同系统间台账匹配关系、或实际数据不满足不同系统间匹配需要的情况则无能为力或作用有限;2.台账数据匹配关系需通过专用数据同步接口维护。一方面需要结合源端业务系统进行定制开发和集成联调,存在较大的开发工作量;另一方面接口同步一般采用定时、批量方式,业务连续性受到影响;同时台账数据模型的升级、维护需充分考虑相关业务系统,曾出现过因升级本文档来自技高网...

【技术保护点】
1.一种基于中文分词的跨系统台账匹配系统,其特征在于,所述系统包括:业务场景定义模块,用于从业务对象源获得相应业务对象,同时对所述业务对象的业务场景进行定义,通过定义业务需求确定数据源及数据范围,根据所述业务对象及特征属性确定匹配算法模型对所述业务场景进行标准化;分词模块,用于对所述业务对象进行中文分词,包括经典中文分词、改进型Trie索引树分词和双数组Trie分词;特征提取模块,用于提取得到所述业务对象的业务对象特征;匹配引擎实现模块,用于根据所述业务场景,将分词算法与匹配模型相结合,并基于大数据处理平台获得相应的词典、模型、配置和匹配的结果,存储所述结果并将所述结果反馈至所述匹配引擎;结果...

【技术特征摘要】
1.一种基于中文分词的跨系统台账匹配系统,其特征在于,所述系统包括:业务场景定义模块,用于从业务对象源获得相应业务对象,同时对所述业务对象的业务场景进行定义,通过定义业务需求确定数据源及数据范围,根据所述业务对象及特征属性确定匹配算法模型对所述业务场景进行标准化;分词模块,用于对所述业务对象进行中文分词,包括经典中文分词、改进型Trie索引树分词和双数组Trie分词;特征提取模块,用于提取得到所述业务对象的业务对象特征;匹配引擎实现模块,用于根据所述业务场景,将分词算法与匹配模型相结合,并基于大数据处理平台获得相应的词典、模型、配置和匹配的结果,存储所述结果并将所述结果反馈至所述匹配引擎;结果显示模块,用于根据所述业务场景执行匹配操作,展示匹配结果及相关关键指标;同时对匹配结果依据匹配概率进行排序,并对可疑的匹配情况进行标示。2.根据权利要求1所述的一种基于中文分词的跨系统台账匹配系统,其特征在于,所述系统包括:匹配对接模块,用于所述业务对象特征上传至所述匹配引擎。3.根据权利要求1所述的一种基于中文分词的跨系统台账匹配系统,其特征在于,所述分词模块包括:规范化及预处理子模块、中文分词子模块和其他属性特征提取子模块。4.一种基于中文分词的跨系统台账匹配的方法,其特征在于,所述方法包括步骤:步骤一、从业务对象源获得相应业务对象,同时对所述业务对象的业务...

【专利技术属性】
技术研发人员:李志夏同飞章玉龙王超郭振张学敏费晓璐岳想想
申请(专利权)人:安徽继远软件有限公司国网信息通信产业集团有限公司国网安徽省电力有限公司电力科学研究院
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1