基于文本分析处理通信质量投诉地址的方法及系统技术方案

技术编号:24708780 阅读:88 留言:0更新日期:2020-07-01 00:04
基于文本分析处理通信质量投诉地址的方法及系统,包括:通过正向最长匹配算法对源文本进行中文地址分词;分词结果由多级行政区划地址树推理分析,得到精确的多级地名识别结果;接收到地址树传递的输入后,基于规则的多级地址识别算法,自动分析出更复杂更一般的多级地址字段;将地址树的推理结果和规则匹配的识别结果融合,作为算法系统的最终输出。针对通信质量投诉工单具体受理文本内容,进行中文分词、正则表达式地址抽取以及地址树推理处理后,实现通信质量投诉工单标准地址的自动抽取。

【技术实现步骤摘要】
基于文本分析处理通信质量投诉地址的方法及系统
本专利技术涉及计算机网络
,更具体地,涉及基于文本分析处理通信质量投诉地址的方法及系统。
技术介绍
电信行业客户通过服务热线来电投诉通信质量问题后,一线坐席人员将通信质量故障的具体地址随同故障问题记录进入工单系统派发到网络部门,并按照省-市-县等逐级派单模式派送到最终责任单位予以处理。现有的电信客户服务工单系统没有基于文本分析处理通信质量投诉地址的方法。现有的电信客户服务工单系统没有基于文本分析处理通信质量投诉地址的方法。在呼叫中心以及网络各级部门等各个环节均需手工派单处理,造成工单流转周期过长,效率过低。
技术实现思路
本方案采用一种方法针对通信质量投诉工单具体受理文本内容,进行中文分词、正则表达式地址抽取以及地址树推理处理后,实现通信质量投诉工单标准地址的自动抽取。本专利技术的目的在于解决事件在整个推送过程中,耦合性高的问题,通过配置规则,以实现服务的自由组合。本专利技术提供一种基于文本分析处理电信行业通信质量投诉地址的方法,包括:步骤一、通过正向最长匹配算法对源文本进行中文地址分词;步骤二、分词结果由多级行政区划地址树推理分析,得到精确的多级地名识别结果;步骤三、接收到地址树传递的输入后,基于规则的多级地址识别算法,自动分析出更复杂更一般的多级地址字段;步骤四、将地址树的推理结果和规则匹配的识别结果融合,作为算法系统的最终输出。在本公开的一实施例中,所述步骤一中,查询行政区划前缀索引数据库。在本公开的一实施例中,所述步骤二中,查询多级行政区划记录数据。在本公开的一实施例中,所述步骤三中,查询各级识别规则库。在本公开的一实施例中,所述步骤一到三中,包括各级命名实体识别处理。本专利技术还提供一种基于文本分析处理电信行业通信质量投诉地址的系统,包括:正向最长匹配算法模块,用于对源文本进行中文地址分词;多级行政区划地址树推理模块,用于对分词结果推理分析,得到精确的多级地名识别结果;基于规则的多级地址识别模块,用于接收到地址树传递的输入后,自动分析出更复杂更一般的多级地址字段;结果融合输出模块,将地址树的推理结果和规则匹配的识别结果融合,作为算法系统的最终输出。在本公开的一实施例中,正向最长匹配算法模块查询行政区划前缀索引数据库。在本公开的一实施例中,多级行政区划地址树推理模块查询多级行政区划记录数据。在本公开的一实施例中,基于规则的多级地址识别模块查询各级识别规则库。在本公开的一实施例中,包括各级命名实体识别处理模块。本专利技术提供的基于文本分析处理电信行业通信质量投诉地址的方法和系统,具有的技术效果为,提供基于文本分析的通信质量投诉地址自动处理方法,提升通信质量投诉工单的流转效率,提升对通信质量投诉的评价与管理手段。本专利技术实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术实施例的技术方案做进一步的详细描述。附图说明图1是中文地址解析系统示意图;图2是中文地址解析流程示意图;图3是正向最长匹配算法流程图;图4是地址树推理示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。本专利技术采用一种方法针对通信质量投诉工单具体受理文本内容,进行中文分词、正则表达式地址抽取以及地址树推理处理后,实现通信质量投诉具体地址自动抽取并自动转换为9段标准地址格式。实现思路中文地址中的省市县等属于国家行政区划,名称固定且不经常发生变化,可以将其作为标准数据库,与待分析的中文地址进行比较分析。利用中文分词中的正向最长匹配策略,可以快速切分出数据库中存在的中文地址。考虑到分级地址是一个树形结构,可以建立这颗地址树并在上面进行推理,实现中文地址的识别。由于中文地址随等级细分呈指数级增长,更精细的中文地址难以建立标准化的地名数据库。但通过一定的分析可以发现,每一级中文地址都存在一些共有的特征模式。如果能分析出所有模式,就能解决中文地址识别的问题。通过对特定的地址识别任务,设计精巧的规则,就能以很高的精度完成给定的识别任务。实现方法可以通过构造一系列正则表达式,按照地址等级递增的顺序完成识别任务。1.系统架构图1所示为本专利技术基于文本分析处理电信行业通信质量投诉地址的方法和系统的架构图。本专利技术方案的架构分为基础设施层、数据资源层、数据综合分析层、数据服务层和问题求解层5个组成。本专利技术方案运行在X86服务器上,Linux操作系统的Java运行环境。支撑本方案的数据库存储了国家统计局提供的全国3级行政区划对标数据,以及非官方的全国5级行政区划对标数据。其中的数据均为最新的数据,并可及时更新。数据服务层对外提供一个中文地址解析JAVAAPI,以启动该方案。问题求解层通过训练集验证算法正确率,并识别测试集数据。数据综合分析层被问题求解层调用,通过存储的规则进行中文地址的解析。基本规则包括正向最长匹配规则、地址树推理规则和其他模式匹配规则。选取此架构有一下几点优势:a)Java代码可跨平台执行,并且算法系统对外提供一个API,调用简明方便。b)算法依赖最新的行政区划数据,能够对不规范的地名进行纠正。当行政区划有更新变动时,只需替换数据,无须重构代码。c)基于规则的模式匹配,使用正则表达式表示规则。规则的表示简明,并且在实际应用中效率很高。一般而言,考虑到中文表达的习惯,每一级地址所固有的模式不会改变,因此特定的一组规则适用性很广。若发现新的模式,修正规则库即可。d)算法模块化,扩展方便。对于已有行政区划的地名识别,本方案的精确率已经接近100%。而对于未登记的地名,可以通过增加算法模块的方式继续改进。对于其他国家地名识别任务,也可以通过修改行政区划数据库和规则数据库实现。在该架构下扩展系统很方便。2.系统整体处理流程算法系统的流程如图2所示。系统依赖已知的地名数据和匹配规则。本专利技术的实施例以通信质量投诉工单文本为中文地址解析对象。系统首先对源文本通过查询行政区划前缀索引数据进行正向最长匹配中文地址分词,分词结果再通过查询多级行政区划记录数据由多级行政区划地址树推理分析,得到精确的多级地名识别结果。这一步的正确率很高,因此有理由将识别出的地名从源文本中删去,并将剩余文本传递给下一模块处理。基于规则的多级地址识别算法,依赖于对每一级地名的分析,从数据中发现最一般的规律,从而设计合理本文档来自技高网...

【技术保护点】
1.基于文本分析处理通信质量投诉地址的方法及系统,其特征在于,包括:/n步骤一、通过正向最长匹配算法对源文本进行中文地址分词;/n步骤二、分词结果由多级行政区划地址树推理分析,得到精确的多级地名识别结果;/n步骤三、接收到地址树传递的输入后,基于规则的多级地址识别算法,自动分析出更复杂更一般的多级地址字段;/n步骤四、将地址树的推理结果和规则匹配的识别结果融合,作为算法系统的最终输出。/n

【技术特征摘要】
20191225 CN 20191136243831.基于文本分析处理通信质量投诉地址的方法及系统,其特征在于,包括:
步骤一、通过正向最长匹配算法对源文本进行中文地址分词;
步骤二、分词结果由多级行政区划地址树推理分析,得到精确的多级地名识别结果;
步骤三、接收到地址树传递的输入后,基于规则的多级地址识别算法,自动分析出更复杂更一般的多级地址字段;
步骤四、将地址树的推理结果和规则匹配的识别结果融合,作为算法系统的最终输出。


2.如权利要求1所述的方法,其特征在于,所述步骤一中,查询行政区划前缀索引数据库。


3.如权利要求1所述的方法,其特征在于,所述步骤二中,查询多级行政区划记录数据。


4.如权利要求1所述的方法,其特征在于,所述步骤三中,查询各级识别规则库。


5.如权利要求1所述的方法,其特征在于,所述步骤一到三中,包...

【专利技术属性】
技术研发人员:刘德厚雷晓宇王福君李言良
申请(专利权)人:北京合力亿捷科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1