可动态配置算子的文本处理系统、方法、设备技术方案

技术编号:33708807 阅读:26 留言:0更新日期:2022-06-06 08:37
本发明专利技术属于文本处理领域,具体涉及一种可动态配置算子的文本处理系统、方法、设备,旨在解决在文本特征的提取以及处理中,固定算子调度顺序以及资源,导致文本处理效率低、耦合度高的问题。本发明专利技术系统包括:算子配置模块,配置为提取同一消息类型不同计算任务的共同逻辑特征、非共同逻辑特征并封装成算子,将算子根据依赖关系进行组合,得到不同消息类型的算子链的基础子链;流程控制模块,配置为控制算子链中的算子运行;消息分发模块,配置为根据消息类型与预构建的消息业务分发对象之间的映射关系,筛选汇总结果并分别分发至消息业务分发对象对应的业务线。本方法解决了算子耦合程度高,复用和扩展困难的问题,提升了文本处理的效率。的效率。的效率。

【技术实现步骤摘要】
可动态配置算子的文本处理系统、方法、设备


[0001]本专利技术属于文本处理领域,具体涉及一种可动态配置算子的文本处理系统、方法、设备。

技术介绍

[0002]在现有常见的文本特征提取以及处理中,算子的调度顺序和资源使用量都是固定的,需要在应用部署之前提前设置调用顺序并且为算子申请一定资源。这样会存在以下几个方面的问题:1)处理性能慢,整体处理效率容易受到单个算子处理性能的影响;2)由于算子执行效率不同使用资源不同,如果固定资源会导致整体效率下降,传统模式各个算子资源固定并不会根据业务高峰和低谷期的变化而进行伸缩,因为其都没有对流量进行监控,未对算子实例做相应的弹性伸缩;3)耦合程度高,更新扩展困难,当业务需求变动时需要对原有算子进行较大改动。基于此,本专利技术提出了一种可动态配置算子的文本处理系统。

技术实现思路

[0003]为了解决现有技术中的上述问题,即为了解决在文本特征的提取以及处理中,固定算子调度顺序以及资源,导致文本处理效率低、耦合度高的问题,本专利技术第一方面,提出了一种可动态配置算子的文本处理系统,该系统包括算子本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种可动态配置算子的文本处理系统,其特征在于,该系统包括算子配置模块、流程控制模块、消息分发模块;所述算子配置模块,配置为获取不同消息类型的文本以及设定的计算任务;提取同一消息类型不同计算任务的共同逻辑特征,作为第一任务特征,将该第一任务特征封装成bert向量抽取算子,作为第一算子;抽取后,将同一消息类型不同计算任务的非共同逻辑特征分别封装成其他算子,作为第二算子;封装完成后,将第一算子、第二算子根据依赖关系进行组合,得到不同消息类型的算子链的基础子链;所述消息类型包括新闻、公告、债券、研报;所述计算任务包括事件抽取、实体识别;所述依赖关系为根据计算任务处理设定的先后关系配置的调度顺序;还配置为获取任一消息类型的多个新的计算任务;提取新的计算任务之间共同逻辑特征,作为第二任务特征,并选取与第二任务特征相关联的第一算子和第二算子,作为前置算子,将新的计算任务之间的非共同逻辑特征分别封装成其他算子,作为第三算子;封装后,将前置算子与第三算子合并到对应消息类型的算子链中;所述流程控制模块,配置为控制算子链中的算子运行;当检查到同一消息类型的算子链中所有的算子执行成功时,将返回的执行结果组装成新的数据结构,作为汇总结果,将汇总结果推送至所述消息分发模块;所述消息分发模块,配置为根据消息类型与预构建的消息业务分发对象之间的映射关系,筛选汇总结果并分别分发至消息业务分发对象对应的业务线;所述消息业务分发对象包括了业务线设定接收的消息类型以及各消息类型的文本待处理的计算任务;所述业务线即数据需求方。2.根据权利要求1所述的可动态配置算子的文本处理系统,其特征在于,所述算子配置模块,还配置为若获取的任一消息类型的多个新的计算任务没有共同的逻辑特征,则将各计算任务的逻辑特征封装成单独的算子作为独立子链合并到算子链中。3.根据权利要求1所述的可动态配置算子的文本处理系统,其特征在于,所述可动态配置算子的文本处理系统还包括监控告警模块;所述监控告警模块,配置为对算子链中的各算子对应的数据队列在执行的过程中进行监控,若执行异常则发送告警通知。4.根据权利要求3所述的可动态配置算子的文本处理系统,其特征在于,所述流程控制模块,包括控制执行单元、弹性伸缩单元和内容整合单元;所述控制执行单元,配置为整合算子的输入和输出内容,并控制各算子的运行;所述弹性伸缩单元与一或多个控制执行单元连接;所述弹性伸缩单元,配置为根据监控告警模块的告警通知信息调整各控制执行单元中的算子的实例个数;当各算子对应的数据队列消息数目高于设定消息数目阈值时,增加实例个数,否则减少实例个数;所述消息数目为当前队列堆积未被消费的消息条数;所述内容整合单元,配置为对算子链中各个算子执行完成后的输出信息进行存储;还配置为使用轮询机制按时间顺序对入库的输出消息进行扫描,...

【专利技术属性】
技术研发人员:胡殿明石宇刘雨亮
申请(专利权)人:北京感易智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1