一种数据处理方法技术

技术编号:39712664 阅读:10 留言:0更新日期:2023-12-17 23:21
本发明专利技术公开了一种数据处理方法

【技术实现步骤摘要】
一种数据处理方法、终端及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数据处理方法

终端及存储介质


技术介绍

[0002]随着数字化时代的到来,人们越来越重视计算机技术的发展,计算机算力地不断提升,为人工智能技术的发展打下了基础

随着时间的推移,人工智能技术也得到了进一步的发展

人工智能是研究

开发用于模拟

延伸和扩展人工智能的理论

方法

技术及应用系统的一门新科学技术

目前,人工智能技术已经在医疗

金融

教育等领域得以运用

随着互联网的发展,产生的数据量越来越多,涉及的行业也越来越广,对人工智能的需求也会越来越大

[0003]在投资交易中,通常是交易经理向交易员下达半结构化的

具备自然语言语法结构的类自然语言的交易文本

交易员需要理解交易经理下达的交易文本进行交易,并在一定时间段内将执行过的交易录入到系统中

而上述交易文本中包含丰富的交易信息,同时也包含许多文本噪音以及行业黑话

[0004]因此,在投资交易过程中需要交易员人为地剔除交易文本中的文本噪声以及理解行业黑话,以准确理解交易信息进行交易,并且在一定时间段内还需要人为地将交易录入交易系统中

这一过程中,需要耗费大量人力和时间,影响投资交易的效率

[0005]基于此,如何提供一种能够自动解析交易文本的技术成为亟需解决的技术问题


技术实现思路

[0006]本专利技术的主要目的在于提供一种数据处理方法

终端及存储介质,旨在解决现有技术中解析交易文本需要耗费大量人力和时间,影响投资交易效率的问题

[0007]为了实现上述目的,本专利技术提供了一种数据处理方法,包括:
[0008]获取待解析的目标投资交易文本,并通过预设语义分割模型和预设状态转移模型,确定所述目标投资交易文本的多个目标词元以及各所述目标词元的形态类型;
[0009]其中,所述形态类型用于表征所述目标词元的字符类型;
[0010]根据每个所述目标词元的形态类型,计算所述目标词元对应的各候选语义的语义权重,以得到各所述目标词元的候选语义

权重对;基于启发式动态规划算法,通过各所述目标词元的所述候选语义

权重对,将所述目标投资交易文本的各所述目标词元划分到相应的指令集合中,得到相应的交易指令

[0011]可选地,获取待解析的目标投资交易文本,具体包括:
[0012]获取待解析的原始投资交易文本,并根据所述原始投资交易文本的组结构特征对所述原始投资交易文本进行分组,得到多个预处理投资交易文本;其中,所述组结构特征包括:分隔符

序号;
[0013]对每个所述预处理投资交易文本进行文本分类,确定所述预处理投资交易文本的文本类型;
[0014]在所述文本类型为普通文本时,将所述预处理投资交易文本作为所述待解析的目标投资交易文本;
[0015]在所述预处理投资交易文本为表格文本时,将所述预处理投资交易文本对应的表格中的每一行文本,作为所述待解析的目标投资交易文本

[0016]可选地,所述根据所述原始投资交易文本的组结构特征对所述原始投资交易文本进行分组,得到多个预处理投资交易文本,具体包括:
[0017]根据所述原始投资交易文本中的分隔符对所述原始投资交易文本进行分组,得到多个第一投资交易文本;
[0018]当所述第一投资交易文本中存在序号时,根据所述序号的形态特征和位置特征确定所述序号在所述第一投资交易文本中的层级关系;
[0019]根据所述序号及对应的所述层级关系对所述第一投资交易文本进行分组,得到多个第二投资交易文本;
[0020]将各所述第二投资交易文本作为所述预处理投资交易文本

[0021]可选地,所述对每个所述预处理投资交易文本进行文本分类,确定所述预处理投资交易文本的文本类型,具体包括:
[0022]对所述预处理投资交易文本中的每个行文本进行语义分割,得到各所述行文本的多个词元,作为行文本词元;其中,所述行文本为所述预处理投资交易文本中每行的文本;
[0023]当所述行文本中的每个行文本词元均存在与预设表头名词库中时,则所述行文本为表头行;
[0024]当所述预处理投资交易文本未存在表头行时,计算当前行文本与上一行文本的余弦相似度;
[0025]当所述余弦相似度大于第二预设阈值时,则将所述上一行文本作为所述表头;
[0026]当所述余弦相似度均小于第二预设阈值时,则所述预处理投资交易文本未存在表头行;
[0027]将存在表头行的所述预处理投资交易文本作为表格文本,将不存在表投行的所述预处理投资交易文本作为普通文本

[0028]可选地,所述通过预设语义分割模型和预设状态转移模型,确定所述目标投资交易文本的多个目标词元以及各所述目标词元的形态类型,具体包括:
[0029]通过所述预设语义分割模型对所述目标投资交易文本进行语义分割,得到多个初始词元;
[0030]通过所述预设状态转移模型,确定各所述初始词元的形态类型;所述形态类型包括:基础形态

组合形态;
[0031]根据所述初始词元的形态类型确定的所述初始词元的语义分割策略,对所述初始词元进行分割,得到多个所述目标词元;其中,所述目标词元为最小语义单元词元

[0032]可选地,所述根据每个所述目标词元的形态类型,计算所述目标词元对应的各候选语义的语义权重,以得到各所述目标词元的候选语义

权重对,具体包括:
[0033]根据所述目标词元的所述形态类型,确定所述目标词元的候选语义;
[0034]根据各所述候选语义对应的预设语义特征匹配策略,计算各所述候选语义与所述目标词元的匹配分数;
[0035]对所述匹配分数进行归一化处理得到所述目标词元的语义权重,以组成所述目标词元的所述候选语义

权重对

[0036]可选地,所述对所述匹配分数进行归一化处理得到所述目标词元的语义权重,以组成所述目标词元的所述候选语义

权重对之后,所述方法还包括:
[0037]将所述目标词元的所述候选语义

权重对进行组合,得到所述目标投资交易文本的语义加权词元序列;
[0038]基于滑动窗口算法,根据所述语义加权词元序列中相邻目标词元的语义相似度和语义相关度,确定所述语义加权词元序列中满足预设约束条件的至少一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,其特征在于,所述数据处理方法包括:获取待解析的目标投资交易文本;通过预设语义分割模型和预设状态转移模型,确定所述目标投资交易文本的多个目标词元以及各所述目标词元的形态类型;其中,所述形态类型用于表征所述目标词元的字符类型;根据每个所述目标词元的形态类型,计算所述目标词元对应的各候选语义的语义权重,以得到各所述目标词元的候选语义

权重对;基于启发式动态规划算法,通过各所述目标词元的所述候选语义

权重对,将所述目标投资交易文本的各所述目标词元划分到相应的指令集合中,得到相应的交易指令
。2.
根据权利要求1所述的数据处理方法,其特征在于,获取待解析的目标投资交易文本,具体包括:获取待解析的原始投资交易文本,并根据所述原始投资交易文本的组结构特征对所述原始投资交易文本进行分组,得到多个预处理投资交易文本;其中,所述组结构特征包括:分隔符

序号;对每个所述预处理投资交易文本进行文本分类,确定所述预处理投资交易文本的文本类型;在所述文本类型为普通文本时,将所述预处理投资交易文本作为所述待解析的目标投资交易文本;在所述预处理投资交易文本为表格文本时,将所述预处理投资交易文本对应的表格中的每一行文本,作为所述待解析的目标投资交易文本
。3.
根据权利要求2所述的数据处理方法,其特征在于,所述根据所述原始投资交易文本的组结构特征对所述原始投资交易文本进行分组,得到多个预处理投资交易文本,具体包括:根据所述原始投资交易文本中的分隔符对所述原始投资交易文本进行分组,得到多个第一投资交易文本;当所述第一投资交易文本中存在序号时,根据所述序号的形态特征和位置特征确定所述序号在所述第一投资交易文本中的层级关系;根据所述序号及对应的所述层级关系对所述第一投资交易文本进行分组,得到多个第二投资交易文本;将各所述第二投资交易文本作为所述预处理投资交易文本
。4.
根据权利要求2所述的数据处理方法,其特征在于,所述对每个所述预处理投资交易文本进行文本分类,确定所述预处理投资交易文本的文本类型,具体包括:对所述预处理投资交易文本中的每个行文本进行语义分割,得到各所述行文本的多个词元,作为行文本词元;其中,所述行文本为所述预处理投资交易文本中每行的文本;当所述行文本中的每个行文本词元均存在与预设表头名词库中时,则所述行文本为表头行;当所述预处理投资交易文本未存在表头行时,计算当前行文本与上一行文本的余弦相似度;当所述余弦相似度大于第二预设阈值时,则将所述上一行文本作为所述表头;
当所述余弦相似度均小于第二预设阈值时,则所述预处理投资交易文本未存在表头行;将存在表头行的所述预处理投资交易文本作为表格文本,将不存在表投行的所述预处理投资交易文本作为普通文本
。5.
根据权利要求1所述的数据处理方法,其特征在于,所述通过预设语义分割模型和预设状态转移模型,确定所述目标投资交易文本的多个目标词元以及各所述目标词元的形态类型,具体包括:通过所述预设语义分割模型对所述目标投资交易文本进行语义分割,得到多个初始词元;通过所述预设状态转移模型,确定各所述初始...

【专利技术属性】
技术研发人员:陈清财刘青向小鑫黄佳洋丘宇彬朱易文陈枫罗诗伟
申请(专利权)人:深圳市图灵机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1