文本数据处理方法、装置、系统、设备及存储介质制造方法及图纸

技术编号:36289738 阅读:53 留言:0更新日期:2023-01-13 10:02
本申请公开了一种文本数据处理方法、装置、系统、设备及存储介质,方法包括:获取待处理对话文本,并对待处理对话文本进行要素抽取,获得多个初始要素;对多个初始要素进行层级处理,获得多个初始地址;对每个初始地址进行分割处理,获得多个初始子地址;其中,不同的初始子地址设有不同的查找策略;基于每个初始地址的每个初始子地址以及与每个初始子地址匹配的查找策略,对地址数据库进行查找,获得多个候选地址;对多个候选地址进行排序,获得候选地址队列,并将候选地址队列输出。本申请的技术方案,解决了不能满足待处理对话文本的标准化需求,特别是对于待处理对话文本数据中存在的要素说法发散的问题。存在的要素说法发散的问题。存在的要素说法发散的问题。

【技术实现步骤摘要】
文本数据处理方法、装置、系统、设备及存储介质


[0001]本申请属于自然语言
,尤其涉及一种文本数据处理方法、装置、系统、设备及存储介质。

技术介绍

[0002]目前,要素标准化主要通过对要素做分类,从而实现要素的标准化处理,这样做适用于简单类别的要素标准化,但是针对说法发散,类别庞大的地址类要素便不适用,现实中要素也往往都是不可枚举的。
[0003]此外,针对地址标准化目前也有部分技术方案,通过类似全球广域网(World Wide Web,web)服务调用地图兴趣点(Point of Interest,POI)检索的方式实现,输入地址,返回地址地补充和纠正,但是这类方案只能满足单个要素的标准化处理需求,不能满足输入文本的标准化需求,特别是对于对话文本数据中存在的要素说法发散的问题,效果非常受限。

技术实现思路

[0004]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种文本数据处理方法、装置、系统、设备及存储介质。
[0005]为了解决上述技术问题,本申请的实施例提供如下技术方案:
[0006]本申请的实施例提供一种文本数据处理方法,包括:
[0007]获取待处理对话文本,并对所述待处理对话文本进行要素抽取,获得多个初始要素;
[0008]对多个所述初始要素进行层级处理,获得多个初始地址;
[0009]对每个所述初始地址进行分割处理,获得多个初始子地址;其中,不同的所述初始子地址设有不同的查找策略;/>[0010]基于每个所述初始地址的每个所述初始子地址以及与每个所述初始子地址匹配的所述查找策略,对地址数据库进行查找,获得多个候选地址;
[0011]对多个所述候选地址进行排序,获得候选地址队列,并将所述候选地址队列输出。
[0012]可选的,所述对多个所述初始要素进行层级处理,获得多个初始地址,包括:
[0013]基于预设划分规则对多个所述初始要素进行划分,确定与每个所述初始要素匹配的层级;其中,所述预设层级划分规则包括多个所述层级,每个所述层级设有序号M;
[0014]根据预设层级规则以及与每个所述初始要素匹配的所述层级,对多个所述初始要素进行层级处理,获得多个所述初始地址;其中,每个所述初始地址中的多个所述初始要素按照所述序号M进行排列;M为正整数。
[0015]可选的,所述对每个所述初始地址进行分割处理,获得多个初始子地址,包括:
[0016]获取每个所述初始地址的初始格式,并将所述初始格式与参考格式进行比对,若所述初始格式与所述参考格式不一致,则基于所述地址数据库将所述初始格式调整为所述参考格式;其中,所述参考格式包括N个层级的所述初始要素;其中N≥M,且N为正整数;
[0017]基于每个所述初始要素对应的所述层级以及预设分割值对每个所述初始地址进行分割处理,并获得第一初始子地址、第二初始子地址、第三初始子地址以及第四初始子地址;其中,所述预设分割值用于确定每个所述初始地址的分割位置;
[0018]所述基于每个所述初始地址的每个所述初始子地址以及与每个所述初始子地址匹配的所述查找策略,对地址数据库进行查找,获得多个候选地址,包括:
[0019]当所述初始子地址为所述第一初始子地址时,则基于所述第一初始子地址以及与所述第一初始子地址匹配的第一查找策略对所述地址数据库进行查找,获得第一候选地址;或
[0020]当所述初始子地址为所述第二初始子地址时,则基于所述第二初始子地址以及与所述第二初始子地址匹配的第二查找策略,对所述地址数据库进行搜索,并获得第一搜索结果;基于所述第一搜索结果对所述地址数据库进行查找,获得第二候选地址;或
[0021]当所述初始子地址为所述第三初始子地址时,则基于所述第三初始子地址以及与所述第三初始子地址匹配的第三查找策略,对所述地址数据库进行查找,获得第三候选地址;或
[0022]当所述初始子地址为所述第四初始子地址时,则基于所述第四初始子地址的非空状态,获得第四候选地址。
[0023]可选的,所述当所述初始子地址为所述第二初始子地址时,则基于所述第二初始子地址以及与所述第二初始子地址匹配的第二查找策略,对所述地址数据库进行搜索,并获得第一搜索结果,包括:
[0024]基于所述第二初始子地址,获得层级为路的所述初始要素;
[0025]对层级为路的所述初始要素进行处理,获得搜索要素;
[0026]基于每个所述搜索要素对所述地址数据库进行交叉口搜索,获得交叉口搜索结果;
[0027]基于每个层级为路的所述初始要素对所述地址数据库进行路搜索,获得路搜索结果;
[0028]基于所述交叉口搜索结果以及所述路搜索结果,获得所述第一搜索结果;其中,所述基于所述交叉口搜索结果以及所述路搜索结果,获得所述第一搜索结果,包括:
[0029]基于所述交叉口搜索结果以及所述路搜索结果分别对所述地址数据库进行搜索,获得第一索引列表;
[0030]基于所述交叉口搜索结果以及所述路搜索结果分别对所述第一索引列表进行搜索,获得第一候选列表;
[0031]基于所述交叉口搜索结果以及所述路搜索结果分别对所述第一候选列表进行搜索,获得所述第一搜索结果。
[0032]可选的,所述当所述初始子地址为所述第三初始子地址时,则基于所述第三初始子地址以及与所述第三初始子地址匹配的第三查找策略,对所述地址数据库进行查找,获得第三候选地址,包括:
[0033]基于所述第三初始子地址与所述地址数据库进行进行查找,获得与所述第三初始子地址匹配的所述地址数据;
[0034]计算获得所述地址数据与所述第三初始子地址的匹配度,并将所述匹配度与匹配
度阈值进行比对;
[0035]若所述匹配度大于所述匹配度阈值,则基于所述地址数据获得第三候选地址;或若所述匹配度小于所述匹配度阈值,则基于所述第三初始子地址对所述地址数据库进行搜索,获得第二索引列表;
[0036]基于所述第三初始子地址对所述第二索引列表进行搜索,获得第二候选列表;
[0037]基于所述第三初始子地址对所述第二候选列表进行搜索,获得第二搜索结果;
[0038]基于所述第二搜索结果对所述地址数据库进行查找,获得所述第三候选地址。
[0039]可选的,所述对多个所述候选地址进行排序,获得候选地址队列,并将所述候选地址队列输出,包括:
[0040]基于预设优先级规则,确定每个所述候选地址中的每个目标要素的优先级;
[0041]获得每个所述候选地址的每个所述目标要素的所述优先级的级别,并确定每个所述候选地址的所述优先级的级别上限;
[0042]将每个所述候选地址的所述级别上限,确定为所述候选地址的目标级别;
[0043]根据每个所述候选地址的所述目标级别,对多个所述候选地址进行排序,获得所述候选地址队列,并将所述候选地址队列输出。
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本数据处理方法,其特征在于,包括:获取待处理对话文本,并对所述待处理对话文本进行要素抽取,获得多个初始要素;对多个所述初始要素进行层级处理,获得多个初始地址;对每个所述初始地址进行分割处理,获得多个初始子地址;其中,不同的所述初始子地址设有不同的查找策略;基于每个所述初始地址的每个所述初始子地址以及与每个所述初始子地址匹配的所述查找策略,对地址数据库进行查找,获得多个候选地址;对多个所述候选地址进行排序,获得候选地址队列,并将所述候选地址队列输出。2.根据权利要求1所述的方法,其特征在于,所述对多个所述初始要素进行层级处理,获得多个初始地址,包括:基于预设划分规则对多个所述初始要素进行划分,确定与每个所述初始要素匹配的层级;其中,所述预设层级划分规则包括多个所述层级,每个所述层级设有序号M;根据预设层级规则以及与每个所述初始要素匹配的所述层级,对多个所述初始要素进行层级处理,获得多个所述初始地址;其中,每个所述初始地址中的多个所述初始要素按照所述序号M进行排列;M为正整数。3.根据权利要求2所述的方法,其特征在于,所述对每个所述初始地址进行分割处理,获得多个初始子地址,包括:获取每个所述初始地址的初始格式,并将所述初始格式与参考格式进行比对,若所述初始格式与所述参考格式不一致,则基于所述地址数据库将所述初始格式调整为所述参考格式;其中,所述参考格式包括N个层级的所述初始要素;其中N≥M,且N为正整数;基于每个所述初始要素对应的所述层级以及预设分割值对每个所述初始地址进行分割处理,并获得第一初始子地址、第二初始子地址、第三初始子地址以及第四初始子地址;其中,所述预设分割值用于确定每个所述初始地址的分割位置;所述基于每个所述初始地址的每个所述初始子地址以及与每个所述初始子地址匹配的所述查找策略,对地址数据库进行查找,获得多个候选地址,包括:当所述初始子地址为所述第一初始子地址时,则基于所述第一初始子地址以及与所述第一初始子地址匹配的第一查找策略对所述地址数据库进行查找,获得第一候选地址;或当所述初始子地址为所述第二初始子地址时,则基于所述第二初始子地址以及与所述第二初始子地址匹配的第二查找策略,对所述地址数据库进行搜索,并获得第一搜索结果;基于所述第一搜索结果对所述地址数据库进行查找,获得第二候选地址;或当所述初始子地址为所述第三初始子地址时,则基于所述第三初始子地址以及与所述第三初始子地址匹配的第三查找策略,对所述地址数据库进行查找,获得第三候选地址;或当所述初始子地址为所述第四初始子地址时,则基于所述第四初始子地址的非空状态,获得第四候选地址。4.根据权利要求3所述的方法,其特征在于,所述当所述初始子地址为所述第二初始子地址时,则基于所述第二初始子地址以及与所述第二初始子地址匹配的第二查找策略,对所述地址数据库进行搜索,并获得第一搜索结果,包括:基于所述第二初始子地址,获得层级为路的所述初始要素;对层级为路的所述初始要素进行处理,获得搜索要素;
基于每个所述搜索要素对所述地址数据库进行交叉口搜索,获得交叉口搜索结果;基于每个层级为路的所述初始要素对所述地址数据库进行路搜索,获得路搜索结果;基于所述交叉口搜索结果以及所述路搜索结果,获得所述第一搜索结果;其中,所述基于所述交叉口搜索结果以及所述路搜索结果,获得所述第一搜索结果,包括:基于所述交叉口搜索结果以及所述路搜索结果分别对所述地址数据库进行搜索,获得第一索引列表;基于所述交叉口搜索结果以及所述路搜...

【专利技术属性】
技术研发人员:郭健
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1