一种文本处理方法、装置及存储介质制造方法及图纸

技术编号:38357402 阅读:9 留言:0更新日期:2023-08-05 17:28
本申请提供一种文本处理方法、装置及存储介质,涉及通信技术领域,用于解决现有技术中,如何将地址文本信息转换为位置信息的技术问题。该文本处理方法包括:获取待处理文本;当待处理文本包括符号类文本时,根据符号类文本确定待处理文本的第一查询地址;根据预先建立好的冗余文本库,去除第一查询地址中的冗余文本,以得到第二查询地址;根据第二查询地址确定待处理文本对应的位置信息。定待处理文本对应的位置信息。定待处理文本对应的位置信息。

【技术实现步骤摘要】
一种文本处理方法、装置及存储介质


[0001]本申请涉及通信
,尤其涉及一种文本处理方法、装置及存储介质。

技术介绍

[0002]随着科技的发展,位置信息已经成为人们信息生活中的一部分,人们通常可以将多个地址的位置信息和可视化地图进行结合,以便于对位置信息进行可视化。
[0003]目前,大多数的位置信息都是地址文本信息,由于地址文本信息中经常会存在大量与地址无关的冗余信息,因此,无法直接将地址文本信息转换为位置信息。

技术实现思路

[0004]本申请提供一种文本处理方法、装置及存储介质,用于解决现有技术中,如何将地址文本信息转换为位置信息的技术问题。
[0005]为达到上述目的,本申请采用如下技术方案:
[0006]第一方面,提供一种文本处理方法,包括:获取待处理文本;当待处理文本包括符号类文本时,根据符号类文本确定待处理文本的第一查询地址;根据预先建立好的冗余文本库,去除第一查询地址中的冗余文本,以得到第二查询地址;根据第二查询地址确定待处理文本对应的位置信息。
[0007]可选的,根据符号类文本确定待处理文本的第一查询地址,包括:当待处理文本中包括括号,且括号外的文本中包括断句符号时,根据断句符号将括号外的文本划分为多个第一子文本,并将多个第一子文本中的首个第一子文本确定为主查询地址;或者,当待处理文本中包括括号,且括号外的文本中不包括断句符号时,将括号外的文本确定为主查询地址;或者,当待处理文本中不包括括号,且待处理文本中包括断句符号时,根据断句符号将待处理文本划分为多个第二子文本,并将第二子文本中的首个第二子文本确定为主查询地址;或者,当待处理文本中不包括括号,且待处理文本中不包括断句符号时,将待处理文本确定为主查询地址;将主查询地址确定为第一查询地址。
[0008]可选的,当根据主查询地址对应的第二查询地址确定待处理文本对应的位置信息失败时,文本处理方法还包括:按照地址要素文本在第二查询地址中的从后往前的顺序,依次去除第二查询地址中的地址要素文本,以得到第三查询地址,直到确定出第三查询地址对应的位置信息;或者,获取辅查询地址,并将辅查询地址确定为第一查询地址。
[0009]可选的,获取辅查询地址,包括:当待处理文本中包括括号,且括号内的文本满足预设条件,且括号内的文本中不包括断句符号时,将括号内的文本确定为辅查询地址;或者,当待处理文本中包括括号,且括号内的文本满足预设条件,且括号内的文本中包括断句符号时,根据断句符号将括号内的文本划分为多个第三子文本,并将满足预设条件的第三子文本确定为辅查询地址;或者,当待处理文本中包括括号,且括号内的文本不满足预设条件,且括号外的文本中包括断句符号时,根据断句符号将括号外的文本划分为多个第四子文本,并将除首个第四子文本以外的其他第四子文本中,满足预设条件的第四子文本确定
为辅查询地址;或者,当待处理文本中不包括括号,且待处理文本中包括断句符号时,根据断句符号将待处理文本划分为多个第五子文本,并将除首个第五子文本以外的其他第五子文本中,满足预设条件的第五子文本确定为辅查询地址。
[0010]可选的,还包括:获取样例文本,并将样例文本进行分词处理,以得到多个第六子文本;样例文本为去除字母类文本、数字类文本和符号类文本的文本;去除多个第六子文本中预设地址文本,以得到多个第七子文本;将文本个数大于预设个数的第七子文本确定为第八子文本;第八子文本包括单字子文本和多字子文本;当包括目标单字子文本和目标多字子文本的样例文本的数量大于预设数量时,将目标单字子文本和目标多字子文本确定为关联文本;目标单字子文本为单字子文本中的任意一个子文本;目标多字子文本为多字子文本中的任意一个子文本;确定冗余文本库包括多字子文本和关联文本。
[0011]第二方面,提供一种文本处理装置,包括:获取单元和处理单元;获取单元,用于获取待处理文本;处理单元,用于当待处理文本包括符号类文本时,根据符号类文本确定待处理文本的第一查询地址;处理单元,还用于根据预先建立好的冗余文本库,去除第一查询地址中的冗余文本,以得到第二查询地址;处理单元,还用于根据第二查询地址确定待处理文本对应的位置信息。
[0012]可选的,处理单元,具体用于:当待处理文本中包括括号,且括号外的文本中包括断句符号时,根据断句符号将括号外的文本划分为多个第一子文本,并将多个第一子文本中的首个第一子文本确定为主查询地址;当待处理文本中包括括号,且括号外的文本中不包括断句符号时,将括号外的文本确定为主查询地址;当待处理文本中不包括括号,且待处理文本中包括断句符号时,根据断句符号将待处理文本划分为多个第二子文本,并将第二子文本中的首个第二子文本确定为主查询地址;当待处理文本中不包括括号,且待处理文本中不包括断句符号时,将待处理文本确定为主查询地址;将主查询地址确定为第一查询地址。
[0013]可选的,当根据主查询地址对应的第二查询地址确定待处理文本对应的位置信息失败时,处理单元,还用于按照地址要素文本在第二查询地址中的从后往前的顺序,依次去除第二查询地址中的地址要素文本,以得到第三查询地址,直到确定出第三查询地址对应的位置信息;获取单元,还用于获取辅查询地址;处理单元,还用于将辅查询地址确定为第一查询地址。
[0014]可选的,获取单元,具体用于:当待处理文本中包括括号,且括号内的文本满足预设条件,且括号内的文本中不包括断句符号时,将括号内的文本确定为辅查询地址;当待处理文本中包括括号,且括号内的文本满足预设条件,且括号内的文本中包括断句符号时,根据断句符号将括号内的文本划分为多个第三子文本,并将满足预设条件的第三子文本确定为辅查询地址;当待处理文本中包括括号,且括号内的文本不满足预设条件,且括号外的文本中包括断句符号时,根据断句符号将括号外的文本划分为多个第四子文本,并将除首个第四子文本以外的其他第四子文本中,满足预设条件的第四子文本确定为辅查询地址;当待处理文本中不包括括号,且待处理文本中包括断句符号时,根据断句符号将待处理文本划分为多个第五子文本,并将除首个第五子文本以外的其他第五子文本中,满足预设条件的第五子文本确定为辅查询地址。
[0015]可选的,获取单元,还用于获取样例文本,并将样例文本进行分词处理,以得到多
个第六子文本;处理单元,还用于样例文本为去除字母类文本、数字类文本和符号类文本的文本;处理单元,还用于去除多个第六子文本中预设地址文本,以得到多个第七子文本;处理单元,还用于将文本个数大于预设个数的第七子文本确定为第八子文本;第八子文本包括单字子文本和多字子文本;处理单元,还用于当包括目标单字子文本和目标多字子文本的样例文本的数量大于预设数量时,将目标单字子文本和目标多字子文本确定为关联文本;目标单字子文本为单字子文本中的任意一个子文本;目标多字子文本为多字子文本中的任意一个子文本;处理单元,还用于确定冗余文本库包括多字子文本和关联文本。
[0016]第三方面,提供一种文本处理装置,包括存储器和处理器;存储器用于存储计算机执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理文本;当所述待处理文本包括符号类文本时,根据所述符号类文本确定所述待处理文本的第一查询地址;根据预先建立好的冗余文本库,去除所述第一查询地址中的冗余文本,以得到第二查询地址;根据所述第二查询地址确定所述待处理文本对应的位置信息。2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述符号类文本确定所述待处理文本的第一查询地址,包括:当所述待处理文本中包括括号,且所述括号外的文本中包括断句符号时,根据所述断句符号将所述括号外的文本划分为多个第一子文本,并将所述多个第一子文本中的首个第一子文本确定为主查询地址;或者,当所述待处理文本中包括所述括号,且所述括号外的文本中不包括所述断句符号时,将所述括号外的文本确定为所述主查询地址;或者,当所述待处理文本中不包括所述括号,且所述待处理文本中包括所述断句符号时,根据所述断句符号将所述待处理文本划分为多个第二子文本,并将所述第二子文本中的首个第二子文本确定为所述主查询地址;或者,当所述待处理文本中不包括所述括号,且所述待处理文本中不包括所述断句符号时,将所述待处理文本确定为所述主查询地址;将所述主查询地址确定为所述第一查询地址。3.根据权利要求2所述的文本处理方法,其特征在于,当根据所述主查询地址对应的第二查询地址确定所述待处理文本对应的位置信息失败时,所述文本处理方法还包括:按照地址要素文本在所述第二查询地址中的从后往前的顺序,依次去除所述第二查询地址中的所述地址要素文本,以得到第三查询地址,直到确定出所述第三查询地址对应的位置信息;或者,获取辅查询地址,并将所述辅查询地址确定为所述第一查询地址。4.根据权利要求3所述的文本处理方法,其特征在于,所述获取辅查询地址,包括:当所述待处理文本中包括括号,且所述括号内的文本满足预设条件,且所述括号内的文本中不包括所述断句符号时,将所述括号内的文本确定为所述辅查询地址;或者,当所述待处理文本中包括所述括号,且所述括号内的文本满足所述预设条件,且所述括号内的文本中包括所述断句符号时,根据所述断句符号将所述括号内的文本划分为多个第三子文本,并将满足所述预设条件的第三子文本确定为所述辅查询地址;或者,当所述待处理文本中包括所述括号,且所述括号内的文本不满足所述预设条件,且所述括号外的文本中包括所述断句符号时,根据所述断句符号将所述括号外的文本划分为多个第四子文本,并将除首个第四子文本以外的其他第四子文本中,满足所述预设条件的第四子文本确定为所述辅查询地址;或者,当所述待处理文本中不包括所述括号,且所述待处理文本中包括所述断句符号时,根据所述断句符号将所述待处理文本划分为多个第五子文本,并将除首个第五子文本以外的其他第五子文本中,满足所述预设条件的第五子文本确定为所述辅查询地址。
5.根据权利要求1所述的文本处理方法,其特征在于,还包括:获取样例文本,并将所述样例文本进行分词处理,以得到多个第六子文本;所述样例文本...

【专利技术属性】
技术研发人员:郝若晶成晨程新洲吴洋张亚南杨子敬夏蕊赫欣张屹张晴晴韩玉辉
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1