一种海量数据文本信息提取方法及系统技术方案

技术编号:38223352 阅读:11 留言:0更新日期:2023-07-25 17:55
本申请公开了一种海量数据文本信息提取方法及系统,本说明书中的方法是基于文本实现的,文本作为一种易于存储、识别的信息表达方式,为较为准确的获取语义提供了基础。本说明书中的方法以指定地理范围为界,以指定地理范围生成的待处理文本作为处理对象,能够将地域特色、地域用户的喜好纳入信息处理过程的考察范围,使得文本处理的结果中能够体现出地域特点,使得本说明书中的方法更适于需要突出地域特点的场景中,例如生鲜配送、外卖配送的场景中。将待处理的文本分为第一文本和第二文本,第二文本用于对第一文本进行筛选,而文本的信息提取是基于筛选的结果进行的,能够有效地减少需要信息提取的文本的量。少需要信息提取的文本的量。少需要信息提取的文本的量。

【技术实现步骤摘要】
一种海量数据文本信息提取方法及系统


[0001]本申请涉及基于特定计算机模型的文本处理
,尤其涉及一种海量数据文本信息提取方法及系统。

技术介绍

[0002]随着信息技术的发展,信息规模、信息体量都不断扩大,对全部地理范围内进行的信息处理面临着较大的压力。地域性的信息处理成为了新的发展方向之一。
[0003]若按照全部地理范围内的信息处理逻辑进行地域性信息处理,那么将会丧失地域性的特点,也会影响用户体验。例如,雪地靴较适于在寒冷的北方地区穿着,但在南方确不适宜。若濒临冬季,雪地靴销量暴增,现有技术多会将雪地靴作为热销商品进行大范围推广,使得南方地区的用户也会收到雪地靴的推荐信息。这样一方面会导致信息处理资源的浪费,另一方面也会降低用户体验。
[0004]可见,在信息推荐场景中,如何实现行之有用的信息处理,成为亟待解决的问题。

技术实现思路

[0005]本申请实施例提供了一种海量数据文本信息提取方法及系统,以至少部分的解决上述技术问题。
[0006]本申请实施例采用下述技术方案:第一方面,本申请实施例提供一种海量数据文本信息提取方法,所述方法应用于海量数据文本信息提取系统的服务器,所述方法包括:获取待处理文本;其中,所述待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的;采用预设的文本筛选模型,对所述待处理文本进行筛选,以将所述待处理文本中语义清晰度大于预设的清晰度阈值的第一指定数量个,确定为第一文本;将所述待处理文本中除所述第一文本以外的,确定为第二文本;其中,所述文本筛选模型用于确定所述语义清晰度;对所述第一文本进行目标字段提取,得到第一字段;针对每个所述第一字段,在所述第二文本中查找包含与之相似度大于预设的第一匹配度阈值的字段的第二文本,作为所述第一字段对应的可用文本;若所述可用文本在所述第二文本中占比大于预设的比例阈值,则将其对应的所述第一字段,确定为第一目标字段;将包含的所述第一目标字段大于预设的第二指定数量的所述第一文本,确定为目标文本;基于所述目标文本,进行信息提取。
[0007]在本说明书一个可选的实施例中,获取待处理文本,包括:将历史上的所述信息获取请求,作为所述待处理文本;和/或,
对历史上基于所述信息获取请求返回给所述用户的信息进行处理,得到所述待处理文本。
[0008]在本说明书一个可选的实施例中,所述文本筛选模型包含信息推荐过程中用于对至少部分主体进行表征的参照字段,采用所述文本筛选模型确定所述待处理文本的语义清晰度,包括:分别针对所述待处理文本包含的每个字段,确定其与所述参照字段的最大匹配度;针对每个所述待处理文本,将其包含的所述字段对应的所述最大匹配度取值最大的,作为第一匹配度;将其包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为第二匹配度;确定映射区间;将所述第一匹配度映射至所述映射区间的最大值,将所述第二匹配度映射至所述映射区间的最小值,将所述待处理文本包含的所述字段对应的其他的所述最大匹配度按照其与所述第一匹配度和所述第二匹配度的差值的比例,映射至所述映射区间内;对映射至所述映射区间内的各所述最大匹配度进行综合,得到所述待处理文本的语义清晰度。
[0009]在本说明书一个可选的实施例中,所述第一指定数量与距当前时刻指定时长的历史时间段内,所述用户访问所述服务器的次数正相关、且与所述待处理文本各自包含的所述字段对应所述最大匹配度之和负相关。
[0010]在本说明书一个可选的实施例中,将其包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为第二匹配度,包括:若所述待处理文本包含的所述字段半数以上对应的所述最大匹配度的取值在映射之后所属的区间范围,在所述映射区间所占的区间范围小于等于所述映射区间的指定比例,则将所述待处理文本包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为所述第二匹配度;其中,所述指定比例与各待处理文本包含的所述字段的平均数量负相关;若所述待处理文本包含的所述字段半数以上对应的所述最大匹配度的取值在映射之后所属的区间范围,在所述映射区间所占的区间范围不小于所述指定比例,则将所述待处理文本包含的所述字段对应的所述最大匹配度取值最小的,作为所述第二匹配度。
[0011]在本说明书一个可选的实施例中,所述第一匹配度阈值与所述待处理文本中语义清晰度大于所述清晰度阈值的个数正相关、且与所述待处理文本的个数负相关。
[0012]在本说明书一个可选的实施例中,所述第二指定数量与距当前时刻指定时长的历史时间段内,所述用户访问所述服务器的次数正相关、且与所述待处理文本的个数正相关。
[0013]在本说明书一个可选的实施例中,所述方法还包括:对预设的信息库进行查找,得到与所述指定地理范围匹配的商品信息,作为所述待展示信息;根据所述待展示信息与所述信息提取的结果的匹配度由大到小,对所述待展示信息进行排序;在接收到所述用户的信息获取请求的情况下,按照所述排序,将所述待展示信息推荐给所述用户。
[0014]第二方面,本申请实施例还提供一种海量数据文本信息提取系统,所述系统包括服务器,所述服务器包括:文本获取模块,配置为:获取待处理文本;其中,所述待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的;筛选模块,配置为:采用预设的文本筛选模型,对所述待处理文本进行筛选,以将所述待处理文本中语义清晰度大于预设的清晰度阈值的第一指定数量个,确定为第一文本;将所述待处理文本中除所述第一文本以外的,确定为第二文本;其中,所述文本筛选模型用于确定所述语义清晰度;第一字段确定模块,配置为:对所述第一文本进行目标字段提取,得到第一字段;可用文本确定模块,配置为:针对每个所述第一字段,在所述第二文本中查找包含与之相似度大于预设的第一匹配度阈值的字段的第二文本,作为所述第一字段对应的可用文本;第一目标字段确定模块,配置为:若所述可用文本在所述第二文本中占比大于预设的比例阈值,则将其对应的所述第一字段,确定为第一目标字段;目标文本确定模块,配置为:将包含的所述第一目标字段大于预设的第二指定数量的所述第一文本,确定为目标文本;信息提取模块,配置为:基于所述目标文本,进行信息提取。
[0015]第三方面,本申请实施例还提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。
[0016]第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面所述的方法步骤。
[0017]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本说明书中的方法是基于文本实现的,文本作为一种易于存储、识别的信息表达方式,为较为准确的获取语义提供了基础。本说明书中的方法以指定地理范围为界,以指定地理范围生成的待处理文本作为处理对象,能够将地域特色、地域用户的喜好纳入信息处理过程的考察范围,使得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种海量数据文本信息提取方法,其特征在于,所述方法应用于海量数据文本信息提取系统的服务器,所述方法包括:获取待处理文本;其中,所述待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的;采用预设的文本筛选模型,对所述待处理文本进行筛选,以将所述待处理文本中语义清晰度大于预设的清晰度阈值的第一指定数量个,确定为第一文本;将所述待处理文本中除所述第一文本以外的,确定为第二文本;其中,所述文本筛选模型用于确定所述语义清晰度;对所述第一文本进行目标字段提取,得到第一字段;针对每个所述第一字段,在所述第二文本中查找包含与之相似度大于预设的第一匹配度阈值的字段的第二文本,作为所述第一字段对应的可用文本;若所述可用文本在所述第二文本中占比大于预设的比例阈值,则将其对应的所述第一字段,确定为第一目标字段;将包含的所述第一目标字段大于预设的第二指定数量的所述第一文本,确定为目标文本;基于所述目标文本,进行信息提取。2.如权利要求1所述方法,其特征在于,获取待处理文本,包括:将历史上的所述信息获取请求,作为所述待处理文本;和/或,对历史上基于所述信息获取请求返回给所述用户的信息进行处理,得到所述待处理文本。3.如权利要求1所述方法,其特征在于,所述文本筛选模型包含信息推荐过程中用于对至少部分主体进行表征的参照字段,采用所述文本筛选模型确定所述待处理文本的语义清晰度,包括:分别针对所述待处理文本包含的每个字段,确定其与所述参照字段的最大匹配度;针对每个所述待处理文本,将其包含的所述字段对应的所述最大匹配度取值最大的,作为第一匹配度;将其包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为第二匹配度;确定映射区间;将所述第一匹配度映射至所述映射区间的最大值,将所述第二匹配度映射至所述映射区间的最小值,将所述待处理文本包含的所述字段对应的其他的所述最大匹配度按照其与所述第一匹配度和所述第二匹配度的差值的比例,映射至所述映射区间内;对映射至所述映射区间内的各所述最大匹配度进行综合,得到所述待处理文本的语义清晰度。4.如权利要求3所述方法,其特征在于,所述第一指定数量与距当前时刻指定时长的历史时间段内,所述用户访问所述服务器的次数正相关、且与所述待处理文本各自包含的所述字段对应所述最大匹配度之和负相关。5.如权利要求3所述方法,其特征在于,将其包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为第二匹配度,包括:若所述待处理文本包含的所述字段半数以上对应的所述最大匹配度的取值在映射之
后所属的区间范围,在所述映射区间...

【专利技术属性】
技术研发人员:程越王双高昂万利李柏晨刘昱玮
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1