一种海量数据文本信息提取方法及系统技术方案

技术编号：38223352 阅读：29 留言：0更新日期：2023-07-25 17:55

本申请公开了一种海量数据文本信息提取方法及系统，本说明书中的方法是基于文本实现的，文本作为一种易于存储、识别的信息表达方式，为较为准确的获取语义提供了基础。本说明书中的方法以指定地理范围为界，以指定地理范围生成的待处理文本作为处理对象，能够将地域特色、地域用户的喜好纳入信息处理过程的考察范围，使得文本处理的结果中能够体现出地域特点，使得本说明书中的方法更适于需要突出地域特点的场景中，例如生鲜配送、外卖配送的场景中。将待处理的文本分为第一文本和第二文本，第二文本用于对第一文本进行筛选，而文本的信息提取是基于筛选的结果进行的，能够有效地减少需要信息提取的文本的量。少需要信息提取的文本的量。少需要信息提取的文本的量。

全部详细技术资料下载

【技术实现步骤摘要】
一种海量数据文本信息提取方法及系统

[0001]本申请涉及基于特定计算机模型的文本处理
，尤其涉及一种海量数据文本信息提取方法及系统。

技术介绍

[0002]随着信息技术的发展，信息规模、信息体量都不断扩大，对全部地理范围内进行的信息处理面临着较大的压力。地域性的信息处理成为了新的发展方向之一。
[0003]若按照全部地理范围内的信息处理逻辑进行地域性信息处理，那么将会丧失地域性的特点，也会影响用户体验。例如，雪地靴较适于在寒冷的北方地区穿着，但在南方确不适宜。若濒临冬季，雪地靴销量暴增，现有技术多会将雪地靴作为热销商品进行大范围推广，使得南方地区的用户也会收到雪地靴的推荐信息。这样一方面会导致信息处理资源的浪费，另一方面也会降低用户体验。
[0004]可见，在信息推荐场景中，如何实现行之有用的信息处理，成为亟待解决的问题。

技术实现思路

[0005]本申请实施例提供了一种海量数据文本信息提取方法及系统，以至少部分的解决上述技术问题。
[0006]本申请实施例采用下述技术方案：第...

【技术保护点】

【技术特征摘要】
1.一种海量数据文本信息提取方法，其特征在于，所述方法应用于海量数据文本信息提取系统的服务器，所述方法包括：获取待处理文本；其中，所述待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的；采用预设的文本筛选模型，对所述待处理文本进行筛选，以将所述待处理文本中语义清晰度大于预设的清晰度阈值的第一指定数量个，确定为第一文本；将所述待处理文本中除所述第一文本以外的，确定为第二文本；其中，所述文本筛选模型用于确定所述语义清晰度；对所述第一文本进行目标字段提取，得到第一字段；针对每个所述第一字段，在所述第二文本中查找包含与之相似度大于预设的第一匹配度阈值的字段的第二文本，作为所述第一字段对应的可用文本；若所述可用文本在所述第二文本中占比大于预设的比例阈值，则将其对应的所述第一字段，确定为第一目标字段；将包含的所述第一目标字段大于预设的第二指定数量的所述第一文本，确定为目标文本；基于所述目标文本，进行信息提取。2.如权利要求1所述方法，其特征在于，获取待处理文本，包括：将历史上的所述信息获取请求，作为所述待处理文本；和/或，对历史上基于所述信息获取请求返回给所述用户的信息进行处理，得到所述待处理文本。3.如权利要求1所述方法，其特征在于，所述文本筛选模型包含信息推荐过程中用于对至少部分主体进行表征的参照字段，采用所述文本筛选模型确定所述待处理文本的语义清晰度，包括：分别针对所述待处理文本包含的每个字段，确定其与所述参照字段的最大匹配度；针对每个所述待处理文本，将其包含的所述字段对应的所述最大匹配度取值最大的，作为第一匹配度；将其包含的所述字段对应的所述最大匹配度非零、且取值最小的，作为第二匹配度；确定映射区间；将所述第一匹配度映射至所述映射区间的最大值，将所述第二匹配度映射至所述映射区间的最小值，将所述待处理文本包含的所述字段对应的其他的所述最大匹配度按照其与所述第一匹配度和所述第二匹配度的差值的比例，映射至所述映射区间内；对映射至所述映射区间内的各所述最大匹配度进行综合，得到所述待处理文本的语义清晰度。4.如权利要求3所述方法，其特征在于，所述第一指定数量与距当前时刻指定时长的历史时间段内，所述用户访问所述服务器的次数正相关、且与所述待处理文本各自包含的所述字段对应所述最大匹配度之和负相关。5.如权利要求3所述方法，其特征在于，将其包含的所述字段对应的所述最大匹配度非零、且取值最小的，作为第二匹配度，包括：若所述待处理文本包含的所述字段半数以上对应的所述最大匹配度的取值在映射之
后所属的区间范围，在所述映射区间...

【专利技术属性】
技术研发人员：程越，王双，高昂，万利，李柏晨，刘昱玮，
申请(专利权)人：中国标准化研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人