一种文本数据确定方法和装置制造方法及图纸

技术编号：30338258 阅读：22 留言：0更新日期：2021-10-12 22:59

本发明专利技术公开了一种文本数据确定方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取文本数据；根据关键词条对文本数据进行过滤得到备选文本数据；根据存储设备中的历史文本数据对备选文本数据进行相似性去重，以确定目标文本数据；为每个目标文本数据分配一个存储序号，根据存储序号和目标文本数据的类型确定目标文本对应的标识码，将目标文本数据置入存储设备。该实施方式降低了文本数据的相似度，提高了文本数据的提取效率和时效性，以及提升了文本数据后续提取的便捷性。以及提升了文本数据后续提取的便捷性。以及提升了文本数据后续提取的便捷性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本数据确定方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种文本数据确定方法和装置。

技术介绍

[0002]与传统媒体相比，新媒介影响力更大，凝聚力更强，传播更便捷，已成为不同利益群体表达诉求的重要平台与载体。对企业或个人而言，如何实时有效的从新媒介中提取与自身需求相关的文本数据越发重要。
[0003]在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：
[0004]现有方法确定的文本数据相似度较高，提取效率低，时效性较差。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种文本数据确定方法和装置，能够降低提取的文本数据的相似度，提高提取效率和时效性。
[0006]为实现上述目的，根据本专利技术实施例的第一方面，提供了一种文本数据确定方法，包括：
[0007]获取文本数据；
[0008]根据关键词条对文本数据进行过滤得到备选文本数据；
[0009]根据存储设备中的历史文本数据对备选文本数据进行相似性去重，以确定目标文本数据；
[0010]为每个目标文本数据分配一个存储序号，根据存储序号和目标文本数据的类型确定目标文本对应的标识码，将目标文本数据置入存储设备。
[0011]进一步地，在根据关键词条对文本数据进行过滤得到备选文本数据的步骤之前，文本数据确定方法还包括：根据文本数据的类型和标题进行相同文本数据去重。
[0012]进一步地，根据文本数据的类型和标题进行相同文本数据去重的步骤包括...

【技术保护点】

【技术特征摘要】
1.一种文本数据确定方法，其特征在于，包括：获取文本数据；根据关键词条对所述文本数据进行过滤得到备选文本数据；根据存储设备中的历史文本数据对所述备选文本数据进行相似性去重，以确定目标文本数据；为每个目标文本数据分配一个存储序号，根据所述存储序号和目标文本数据的类型确定目标文本对应的标识码，将所述目标文本数据置入存储设备。2.根据权利要求1所述的文本数据确定方法，其特征在于，在所述根据关键词条对所述文本数据进行过滤得到备选文本数据的步骤之前，所述文本数据确定方法还包括：根据文本数据的类型和标题进行相同文本数据去重。3.根据权利要求2所述的文本数据确定方法，其特征在于，所述根据文本数据的类型和标题进行相同文本数据去重的步骤包括：根据取值算法对同一类型的文本数据的标题进行取值得到同一类型的文本数据对应的键值，根据所述键值进行相同文本数据的去重。4.根据权利要求1所述的文本数据确定方法，其特征在于，所述根据存储设备中的历史文本数据对所述备选文本数据进行相似性去重，以确定目标文本数据的步骤包括：根据分词算法对所述备选文本数据进行分词处理后获取所述备选文本数据对应的特征向量，根据所述备选文本数据对应的特征向量和历史文本数据对应的特征向量进行相似度计算，根据相似度计算结果进行去重，以确定目标文本数据。5.根据权利要求4所述的文本数据确定方法，其特征在于，所述根据所述备选文本数据对应的特征向量和历史文本数据对应的特征向量进行相似度计算的步骤包括：配置单次计算数量，根据所述备选文本数据对应的特征向量和单次计算数...

【专利技术属性】
技术研发人员：周凯，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人