一种文本数据确定方法和装置制造方法及图纸

技术编号:30338258 阅读:22 留言:0更新日期:2021-10-12 22:59
本发明专利技术公开了一种文本数据确定方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取文本数据;根据关键词条对文本数据进行过滤得到备选文本数据;根据存储设备中的历史文本数据对备选文本数据进行相似性去重,以确定目标文本数据;为每个目标文本数据分配一个存储序号,根据存储序号和目标文本数据的类型确定目标文本对应的标识码,将目标文本数据置入存储设备。该实施方式降低了文本数据的相似度,提高了文本数据的提取效率和时效性,以及提升了文本数据后续提取的便捷性。以及提升了文本数据后续提取的便捷性。以及提升了文本数据后续提取的便捷性。

【技术实现步骤摘要】
一种文本数据确定方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种文本数据确定方法和装置。

技术介绍

[0002]与传统媒体相比,新媒介影响力更大,凝聚力更强,传播更便捷,已成为不同利益群体表达诉求的重要平台与载体。对企业或个人而言,如何实时有效的从新媒介中提取与自身需求相关的文本数据越发重要。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]现有方法确定的文本数据相似度较高,提取效率低,时效性较差。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种文本数据确定方法和装置,能够降低提取的文本数据的相似度,提高提取效率和时效性。
[0006]为实现上述目的,根据本专利技术实施例的第一方面,提供了一种文本数据确定方法,包括:
[0007]获取文本数据;
[0008]根据关键词条对文本数据进行过滤得到备选文本数据;
[0009]根据存储设备中的历史文本数据对备选文本数据进行相似性去重,以确定目标文本数据;
[0010]为每个目标文本数据分配一个存储序号,根据存储序号和目标文本数据的类型确定目标文本对应的标识码,将目标文本数据置入存储设备。
[0011]进一步地,在根据关键词条对文本数据进行过滤得到备选文本数据的步骤之前,文本数据确定方法还包括:根据文本数据的类型和标题进行相同文本数据去重。
[0012]进一步地,根据文本数据的类型和标题进行相同文本数据去重的步骤包括:根据取值算法对同一类型的文本数据的标题进行取值得到同一类型的文本数据对应的键值,根据键值进行相同文本数据的去重。
[0013]进一步地,根据存储设备中的历史文本数据对备选文本数据进行相似性去重,以确定目标文本数据的步骤包括:根据分词算法对备选文本数据进行分词处理后获取备选文本数据对应的特征向量,根据备选文本数据对应的特征向量和历史文本数据对应的特征向量进行相似度计算,根据相似度计算结果确定目标文本数据。
[0014]进一步地,根据备选文本数据对应的特征向量和历史文本数据对应的特征向量进行相似度计算的步骤包括:配置单次计算数量,根据备选文本数据对应的特征向量和单次计算数量的历史文本数据对应的特征向量进行相似度计算。
[0015]进一步地,在将目标文本数据置入存储设备的步骤之后,文本数据确定方法还包括:向订阅部门发送更新通知,以使得订阅部门接收更新通知后,根据标识码和关键词条指示的文本数据类型从存储设备中提取相应的目标文本数据,其中,关键词条由订阅部门进
行设定。
[0016]根据本专利技术实施例的第二方面,提供了一种文本数据确定装置,包括:
[0017]文本数据获取模块,用于获取文本数据;
[0018]过滤模块,用于根据关键词条对文本数据进行过滤得到备选文本数据;
[0019]目标文本数据确定模块,用于根据存储设备中的历史文本数据对备选文本数据进行相似性去重,以确定目标文本数据;
[0020]存储模块,用于为每个目标文本数据分配一个存储序号,根据存储序号和目标文本数据的类型确定目标文本对应的标识码,将目标文本数据置入存储设备。
[0021]进一步地,文本数据确定装置还包括去重模块,在根据关键词条对文本数据进行过滤得到备选文本数据的步骤之前,去重模块用于:根据文本数据的类型和标题进行相同文本数据去重。
[0022]根据本专利技术实施例的第三方面,提供了一种电子设备,包括:
[0023]一个或多个处理器;
[0024]存储装置,用于存储一个或多个程序,
[0025]当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述任一种文本数据确定方法。
[0026]根据本专利技术实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一种文本数据确定方法。
[0027]上述专利技术中的一个实施例具有如下优点或有益效果:因为采用获取文本数据;根据关键词条对文本数据进行过滤得到备选文本数据;根据存储设备中的历史文本数据对备选文本数据进行相似性去重,以确定目标文本数据;为每个目标文本数据分配一个存储序号,根据存储序号和目标文本数据的类型确定目标文本对应的标识码,将目标文本数据置入存储设备的技术手段,所以克服了现有方法确定的文本数据存在的相似度较高,提取效率低,时效性较差的技术问题,进而达到降低文本数据的相似度,提高文本数据的提取效率和时效性,以及提升文本数据后续提取的便捷性的技术效果。
[0028]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0029]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0030]图1是根据本专利技术第一实施例提供的文本数据确定方法的主要流程的示意图;
[0031]图2a是根据本专利技术第二实施例提供的文本数据确定方法的主要流程的示意图;
[0032]图2b是图2a所示方法中根据关键词条对文本数据进行过滤的示例;
[0033]图2c是图2a所示方法中计算相似度的示例;
[0034]图3是根据本专利技术实施例提供的文本数据确定装置的主要模块的示意图;
[0035]图4是本专利技术实施例可以应用于其中的示例性系统架构图;
[0036]图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0037]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0038]图1是根据本专利技术第一实施例提供的文本数据确定方法的主要流程的示意图;如图1所示,本专利技术实施例提供的文本数据确定方法主要包括:
[0039]步骤S101,获取文本数据。
[0040]具体地,根据本专利技术实施例,可以从企业/公司内各部门或与企业/公司有合作的平台或企业等渠道获取文本数据。由上述渠道提供文本数据,有效避免了通过随机抽取导致的大量无效文本数据,也避免了文本提取方法重复造轮子,提高了后续文本提取效率。
[0041]步骤S102,根据关键词条对文本数据进行过滤得到备选文本数据。
[0042]根据企业或企业内各部门设定的关键词条对文本数据进行过滤,针对性强,增强了后续的文本数据确定效果。关键词条的设定可为多个,例如,可以为企业名称、企业品牌等。
[0043]根据本专利技术实施例,在根据关键词条对文本数据进行过滤得到备选文本数据的步骤之前,文本数据确定方法还包括:根据文本数据的类型和标题进行相同文本数据去重。
[0044]其中,文本数据的类型包括文本数据发布的渠道类型(指各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据确定方法,其特征在于,包括:获取文本数据;根据关键词条对所述文本数据进行过滤得到备选文本数据;根据存储设备中的历史文本数据对所述备选文本数据进行相似性去重,以确定目标文本数据;为每个目标文本数据分配一个存储序号,根据所述存储序号和目标文本数据的类型确定目标文本对应的标识码,将所述目标文本数据置入存储设备。2.根据权利要求1所述的文本数据确定方法,其特征在于,在所述根据关键词条对所述文本数据进行过滤得到备选文本数据的步骤之前,所述文本数据确定方法还包括:根据文本数据的类型和标题进行相同文本数据去重。3.根据权利要求2所述的文本数据确定方法,其特征在于,所述根据文本数据的类型和标题进行相同文本数据去重的步骤包括:根据取值算法对同一类型的文本数据的标题进行取值得到同一类型的文本数据对应的键值,根据所述键值进行相同文本数据的去重。4.根据权利要求1所述的文本数据确定方法,其特征在于,所述根据存储设备中的历史文本数据对所述备选文本数据进行相似性去重,以确定目标文本数据的步骤包括:根据分词算法对所述备选文本数据进行分词处理后获取所述备选文本数据对应的特征向量,根据所述备选文本数据对应的特征向量和历史文本数据对应的特征向量进行相似度计算,根据相似度计算结果进行去重,以确定目标文本数据。5.根据权利要求4所述的文本数据确定方法,其特征在于,所述根据所述备选文本数据对应的特征向量和历史文本数据对应的特征向量进行相似度计算的步骤包括:配置单次计算数量,根据所述备选文本数据对应的特征向量和单次计算数...

【专利技术属性】
技术研发人员:周凯
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1