数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:18940509 阅读:34 留言:0更新日期:2018-09-15 11:04
本发明专利技术实施例公开了一种数据处理方法、装置、电子设备及存储介质,对第一数据集进行分词处理,对得到的分词进行词性分析,确定数据集中的同义词,将该同义词扩充到预定义的同义词词典中,然后从第一数据集中的各数据样本中提取关键词,根据提取的关键词构建与各个数据样本对应的代表词,根据扩充后的同义词词典对构建的代表词进行聚合处理,得到第二数据集。当第二数据集作为提示词集合应用于垂直搜索引擎时,提示词能够关联较多的内容,使得搜索结果能够满足用户实际需求,提高了对用户的辅助性。而且,由于提示词集合的数量较少,因此垂直搜索引擎能够快速展示提示词,提高搜索的便捷性。

Data processing method, device, electronic equipment and storage medium

The embodiment of the present invention discloses a data processing method, apparatus, electronic equipment and storage medium, performs word segmentation on the first data set, performs word analysis on the obtained word segmentation, determines the synonyms in the data set, extends the synonyms into a predefined synonym dictionary, and then from the numbers in the first data set. According to the key words extracted from the sample, the representative words corresponding to each data sample are constructed according to the extracted key words, and the constructed representative words are aggregated according to the expanded synonym dictionary to get the second data set. When the second data set is used as a set of prompts in the vertical search engine, prompts can associate more content, so that the search results can meet the actual needs of users, and improve the user's assistance. Moreover, due to the small number of prompts, vertical search engines can quickly display prompts and improve the search convenience.

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质
本专利技术涉及信息处理
,更具体地说,涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
垂直搜索引擎是常用的搜索引擎之一。它是针对某一特定领域而提出的一种搜索服务,因其搜索速度和搜索结果的精准性均较通用搜索引擎有所提高,因而正引起越来越多人的关注。为了使得搜索更加便捷,当用户在搜索输入框输入关键词后,垂直搜索引擎会根据用户输入的关键词在提示词集合中选择相关的词或词组作为搜索提示词展示给用户,由用户在给出的搜索提示词中选择一提示词作为搜索关键词,垂直搜索引擎根据用户选择的搜索关键词进行搜索。其中,垂直搜索引擎提供提示词所使用的提示词集合是通过对垂直搜索引擎所针对的特定领域的数据集进行数据聚合得到。专利技术人研究发现,传统的数据聚合方法聚合得到的数据集作为提示词集合应用到垂直搜索引擎时,用户在选择提示词后,难以搜索到自己想要的内容,对用户的辅助性较低。
技术实现思路
本专利技术的目的是提供一种数据处理方法、装置、电子设备及存储介质,以克服上述现有技术存在的问题。为实现上述目的,本专利技术提供了如下技术方案:一种数据处理方法,包括:对第一数据集进行分词处理,得若干分词;对所述分词进行词性分析,以确定所述若干分词中的同义词,并将所确定的同义词添加至预定义的第一同义词词典中,得到第二同义词词典,所述第一同义词词典中包括至少一组自定义的同义词;根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词;其中,所提取的关键的数量与数据样本的长度相适应;根据所述第二同义词词典对构建的代表词进行聚合处理,得到第二数据集。上述方法,优选的,所述根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词,包括:获取所述数据样本的长度;若所述数据样本的长度小于预设阈值,将所述数据样本作为与所述数据样本对应的代表词;若所述数据样本的长度大于或等于所述预设阈值,根据所述若干分词,从所述数据样本中提取关键词,根据所提取的关键词构建与所述数据样本对应的代表词。上述方法,优选的,所述根据所述若干分词,从所述数据样本中提取关键词,根据所提取的关键词构建与所述数据样本对应的代表词,包括:若所述数据样本由至少两个句子构成,对每个所述句子分别进行关键词提取,并去除所提取的关键词中的单字;针对每个所述句子,根据保留的关键词在所述句子中的位置以及关键词的长度,计算任意相邻两个关键词之间的间隔,并将得到的所有间隔求和,得到与所保留的关键词对应的和值;根据最小和值对应的保留的关键词构建与所述数据样本对应的代表词。上述方法,优选的,所述根据所述第二同义词词典对构建的代表词进行聚合处理,得到第二数据集,包括:若依据所述第二同义词词典确定第一代表词中的第一关键词存在同义词,获取与所述第一关键词及其同义词对应的预置关键词;用所述预置关键词替换所述第一代表词中的第一关键词,得到所述第一代表词的同义词;基于所述第一代表词的同义词对所述构建的代表词进行去重处理,得到所述第二数据集。上述方法,优选的,所述基于所述第一代表词的同义词对所述构建的代表词进行去重处理,包括:若所述构建的代表词中存在与所述第一代表词的同义词相同的第二代表词,将所述第一代表词和所述第二代表词进行去重处理;若所述构建的代表词中的第三代表词的同义词与所述第一代表词的同义词相同,对所述第一代表词和所述第三代表词进行去重处理。上述方法,优选的,所述基于所述第一代表词的同义词对所述构建的代表词进行去重处理,包括:若所述构建的代表词中各个代表词均存在同义词,则将所述代表词的同义词中的各个关键词按预设规则进行排序,得到排序后的同义词;基于所述排序后的同义词为所述代表词的同义词分配唯一识别标识;将所述唯一识别标识与所述代表词相对应;将所述构建的代表词中对应相同唯一识别标识的代表词进行去重处理。上述方法,优选的,所述基于所述第一代表词的同义词对所述构建的代表词进行去重处理,包括:若所述构建的代表词中第一部分的代表词存在同义词,第二部分的代表词不存在同义词,则:将所述第一部分的代表词的同义词中的各个关键词按预设规则进行排序,得到排序后的同义词;基于所述排序后的同义词为所述第一部分的代表词的同义词分配唯一识别标识;将分配的唯一识别标识与所述第一部分的代表词相对应;将所述第二部分的代表词中的各个关键词按预设规则进行排序,得到排序后的代表词;基于所述排序后的代表词为所述第二部分的代表词分配唯一识别标识;将所述获取的代表词中对应相同唯一识别标识的代表词进行去重处理。一种数据处理装置,包括:分词模块,用于对第一数据集进行分词处理,得若干分词;词性分析模块,用于对所述分词进行词性分析,以确定所述若干分词中的同义词,并将所确定的同义词添加至预定义的第一同义词词典中,得到第二同义词词典,所述第一同义词词典中包括至少一组自定义的同义词;提取模块,用于根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词;其中,所提取的关键的数量与数据样本的长度相适应;聚合模块,用于根据所述第二同义词词典对构建的代表词进行聚合处理,得到第二数据集。一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上所述的数据处理方法。一种电子设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的数据处理方法。本申请提供的一种数据处理方法、装置、电子设备及存储介质,对第一数据集进行分词处理,对得到的分词进行词性分析,确定数据集中的同义词,将该同义词扩充到预定义的同义词词典中,然后从第一数据集中的各数据样本中提取关键词,根据提取的关键词构建与各个数据样本对应的代表词,根据扩充后的同义词词典对构建的代表词进行聚合处理,得到第二数据集。由于聚合处理过程考虑了词之间的相似性,且代表词中关键词的数量与样本数据的长度相适应,因此,使得聚合后的数据的数据量尽量少,且携带了较大的信息量,能够较充分的表征数据样本的特征,因而,当聚合后的数据(即第二数据集)作为提示词集合应用于垂直搜索引擎时,提示词能够关联较多的内容,使得搜索结果能够满足用户实际需求,提高了对用户的辅助性。而且,由于提示词集合的数量较少,因此垂直搜索引擎能够快速展示提示词,提高搜索的便捷性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施提供的数据处理方法的一种实现流程图;图2为本申请实施提供的根据若干分词,从第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个数据样本对应的代表词的一种实现流程图;图3为本申请实施提供的数据处理装置的一种结构示意图。说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:对第一数据集进行分词处理,得若干分词;对所述分词进行词性分析,以确定所述若干分词中的同义词,并将所确定的同义词添加至预定义的第一同义词词典中,得到第二同义词词典,所述第一同义词词典中包括至少一组自定义的同义词;根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词;其中,所提取的关键的数量与数据样本的长度相适应;根据所述第二同义词词典对构建的代表词进行聚合处理,得到第二数据集。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:对第一数据集进行分词处理,得若干分词;对所述分词进行词性分析,以确定所述若干分词中的同义词,并将所确定的同义词添加至预定义的第一同义词词典中,得到第二同义词词典,所述第一同义词词典中包括至少一组自定义的同义词;根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词;其中,所提取的关键的数量与数据样本的长度相适应;根据所述第二同义词词典对构建的代表词进行聚合处理,得到第二数据集。2.根据权利要求1所述的方法,其特征在于,所述根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词,包括:获取所述数据样本的长度;若所述数据样本的长度小于预设阈值,将所述数据样本作为与所述数据样本对应的代表词;若所述数据样本的长度大于或等于所述预设阈值,根据所述若干分词,从所述数据样本中提取关键词,根据所提取的关键词构建与所述数据样本对应的代表词。3.根据权利要求2所述的方法,其特征在于,所述根据所述若干分词,从所述数据样本中提取关键词,根据所提取的关键词构建与所述数据样本对应的代表词,包括:若所述数据样本由至少两个句子构成,对每个所述句子分别进行关键词提取,并去除所提取的关键词中的单字;针对每个所述句子,根据保留的关键词在所述句子中的位置以及关键词的长度,计算任意相邻两个关键词之间的间隔,并将得到的所有间隔求和,得到与所保留的关键词对应的和值;根据最小和值对应的保留的关键词构建与所述数据样本对应的代表词。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述根据所述第二同义词词典对构建的代表词进行聚合处理,得到第二数据集,包括:若依据所述第二同义词词典确定第一代表词中的第一关键词存在同义词,获取与所述第一关键词及其同义词对应的预置关键词;用所述预置关键词替换所述第一代表词中的第一关键词,得到所述第一代表词的同义词;基于所述第一代表词的同义词对所述构建的代表词进行去重处理,得到所述第二数据集。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一代表词的同义词对所述构建的代表词进行去重处理,包括:若所述构建的代表词中存在与所述第一代表词的同义词相同的第二代表词,将所述第一代表词和所述第二代表词进行去重处理;若所述构...

【专利技术属性】
技术研发人员:孔维斌黄伟朱晓华廖成才
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1