The embodiment of the present invention discloses a data processing method, apparatus, electronic equipment and storage medium, performs word segmentation on the first data set, performs word analysis on the obtained word segmentation, determines the synonyms in the data set, extends the synonyms into a predefined synonym dictionary, and then from the numbers in the first data set. According to the key words extracted from the sample, the representative words corresponding to each data sample are constructed according to the extracted key words, and the constructed representative words are aggregated according to the expanded synonym dictionary to get the second data set. When the second data set is used as a set of prompts in the vertical search engine, prompts can associate more content, so that the search results can meet the actual needs of users, and improve the user's assistance. Moreover, due to the small number of prompts, vertical search engines can quickly display prompts and improve the search convenience.
【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质
本专利技术涉及信息处理
,更具体地说,涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
垂直搜索引擎是常用的搜索引擎之一。它是针对某一特定领域而提出的一种搜索服务,因其搜索速度和搜索结果的精准性均较通用搜索引擎有所提高,因而正引起越来越多人的关注。为了使得搜索更加便捷,当用户在搜索输入框输入关键词后,垂直搜索引擎会根据用户输入的关键词在提示词集合中选择相关的词或词组作为搜索提示词展示给用户,由用户在给出的搜索提示词中选择一提示词作为搜索关键词,垂直搜索引擎根据用户选择的搜索关键词进行搜索。其中,垂直搜索引擎提供提示词所使用的提示词集合是通过对垂直搜索引擎所针对的特定领域的数据集进行数据聚合得到。专利技术人研究发现,传统的数据聚合方法聚合得到的数据集作为提示词集合应用到垂直搜索引擎时,用户在选择提示词后,难以搜索到自己想要的内容,对用户的辅助性较低。
技术实现思路
本专利技术的目的是提供一种数据处理方法、装置、电子设备及存储介质,以克服上述现有技术存在的问题。为实现上述目的,本专利技术提供了如下技术方案:一种数据处理方法,包括:对第一数据集进行分词处理,得若干分词;对所述分词进行词性分析,以确定所述若干分词中的同义词,并将所确定的同义词添加至预定义的第一同义词词典中,得到第二同义词词典,所述第一同义词词典中包括至少一组自定义的同义词;根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词;其中,所提取的关键的数量与数据样本的长度相适应;根据所述第 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:对第一数据集进行分词处理,得若干分词;对所述分词进行词性分析,以确定所述若干分词中的同义词,并将所确定的同义词添加至预定义的第一同义词词典中,得到第二同义词词典,所述第一同义词词典中包括至少一组自定义的同义词;根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词;其中,所提取的关键的数量与数据样本的长度相适应;根据所述第二同义词词典对构建的代表词进行聚合处理,得到第二数据集。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:对第一数据集进行分词处理,得若干分词;对所述分词进行词性分析,以确定所述若干分词中的同义词,并将所确定的同义词添加至预定义的第一同义词词典中,得到第二同义词词典,所述第一同义词词典中包括至少一组自定义的同义词;根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词;其中,所提取的关键的数量与数据样本的长度相适应;根据所述第二同义词词典对构建的代表词进行聚合处理,得到第二数据集。2.根据权利要求1所述的方法,其特征在于,所述根据所述若干分词,从所述第一数据集中的各个数据样本中提取关键词,并根据提取的关键词构建与各个所述数据样本对应的代表词,包括:获取所述数据样本的长度;若所述数据样本的长度小于预设阈值,将所述数据样本作为与所述数据样本对应的代表词;若所述数据样本的长度大于或等于所述预设阈值,根据所述若干分词,从所述数据样本中提取关键词,根据所提取的关键词构建与所述数据样本对应的代表词。3.根据权利要求2所述的方法,其特征在于,所述根据所述若干分词,从所述数据样本中提取关键词,根据所提取的关键词构建与所述数据样本对应的代表词,包括:若所述数据样本由至少两个句子构成,对每个所述句子分别进行关键词提取,并去除所提取的关键词中的单字;针对每个所述句子,根据保留的关键词在所述句子中的位置以及关键词的长度,计算任意相邻两个关键词之间的间隔,并将得到的所有间隔求和,得到与所保留的关键词对应的和值;根据最小和值对应的保留的关键词构建与所述数据样本对应的代表词。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述根据所述第二同义词词典对构建的代表词进行聚合处理,得到第二数据集,包括:若依据所述第二同义词词典确定第一代表词中的第一关键词存在同义词,获取与所述第一关键词及其同义词对应的预置关键词;用所述预置关键词替换所述第一代表词中的第一关键词,得到所述第一代表词的同义词;基于所述第一代表词的同义词对所述构建的代表词进行去重处理,得到所述第二数据集。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一代表词的同义词对所述构建的代表词进行去重处理,包括:若所述构建的代表词中存在与所述第一代表词的同义词相同的第二代表词,将所述第一代表词和所述第二代表词进行去重处理;若所述构...
【专利技术属性】
技术研发人员:孔维斌,黄伟,朱晓华,廖成才,
申请(专利权)人:广州华多网络科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。