【技术实现步骤摘要】
一种分类搜索的方法和装置
本专利技术涉及数据处理
,特别涉及一种分类搜索的方法和装置。
技术介绍
网络信息分析就是根据特定的分析目标,对与这个分析目标贴合的网络信息进行深层次的思维、加工、分析和研究,并最终得到相关分析结论。网络信息分析的准确度取决于网络信息的数量和信息本身的贴合度。所以在进行网络信息分析之前,都需要收集足够数量的、尽可能贴近分析目标的海量数据来完成数据准备工作。然而在进行数据收集时,我们发现,虽然收集者可以通过人工查询、搜索引擎或网络爬虫软件等多种手段或工具,获取到足够多的原始信息源,但并不对收集到的信息源进行特征提取处理;所以,在后期分析阶段时,分析者只能通过全文比对的方式查找关键词所在的信息。这种处理方式的缺陷很明显,在数据量小的时候,执行时间长、搜索效率低下;在处理海量数据的时候,常常会出现计算资源溢出等问题,无法完成搜索。这不仅仅加大了分析人员的工作难度、也容易造成数据资源浪费、分析结果不准确等问题。
技术实现思路
本专利技术的目的,就是针对现有技术的缺陷,提供一种 ...
【技术保护点】
1.一种分类搜索的方法,其特征在于,所述方法包括:/n获取第一搜索关键词数据和第一搜索类型标签数据;/n对预设的第一信息记录集合的所有第一信息记录进行轮询,并将当前被轮询的所述第一信息记录,做为当前信息记录;所述第一信息记录集合包括多个所述第一信息记录;所述第一信息记录包括第一原文信息和第一关键词信息组序列;所述第一关键词信息组序列包括多个第一关键词信息组;所述第一关键词信息组包括第一关键词信息和第一关键词类型标签信息;/n从所述当前信息记录中,提取所述第一原文信息,做为当前原文信息;并提取所述第一关键词信息组序列,做为当前关键词信息组序列;/n根据所述第一搜索关键词数据, ...
【技术特征摘要】
1.一种分类搜索的方法,其特征在于,所述方法包括:
获取第一搜索关键词数据和第一搜索类型标签数据;
对预设的第一信息记录集合的所有第一信息记录进行轮询,并将当前被轮询的所述第一信息记录,做为当前信息记录;所述第一信息记录集合包括多个所述第一信息记录;所述第一信息记录包括第一原文信息和第一关键词信息组序列;所述第一关键词信息组序列包括多个第一关键词信息组;所述第一关键词信息组包括第一关键词信息和第一关键词类型标签信息;
从所述当前信息记录中,提取所述第一原文信息,做为当前原文信息;并提取所述第一关键词信息组序列,做为当前关键词信息组序列;
根据所述第一搜索关键词数据,对所述当前关键词信息组序列中的所有所述第一关键词信息,进行第一搜索匹配处理;
所述第一搜索匹配处理成功,则根据所述第一搜索类型标签数据,对所述当前关键词信息组序列中的所有所述第一关键词类型标签信息,进行第二搜索匹配处理;
所述第二搜索匹配处理成功,则将所述当前原文信息,做为第一搜索结果信息;
由所有所述第一搜索结果信息,组成第一搜索结果信息集合。
2.根据权利要求1所述的分类搜索的方法,其特征在于,所述根据所述第一搜索关键词数据,对所述当前关键词信息组序列中的所有所述第一关键词信息,进行第一搜索匹配处理,具体包括:
依次提取所述当前关键词信息组序列中的所述第一关键词信息,做为当前关键词信息,当所述当前关键词信息与所述第一搜索关键词数据相同时,所述第一搜索匹配处理成功。
3.根据权利要求1所述的分类搜索的方法,其特征在于,所述根据所述第一搜索类型标签数据,对所述当前关键词信息组序列中的所有所述第一关键词类型标签信息,进行第二搜索匹配处理,具体包括:
依次提取所述当前关键词信息组序列中的所述第一关键词类型标签信息,做为当前关键词类型标签信息,当所述当前关键词类型标签信息与所述第一搜索类型标签数据相同时,所述第二搜索匹配处理成功。
4.根据权利要求1所述的分类搜索的方法,其特征在于,所述获取第一搜索关键词数据和第一搜索类型标签数据之前,所述方法还包括:
获取第一原始信息;
对所述第一原始信息,进行第一人工智能分词处理,生成多个第一分词信息;
对每个所述第一分词信息,进行第一类型标签标记处理,生成对应的第一分词类型标签信息;
根据每个所述第一分词信息及对应所述第一分词类型标签信息,生成对应的所述第一关键词信息组;将每个所述第一分词信息,做为对应的所述第一关键词信息组的所述第一关键词信息;将每个所述第一分词信息对应的所述第一分词类型标签信息,做为对应的所述第一关键词信息组的所述第一关键词类型标签信息;
由所有所述第一关键词信息组,组成所述第一关键词信息组序列;
将所述第一原始信息,做为所述第一原文信息;
由所述第一原文信息和所述第一关键词信息组序列,组成所述第一信息记录;并由所述第一信息记录,组成所述第一信息记录集合。
5.根据权利要求4所述的分类搜索的方法,其特征在于,所述对所述第一原始信息,进行第一人工智能分词处理,生成多个第一分词信息,具体包括:
使用基于自然语言处理NLP理论的第一人工智能分词算法模型,对所述第一原始信息,进行分词处理,得到多个所述第一分词信息;所述第一人工智能分词算法模型包括正向最大匹配MM算法模型、逆向最大匹配RMM算法模型、双向最大匹配BM算法模型、隐含马尔可夫HMM算法模型和条件随机场CRF算法模型。
6.根据权利要求4所述的分类搜索的方法,其特征在于,所述对每个所述第一分词信息,进行第一类型标签标记处理,生成对应的第一分词类型标签信息,具体包括:
对预设的反映分词信息与分词类型标签信息对应关系的第一对应关系表的所有第一对应关系记录进行轮询,并将当前...
【专利技术属性】
技术研发人员:张莹,
申请(专利权)人:网娱互动科技北京股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。