当前位置: 首页 > 专利查询>刘莎专利>正文

一种互联网信息通用结构化精准搜索方法技术

技术编号:10527956 阅读:84 留言:0更新日期:2014-10-09 12:47
本发明专利技术应用互联网信息通用组织结构“双十定律”原理,通过建立组织结构词相同的互联网信息发布、搜索通用结构预设模版和数据库,采用人机交互方法获得各类互联网信息的通用结构化摘要,并将互联网各类信息摘要转换为添加了组织结构标识的发布信息综合索引,使各类互联网信息可以实现以主题关键词为核心的通用结构化搜索,可根本改善互联网信息搜索效率,实现网页信息和各类结构化信息的并行精准搜索。

【技术实现步骤摘要】

本专利技术涉及计算机及通信领域,特别是涉及到一种互联网信息通用结构化精准搜 索方法。
技术介绍
在互联网信息搜索领域,如何实现网页信息的精准搜索,实现网页信息和各类结 构化信息并行搜索,一直是没有得到有效解决的两个重大问题。相关技术人员在此类问题 上提出了各种解决方案,但其信息搜索精准度和普遍适用性都尚未得到实质性解决。 为了根本解决上述问题,我们从全文关键搜索结果中随机抽取互联网信息摘要进 行统计分析,从中发现了互联网信息的通用组织结构双十定律:无论在全文关键词搜索框 中输入任意关键字(如:国家发改委、XX公司、智能手机、普金、世界杯 ),其相关信息 的高频分类均在10项左右。如:新闻、告示、知识、产品、服务、交往、点播、下载、博客、论坛、 大黄页、其它。而每个分类下的高频信息组织结构词也在10项左右:如,新闻类信息的高 频通用组织结构词包括:标题、主体、行为、时间、地点、背景、评论、综述交往类信 息(如招聘、应聘、征婚、交友)的高频通用组织结构词均包括:交往目的、年龄、性别、学历、 职业、性格、爱好.....。(见图1) 在此有重大实用意义的发现基础上,本专利技术提供了一种互联网信息通用结构化精准搜 索方法,以达到实现各类互联网信息通用结构化精准搜索的目的。
技术实现思路
,其目的在于实现各类互联网信息通用 的结构化精准搜索。其
技术实现思路
包括: 通过互联网信息发布通用结构模板获得发布信息的方法如下: 获得用户注册代码, 输出互联网信息发布通用结构模版, 在互联网信息发布通用结构模版上直接获得用户输入或选择的主题关键词、通用组织 结构词、通用组织结构词下的输入内容, 和/或, 获得用户将互联网信息发布通用结构模版上的组织结构词直接添加至各类非结构化 信息中的结果, 将获得的上述内容存储于通用结构数据库; 将获得的发布内容存储于通用结构数据库时,如果获得的发布信息是某用户在互联网 信息发布通用结构模版上自主添加的组织结构词分类词、组织结构词及指示内容,则将其 全部转换为通用组织结构分类项其它下的内容,并添加专用代码。 通过互联网信搜索通用结构模板进行信息搜索的方法如下: 为通用结构数据库数据建立全文索引,并且索引中包含有各类索引关键词关系代码, 在互联网信息搜索通用结构模版上获得搜索用户选择的通用组织结构词,输入的主题 关键词及通用组织结构词下的关键词; 用获得的各类搜索关键词匹配发布信息全文索引中的各类关键词, 当搜索关键词与发布信息中的关键词匹配成功时,在摘要数据库中调用对应信息, 根据匹配成功的发布信息中的各类关键词的权重条件、匹配度、匹配成功数量等条件 将搜索结果进行排序和输出。 其中, 当用获得的各类搜索关键词匹配发布信息全文索引中的各类关键词时,如果获得的搜 索指令是从用户自建网站中获得的站内搜索指令,并且在互联网信息通用摘要数据库 中,匹配成功的信息是信息发布通用结构模版其它项下的新增组织结构词或所指示内 容,则根据添加的关系代码标注,在输出显示时将匹配成功信息中的新增结构词及指示内 容转换为该用户网站内的新增结构词及指示内容。 【附图说明】 图1、互联网信息的通用组织结构双十定律示意图 图2、本专利技术主流程A 图3、本专利技术主流程B 图4、互联网信息发布通用结构模示意图 图5、互联网信息搜索通用结构模板示意图 图6、用信息发布通用结构模板中的组织结构词标注网页信息示意图 图7、新增组织结构词及指示内容转换示意图 在本专利技术中, 所述互联网信息发布、搜索通用组织结构模板中预设有主题关键词输入框、通用组织 结构词,通用组织结构词下的关键词输入框。其中,主题关键词是用于指示互联网发布、搜 索信息主题的任意关键词,通用组织结构词是用于指示任意主题关键词所指示目标信息的 功能与效用范围的常用高频关键词的分类集合,通用组织结构词下的关键词输入框是指可 以在通用组织结构词下输入任意文字或符号内容的输入框(见图4中的组织结构词对应的 输入框,图5中的组织结构词后紧跟的输入框示意〇。) 在所述的通用组织结构搜索模板获得搜索用户输入或选择的通用组织结构词中,所述 选择是指用户对预设组织结构词的选择,所述输入是指用户在在通用组织结构搜索模 板中新添加的组织结构词及分类(参见图1、2)。 所述的互联网信息通用摘要数据库是指采用本专利技术所述方法获得的发布信息存 储数据库。 所述的全文索引是将任意发布内容中具有检索意义的关键词(可以是人名、地名、 词语、概念、或相关事项)按照一定方式有序编排起来,以供检索的关键词数据库中的内容。 具体的,本专利技术中所述的全文索引包括但不限于具有检索意义的主题关键词、通 用组织结构词,通用组织结构词下输入的关键词以及相关关系代码。 所述全文索引中的关系代码是指发布信息中主题关键词、通用组织结构词、通用 组织结构词所指示内容的关系代码。 例如,某条网页信息或结构化发布信息的内容为:主题关键词:北京住房公积金 贷款;服务标题:北京住房公积金贷款服务;发布方:北京宝孚诚房地产咨询有限公司; 服务机构:代理北京住房公积金管理中心;服务地点:海淀区车公庄西街甲19号华通大厦 366室';服务时间:早上9 :00--下午5 :00 ;服务电话:010-6000666 ;自由摘要:从资 料齐全到放款一般不超过两周,最高可贷80万元……。 其中,网页信息组织结构词(或结构化信息标签)主题关键词、服务标题、发 布方、服务机构、服务地点的关系代码可根据组织结构词分类和组织结构词的排序分 别设为 5A、5B、5C、5D、5E; 而上述各组织结构词所指示内容北京住房公积金贷款、北京住房公积金贷款服 务、北京宝孚诚房地产咨询有限公司,海淀区车公庄西街甲19号华通大厦366室海 淀区车公庄西街甲19号华通大厦366室的关系代码可分别为5Ax、5Bx、5Cx、?x、5Ex。 所述的用户自主增加的组织结构词分类词、组织结构词及相关内容的专用代码, 是指发布信息用户注册代码及新添加组织结构词分类、组织结构词及指示内容代码的组 合。例如,用户注册代码为1234,新添加组织结构词分类代码为N、组织结构词代码为 N1、指示内容代码为X;则新添加的专用代码则可为1234-Nlx。 实施例 ,其具体步骤如下: 获得发布信息主流程,参见图2、图4、图6 : 步骤1 :获得用户注册代码, 步骤2 :输出互联网信息发布通用结构模板, 步骤3 :在互联网信息发布通用结构模板上直接获得用户输入或选择的主题关键词、 通用组织结构词、通用组织结构词下的输入内容, 和/或, 先获得任意文件中的用户选择内容,然后获得选择组织结构词图表中的组织结构词, 例如图6,先用鼠标拖动选择左图中网页信息中涂为咖啡色的内容,然后点击选择右边 的组织结构词图表中的组织结构词; 步骤4 :将直接输入或进行标注的上述发布内容存储于通用结构数据库。 信息搜索主流程,参见图3、图5 : 步骤1 :为通用结构数据库数据建立全文索引,并且索引中添加有各类索引关键词关 系代码; 步骤2 :从通用组织结构搜索模板获得搜索用户输入或选择的主题关键词、通用组织 结构词、通用组织结构词下本文档来自技高网...

【技术保护点】
一种互联网信息通用结构化精准搜索方法,其专利技术内容包括:获得用户注册代码,输出互联网信息发布通用结构模版,在互联网信息发布通用结构模版上直接获得用户输入或选择的主题关键词、通用组织结构词、通用组织结构词下的输入内容,和/或,获得用户将互联网信息发布通用结构模版上的组织结构词直接添加至各类非结构化信息中的结果,将获得的上述内容存储于通用结构数据库;为通用结构数据库数据建立全文索引,并且索引中添加有各类索引关键词关系代码,在互联网信息搜索通用结构模版上获得搜索用户选择的通用组织结构词,输入的主题关键词及通用组织结构词下的关键词;用获得的各类搜索关键词匹配发布信息全文索引中的各类关键词,当搜索关键词与发布信息中的关键词匹配成功时,在摘要数据库中调用对应信息,根据匹配成功的发布信息中的各类关键词的权重条件、匹配度、匹配成功数量等条件将搜索结果进行排序和输出。

【技术特征摘要】
1. 一种互联网信息通用结构化精准搜索方法,其【发明内容】包括: 获得用户注册代码, 输出互联网信息发布通用结构模版, 在互联网信息发布通用结构模版上直接获得用户输入或选择的主题关键词、通用组织 结构词、通用组织结构词下的输入内容, 和/或, 获得用户将互联网信息发布通用结构模版上的组织结构词直接添加至各类非结构化 信息中的结果, 将获得的上述内容存储于通用结构数据库; 为通用结构数据库数据建立全文索引,并且索引中添加有各类索引关键词关系代码, 在互联网信息搜索通用结构模版上获得搜索用户选择的通用组织结构词,输入的主题 关键词及通用组织结构词下的关键词; 用获得的各类搜索关键词匹配发布信息全文索引中的各类关键词, 当搜索关键词与发布信息中的关键词匹配成功时,在摘要数据库...

【专利技术属性】
技术研发人员:刘莎
申请(专利权)人:刘莎
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1