System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>殷步九专利>正文

基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法及系统技术方案

技术编号:40903107 阅读:2 留言:0更新日期:2024-04-18 14:34
本发明专利技术公开了基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,包括如下步骤:网络文件存入时按照文件结构分解标记转换成文本存入文件库;存入过程中对新出现的文字字母、词汇、句子和段落不断扩展分类编码库;提取过程只要提交关键字,按照字、词、句子分类查询到其相关程度。本发明专利技术将无序的信息产生自组织有序化效果,从根本上解决了面对浩瀚的无序的信息进行迭代式搜索的低效率的局面,从根本意义上来说解除了传统的搜索难题,从根本上为用户提供智能化的、准确的、符合哲理的提示信息,可以为用户提供大量的用户本身想象不到的关联信息,以及多层次的相关信息。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法及系统


技术介绍

1、一、什么是搜索引擎

2、搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

3、二、搜索引擎的搜索方式

4、搜索引擎的搜索方式包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

5、1、全文索引

6、全文搜索引擎是从网站提取信息建立网页数据库的概念,是名副其实的搜索引擎。国外代表有google,国内则有著名的百度搜索。

7、全文搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定ip地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即下游的网站拥有者主动向搜索引擎提交网址,以备用户查询。

8、当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。

9、另有一类搜索引擎公司,租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如lycos搜索引擎。

10、2、目录索引

11、目录索引也称为分类检索,是因特网上最早提供www资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(keywords)进行查询。这种引擎的特点是找的准确率比较高。目录索引中最具代表性的是yahoo!、新浪分类目录搜索。

12、目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。

13、与全文搜索引擎相比,目录索引有许多不同之处:

14、首先,全文索引搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

15、其次,目录索引对下游网站的要求高得多,有时即使登录多次也不一定成功。尤其象yahoo这样的超级索引,登录更是困难。

16、此外,登录全文索引搜索引擎时,一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(directory)。

17、最后,全文索引搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以作为用户的角度拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

18、在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如中国的搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如yahoo。

19、全文索引与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如google就借用open directory目录提供分类查询。而象yahoo!等这些老牌目录索引则通过与google等搜索引擎合作扩大搜索范围。

20、3、元搜索

21、元搜索引擎(metasearch engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。较著名的元搜索引擎有infospace、dogpile、vivisimo、metacrawler、dopile、ixquick、搜客等。中文的元搜索引擎中具代表性的是搜星搜索引擎。

22、在搜索结果排列方面,有的直接按来源排列搜索结果,如dogpile;有的则按自定的规则将结果重新排列组合,如vivisimo。

23、4、垂直搜索

24、垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

25、5、集合式搜索

26、集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如hotbot在2002年底推出的搜索引擎。

27、6、门户搜索

28、门户搜索引擎:aolsearch、msnsearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

29、7、免费链接

30、免费链接列表(free for all links简称ffa):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比yahoo!等目录索引小很多。

31、三、国内现有的搜索引擎

32、1、综合类型:

33、百度、搜狗、360搜索、有道、谷歌、雅虎等网站。

34、2、购物类型:

35、淘宝网、当当网、阿里巴巴等网站。

36、3、知识产权类型:

37、国家知识产权局--专利检索中国商标网soopat

38、四、baidu搜索引擎提供的服务内容及特色

39、baidu搜索引擎的特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、flash搜索。

40、2002年3月闪电计划(blitzen project)开始后,后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品。

41、集成搜索引擎(all-in-one search page),亦称为“多引擎同步检索系统”。百度是在一个www页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索。集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。

42、五、国内其他较著名的搜索引擎

本文档来自技高网...

【技术保护点】

1.基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述步骤S3采取了耗散结构从离散的、浩瀚的信息中及其相关的关键词聚集在同一个群内,并且可根据各类属性实现让浩瀚的无序的信息实现有序化,实现快速地信息搜索。

3.根据权利要求2所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述耗散结构中一个重要的概念就是“熵”,熵是用来刻画系统有序度的概念,一个由大量子系统构成的系统中有一个玻尔兹曼函数关系:

4.根据权利要求2所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述耗散结构形成须满足四个条件:

5.根据权利要求1所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述文件结构分为文件结构、段落结构、句子结构、词汇结构、文字结构或字母结构,引用现行的各种图片、表格、多媒体文件模块,采用统一分类标记分别标记文件中所包含的各种图片、表格、多媒体文件模块。

6.根据权利要求5所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述文件结构={[文字或字母]}+{[词汇]}+{[句子]}+{段落}+{[其他文件]}+{[图片]}+{[表格]}+{[多媒体文件]};段落结构={[文字或字母]}+{[词汇]}+{[句子]};句子结构={[文字或字母]}+{[词汇]};词汇结构={[文字或字母]}。

7.根据权利要求5所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述表格不包括表格中的表文、图片、多媒体文件模块。

8.基于事务逻辑的信息文件全结构存储及其无搜索引擎设计系统,其特征在于,包括网络文件获取模块、文件结构转换模块、新的用户查询模块、关联译文模块、分类频度统计模块、文件安全模块、文件防病毒模块。

9.根据权利要求8所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计系统,其特征在于,所述网络文件获取模块:网络文件存入时按照文件结构分解标记转换成文本存入文件库;文件结构转换模块:存入过程中对新出现的文字字母、词汇、句子和段落不断扩展分类编码库;新的用户查询模块:提取过程只要提交关键字,按照字、词、句子分类查询到其相关程度,如:字查询,则自动关联到与关键字相关的关联词、关联句、关联段、关联文章,可提示指定查询到的层次(字、词、句、段、文),并可提示频度和重复度,提示相关字、词、句、段供选择作为查询关键条件;关联译文模块:扩展文章的对应文种关联属性以及文种译文等级以供用户选择;分类频度统计模块:扩展到各种学科分类、社会分类、历史分类、作家分类、用途分类、密级分类统计分析供用户选择;文件安全模块和文件防病毒模块:提供文件保密和防病毒功能和提供产权代为保护功能。

...

【技术特征摘要】

1.基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述步骤s3采取了耗散结构从离散的、浩瀚的信息中及其相关的关键词聚集在同一个群内,并且可根据各类属性实现让浩瀚的无序的信息实现有序化,实现快速地信息搜索。

3.根据权利要求2所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述耗散结构中一个重要的概念就是“熵”,熵是用来刻画系统有序度的概念,一个由大量子系统构成的系统中有一个玻尔兹曼函数关系:

4.根据权利要求2所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述耗散结构形成须满足四个条件:

5.根据权利要求1所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述文件结构分为文件结构、段落结构、句子结构、词汇结构、文字结构或字母结构,引用现行的各种图片、表格、多媒体文件模块,采用统一分类标记分别标记文件中所包含的各种图片、表格、多媒体文件模块。

6.根据权利要求5所述的基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法,其特征在于,所述文件结构={[文字或字母]}+{[词汇]}+{[句子]}+{段落}+{[其他文件]}+{[图片]}+{[表格]}+{[多媒体文件]};段落结构={[文...

【专利技术属性】
技术研发人员:殷步九梁玢
申请(专利权)人:殷步九
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1