百科词条分类检索方法技术

技术编号:3935313 阅读:200 留言:0更新日期:2012-04-11 18:40
一种百科词条分类检索方法,包括以下步骤:(1)按照百科词条分类将分类百科词条的多个关键特征设定为多个标准化字段,对所述标准化字段建立特征模板;(2)用户利用特征模板,用词条中的字段信息编辑相应的标准化字段;(3)数据处理步骤,用于将用户输入的相关字段信息转化为标准格式并生成包括各标准化字段信息的标准化数据集;(4)数据关联步骤,将各词条中对应于同一标准化字段的字段信息产生相互关联;(5)词条检索步骤,将一个或数个与标准化字段相应的字段信息作为检索条件进行检索。本发明专利技术的百科词条的检索方法,技术投入成本小,用户操作便捷、自由,且搜索结果准确。

【技术实现步骤摘要】

本专利技术涉及一种词条的分类检索方法,尤指一种百科词条的分类检索方法。
技术介绍
随着信息技术的不断发展,在海量的信息中如何迅速、准确、便捷的搜索到有用的 信息已经成为亟待解决的问题,由此,不同的信息检索方法应运而生,目前市场上对于百科 词条的分类与检索的方法主要有三种1、关键字模糊搜索通过关键字模糊搜索,用户需找到适合的关键字进行搜索,系统按百科词条内容 与该关键字的匹配程度计算并输出结果。该方法在实际使用过程中,因为用户对于百科词 条中关键字的理解与系统不同,输出结果很可能出现偏差。在市场上常见的搜索引擎中,用 户往往需要输入多个关键字或使用一些语法约定结果的范围,这在一定程度上提高了用户 使用的成本。另一方面,搜索引擎技术门槛较高,互联网公司在搜索引擎技术上投入的成本 包括大量技术人员、高级服务器、大量内容监管人员等,故此方法普适性不强。2、树状分类查询分类查询是指将百科词条内容置于预先设定好的分类中,分类之下可包含子分 类,用户只需为百科词条选定分类即可。浏览分类下的百科词条,用户需要搜索或手动指 定一个分类,此时系统会按照一定规则显示该分类下的全部百科词条。该方法操作简单, 技术门槛低,但存在明显使用缺陷。首先,分类和百科词条为单向所属的层级关系,用户想 要浏览某一百科词条就必须知道它的所属分类,如在《大英百科全书》中使用分类查询词条 “Beijing,,,需要依循“Geography > Aisa > East Aisa > China > Northeast ofChina > Beijing”的分类路径进行检索,对于不熟悉该分类体系的用户来说极为不便;其次,根据分 类规则的不同,同样的百科词条可以同时属于不同分类,如词条“北京”即可属于分类“中国 城市”,同时也属于分类“1000万人口城市”,树状分类结构无法解决这种“一词多类”的现 象;最后,对于网站而言,为了确保百科词条分类依循设定好的规则,势必限制用户的参与,打击用户 积极性。3、标签归类标签归类是目前最为常用的一种内容分类形式,被广泛应用于博客等领域。标签 归类的特点是灵活,用户可以为百科词条随意填写标签,具有相同标签的百科词条就被归 为一类。而该方法的弊端是用户为百科词条添加标签的目的不同造成了标签的偏差。仍旧 以词条“北京”为例,用户A从客观的角度为北京填写标签“中国”,用户B使用标签描述自 身偏好,标注为“喜欢的城市”,用户C将标签用作行事历,添加标签“旅游目的地”。可见, 不同用户对于标签的理解和使用不同,无法对同一内容进行近似的标注。上述三种百科词条的分类与检索的方法各有利弊,市场上还不曾出现一种技术投 入成本既小,用户操作又便捷、自由,且搜索结果准确的检索方法。因此,需要一种既能使用户按照设定对百科词条分类,又能使用户自由设置检索 词,让互联网公司掌握词条整体的信息架构的百科词条的分类和检索的方法。
技术实现思路
本专利技术的目的在于,提供一种百科词条检索方法,由互联网提供者抽象出分类百 科词条的多个关键特征,将该多个关键特征设定为多个标准化字段,构建百科词条信息的 整体架构,且用户能够按照标准化字段的引导用词条的字段信息填充标准化字段,从而提 高分类查询的灵活性及准确性,并使得用户操作更为便捷和自由。本专利技术的另一目的在于,提供一种百科词条检索方法,使得技术投入成本较小,降 低维护成本。本专利技术的又一目的在于,提供一种百科词条检索方法,能够将关联的检索内容呈 现给客户,满足不同客户的检索需求,提高网站的访问量。为达到上述目的,本专利技术采用了如下的技术手段一种百科词条的分类检索方法,其特征在于包括以下步骤(1)按照百科词条分类将分类百科词条的多个关键特征设定为多个标准化字段, 对所述标准化字段建立特征模板;(2)用户利用特征模板,用词条内容中的字段信息填充相应的标准化字段。优选地,所述对标准化字段建立特征模板的步骤包括(3)设定标准化字段,该标准化字段至少包括字段名称、字段描述、字段类型、字 段长度、字段说明、该字段是否必填或是否显示;(4)编辑配置所述标准化字段,定义所述的字段名称、字段描述、字段类型、字段长 度、字段说明、该字段是否必填或是否显示。优选地,所述字段类型为文本、数字、选择或图片。优选地,所述特征模板选用XML语言编写,并对每个标准化字段配置XSL文件。优选地,该方法还包括数据处理步骤,用于将用户输入的相关字段信息转化为标 准格式并生成包括各字段信息的二维数据集。优选地,该方法还包括数据关联步骤,在生成的标准化的数据集中,针对不同百科 词条的字段信息,在百科词条间产生相互关联。优选地,该方法还包括词条检索步骤,将一个或数个与标准化字段相应的字段信 息作为检索条件利用字段信息间的相互关联进行检索。优选地,将检索步骤中得到的检索结果作关联的可视化显示。优选地,在数据关联步骤中,当用户检索某个特定百科词条时,通过检索结果中显 示的字段进一步检索与该字段信息相关的内容。本专利技术的有益效果在于1、本区别于常见的树状分类和标签分类方法,本方法抽象 出一类百科词条中的相同的关键特征,既保留了用户对词条内容填写的自由性,又让互联 网提供者掌握整体内容的信息架构,不但提高了分类查询的灵活性及准确性,而且使得用 户操作更为便捷和自由。2、使用本进行信息字段的编辑,可将出错率从45%降低到20%,站方后期维护的成本从每千词条25工时每人降低到每千词条3工时每人。3、使用根据本专利技术的能够显示关联性的内容,方便用户检 索,且能够进行可视化显示,使网站人均浏览量提高35%。附图说明图1为本专利技术实施例的整体步骤流程图。图2为图1所示实施例中的步骤SlOl的子步骤流程图。图3为本专利技术一实施例搜索结果数据分布图。具体实施例方式百科词条的特点是信息量大,关联性强、分类繁多。互联网的百科产品需要遵循用 户习惯和需求。在互联网上,用户接受信息的渠道众多,成本几乎为零,当用户一旦判断当 前内容无法满足需求就会马上离开。另一方面,对于百科词条这类UCG(用户创建内容)产 品,用户个人对内容的编辑极易破坏整个产品的内容架构,为他人浏览造成障碍。本专利技术引导用户设置符合根据本专利技术的分类检索方法的相关性信息,并使用可视 化的信息关联方法,为用户呈现关联内容。下面将结合附图对本专利技术的具体实施例做详细 说明。参照图1所示,是本专利技术的整体步骤流程图,具体包括如 下步骤步骤SlOl 按照百科词条分类,将分类百科词条的多个关键特征设定为多个标准 化字段,对所述标准化字段建立特征模板。研究表明,用户对百科词条80%的关注度集中在20%的内容分类上,如仅人物 类百科词条,约占互动百科词条浏览量的25% (2009年数据)。相同类别的百科词条具有相 同的关键特征,提取这些关键特征是本专利技术的第一步。如人物类别可提取特征为中文名、 英文名、职业、性别、国籍、籍贯、出生年月、去世年月等,针对该人物类百科词条的上述不同 特征分别进行提取,生成为标准化的字段,以便将这些标准化的字段用作检索的标准化数 据。如图2所示,上述步骤SlOl中,又可具体分为三个子步骤步骤S1011、步骤S1012、步 骤 S1013。步骤SlOll 设定标准化字段,该标准化字本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:潘海东梅春陈岩
申请(专利权)人:互动在线北京科技有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1