搜索引擎中去除html标签的方法及装置制造方法及图纸

技术编号:13626846 阅读:54 留言:0更新日期:2016-09-01 22:26
本发明专利技术实施例提供一种搜索引擎中去除html标签的方法及装置。该方法包括:针对用户在网站上编辑内容后形成的包含html标签的数据源,网站服务器在对该数据源进行加工前,去除所述数据源中的html标签;将去除所述html标签后的数据源进行语义分词;将分词后的内容存储到所述网站维护的搜索数据库中。

【技术实现步骤摘要】

本专利技术涉及网络搜索
,尤其涉及一种搜索引擎中去除超文本标记语言html标签的方法。
技术介绍
用户在搜索内容的时候,部分搜索系统会出现搜索出的内容与输入的关键词不符合的现象。例如搜索“blog”这个关键词,搜出来好多,但是这里面根本找不到blog这个词。这是因为数据源中,原来搜索内容中有一块内容是用户可以通过富文本编辑的内容,该内容作为数据源存入了数据库。也就是说这部分内容是带有html样式的。而其中正好有一个标签的class属性里有一个blog所以就被搜索出来了。现有技术中采用solr搜索引擎来解决上述问题。solr的方案是在从数据库取数据的时候就设定去除某个字段的html标签。但是,solr官方版本更新频繁,每隔一两个月就会升级版本。版本有时候不稳定,有些版本中transformer会失效。另外,这种解决方式只针对这一种搜索引擎,用性太窄,很多搜索引擎搜索时还是会出现上述问题。
技术实现思路
本专利技术实施例提供一种搜索引擎中去除html标签的方法及装置,可以去除数据源中的html标签,并且具有通用性。本专利技术实施例的一个方面是提供一种搜索引擎中去除html标签的方法更新CMS碎片的方法,包括:接收用户在网站上编辑内容后形成的包含html标签的数据源,并去除所
述数据源中的html标签;将去除所述html标签后的数据源进行语义分词;将分词后的内容存储到网站服务器的搜索数据库中。可选的,所述去除所述数据源中的html标签,包括:根据html标签的规定格式在所述数据源中查找html标签,并去除所述html标签。可选的,所述根据html标签的规定格式在所述数据源中查找html标签,并去除所述html标签,具体包括:将包含html标签的数据源读入可重用的字符串文本缓冲区,在该字符串文本缓冲区中根据html标签的规定格式进行正则匹配去除该数据源中的html标签。可选的,该方法还包括:向用户发送用于提示用户选择是否去除所述数据源中的html标签的提示消息。本专利技术实施例的另一个方面是提供一种搜索引擎中去除html标签的装置,包括:去除模块,用于接收用户在网站上编辑内容后形成的包含html标签的数据源,并去除所述数据源中的html标签;分词模块,用于将去除所述html标签后的数据源进行语义分词;存储模块,用于将分词后的内容存储到网站服务器的搜索数据库中。可选的,所述去除模块,具体用于根据html标签的规定格式在所述数据源中查找html标签,并去除所述html标签。可选的,所述去除模块,具体用于将包含html标签的数据源读入可重用的字符串文本缓冲区,在该字符串文本缓冲区中根据html标签的规定格式进行正则匹配去除该数据源中的html标签。可选的,该装置还包括:提示模块,用于向用户发送用于提示用户是否去除所述数据源中的html标签的提示信息。本专利技术实施例提供的搜索引擎中去除html标签的方法及装置,通过采用对包含html标签的数据源存储入搜索数据库前,对其进行除标签的技术手段,解决了现有技术中因数据源中包含html标签导致搜索结果没有包含关键字的技术问题,进而实现了去除html标签对检索结果的影响,通用性强的技术效果。附图说明图1为本专利技术实施例提供的一种搜索引擎中去除html标签的方法流程图;图2为本专利技术实施例提供的另一种搜索引擎中去除html标签的方法流程图;图3为本专利技术实施例提供的一种搜索引擎中去除html标签的装置的结构示意图。具体实施方式针对现有技术的问题,去除html标签用正则表达式就可以做到。关键问题是在哪一步做。在大范围上,分为建索引时来做和搜索时来做。当然建索引的时候做效率是最高的。当时用的是solr搜索引擎,solr搜索引擎有正则表达式过滤功能,但是这一步要在分完词之后做,分完词后,html标签也会因语义分词被分的七零八落,就不能再用正则表达式了。考虑到这个问题,现有的这些搜索引擎自带的解决方式就都解决不了了。中文太复杂,外国的软件考虑问题就是基于他们的分词器分词基本就是按照空格来分这种思路,对中文的就不适用了。从数据库取出之后分词之前专门先来去除html标签也可以做到,但是效率低,也是由于语义分词后产生了太多的词汇所造成的。于是考虑了直接在常用的IK分词器的源代码上做修改,对IK分词器添加了去除html标签功能。还可设定标志位,用户可以选择是否去掉html标签。基于上述分析,本专利技术实施例提供一种搜索引擎中去除html标签的方法,如图1所示,该方法适合部署在分词器上,该方法包括:101,接收用户在网站上编辑内容后形成的包含html标签的数据源,并去除所述数据源中的html标签;用户在网站上输入信息时比较常用的是富文本编辑器,该编辑器是一种可内嵌于浏览器,所见即所得的文本编辑器。因此,用户输入的文档等数据源内容就会包含html标签。102,将去除所述html标签后的数据源进行语义分词;去除html标签,就是删除该html标签,可通过如下方式实现:根据html标签的规定格式在所述数据源中查找html标签,并去除所述html标签。更具体的包括:将包含html标签的数据源读入可重用的字符串文本缓冲区,在该字符串文本缓冲区中根据html标签的规定格式进行正则匹配去除该数据源中的html标签。由于html标签的规定格式带有<>,因此很容易根据该格式找到html标签,并删除。103,将分词后的内容存储到网站服务器的搜索数据库中。本专利技术实施例提供的搜索引擎中去除html标签的方法,通过采用对包含html标签的数据源加工存储入搜索数据库前,对其进行除标签的技术手段,解决了现有技术中因数据源中包含html标签导致搜索结果没有包含关键字的技术问题,进而实现了去除html标签对检索结果的影响,通用性强的技术效果。本专利技术实施例继续提供一种搜索引擎中去除html标签的方法,如图2所示,包括:201,用户在网站上编辑内容后形成的包含html标签的数据源通过网络传输到网站服务器上。202,分词器对该数据源进行语义分词前,向用户发送用于提示用户是否
去除所述数据源中的html标签的提示信息。例如:在IK分词器里,进行语义分割之前,先进行去除html标签的工作。接受适配器中传过来的标志位,让用户可以自主选择是否去除html标签。203,若用户选择去除html标签,则分词器将包含html标签的数据源读入可重用的字符串文本缓冲区,在该字符串文本缓冲区中根据html标签的规定格式进行正则匹配去除该数据源中的html标签。IK分词器在第一次被调用的时候,需要加载文本输入流(即数据源),在此时将文本输入流读入可重用的字符串文本缓冲区,进行正则匹配去除html标签后进行分词处理。204,分词器对去除所述html标签后的数据源进行语义分词;205,将分词后的内容存储到网站服务器的搜索数据库中。例如:用户在网站上输入的数据源:<p class=”blog context”>热爱中国热爱党</p>采用本方法后,分词后结果:热爱中国热爱党(已不含html标签)为了便于上述方法的实现,本实施例还提供一种搜索引擎中去除html标签的装置,如图3所示,包括:去除模块31,用于接收用户在网站上本文档来自技高网
...

【技术保护点】
一种搜索引擎中去除html标签的方法,其特征在于,包括:接收用户在网站上编辑内容后形成的包含html标签的数据源,并去除所述数据源中的html标签;将去除所述html标签后的数据源进行语义分词;将分词后的内容存储到网站服务器的搜索数据库中。

【技术特征摘要】
1.一种搜索引擎中去除html标签的方法,其特征在于,包括:接收用户在网站上编辑内容后形成的包含html标签的数据源,并去除所述数据源中的html标签;将去除所述html标签后的数据源进行语义分词;将分词后的内容存储到网站服务器的搜索数据库中。2.根据权利要求1所述的方法,其特征在于,所述去除所述数据源中的html标签,包括:根据html标签的规定格式在所述数据源中查找html标签,并去除所述html标签。3.根据权利要求2所述的方法,其特征在于,所述根据html标签的规定格式在所述数据源中查找html标签,并去除所述html标签,具体包括:将包含html标签的数据源读入可重用的字符串文本缓冲区,在该字符串文本缓冲区中根据html标签的规定格式进行正则匹配去除该数据源中的html标签。4.根据权利要求1-3中任意一项所述的方法,其特征在于,该方法还包括:向用户发送用于提示用户选择是否去除所述数据源中的html...

【专利技术属性】
技术研发人员:谢晓静
申请(专利权)人:乐视控股北京有限公司乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1