搜索引擎中去除html标签的方法及装置制造方法及图纸

技术编号：13626846 阅读：54 留言：0更新日期：2016-09-01 22:26

本发明专利技术实施例提供一种搜索引擎中去除html标签的方法及装置。该方法包括：针对用户在网站上编辑内容后形成的包含html标签的数据源，网站服务器在对该数据源进行加工前，去除所述数据源中的html标签；将去除所述html标签后的数据源进行语义分词；将分词后的内容存储到所述网站维护的搜索数据库中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络搜索
，尤其涉及一种搜索引擎中去除超文本标记语言html标签的方法。
技术介绍
用户在搜索内容的时候，部分搜索系统会出现搜索出的内容与输入的关键词不符合的现象。例如搜索“blog”这个关键词，搜出来好多，但是这里面根本找不到blog这个词。这是因为数据源中，原来搜索内容中有一块内容是用户可以通过富文本编辑的内容，该内容作为数据源存入了数据库。也就是说这部分内容是带有html样式的。而其中正好有一个标签的class属性里有一个blog所以就被搜索出来了。现有技术中采用solr搜索引擎来解决上述问题。solr的方案是在从数据库取数据的时候就设定去除某个字段的html标签。但是，solr官方版本更新频繁，每隔一两个月就会升级版本。版本有时候不稳定，有些版本中transformer会失效。另外，这种解决方式只针对这一种搜索引擎，用性太窄，很多搜索引擎搜索时还是会出现上述问题。
技术实现思路
本专利技术实施例提供一种搜索引擎中去除html标签的方法及装置，可以去除数据源中的html标签，并且具有通用性。本专利技术实施例的一个方面是提供一种搜索引擎中去除html标签的方法更新CMS碎片的方法，包括：接收用户在网站上编辑内容后形成的包含html标签的数据源，并去除所
述数据源中的html标签；将去除所述html标签后的数据源进行语义分词；将分词后的内容存储到网站服务器的搜索数据库中。可选的，所述去除所述数据源中的html标签，包括：根据html标签的规定格式在所述数据源中查找html标签，并去除所述html标签。可选的，所述根据ht...

【技术保护点】
一种搜索引擎中去除html标签的方法，其特征在于，包括：接收用户在网站上编辑内容后形成的包含html标签的数据源，并去除所述数据源中的html标签；将去除所述html标签后的数据源进行语义分词；将分词后的内容存储到网站服务器的搜索数据库中。

【技术特征摘要】
1.一种搜索引擎中去除html标签的方法，其特征在于，包括：接收用户在网站上编辑内容后形成的包含html标签的数据源，并去除所述数据源中的html标签；将去除所述html标签后的数据源进行语义分词；将分词后的内容存储到网站服务器的搜索数据库中。2.根据权利要求1所述的方法，其特征在于，所述去除所述数据源中的html标签，包括：根据html标签的规定格式在所述数据源中查找html标签，并去除所述html标签。3.根据权利要求2所述的方法，其特征在于，所述根据html标签的规定格式在所述数据源中查找html标签，并去除所述html标签，具体包括：将包含html标签的数据源读入可重用的字符串文本缓冲区，在该字符串文本缓冲区中根据html标签的规定格式进行正则匹配去除该数据源中的html标签。4.根据权利要求1-3中任意一项所述的方法，其特征在于，该方法还包括：向用户发送用于提示用户选择是否去除所述数据源中的html...

【专利技术属性】
技术研发人员：谢晓静，
申请(专利权)人：乐视控股北京有限公司，乐视网信息技术北京股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人