一种检索结构化数据的分词方法及其设备技术

技术编号:35289377 阅读:21 留言:0更新日期:2022-10-22 12:34
本发明专利技术公开了数据检索技术领域的一种检索结构化数据的分词方法及其设备,包括获取模块、选择模块和数据分词模块,获取模块包括数据解析模块、数据导入模块和结构化字段建立检索模块,其分词方法包括将原始数据队列中的数据导入到数据库中,对结构化数据建立B+树索引,在进行检索时,查询B+树索引,选择预设数据分词方法,并利用选择的预设数据分词方法组合,对分词文本数据进行分词,采用基础分词方法对待分词文本数据进行分词,得到结果,通过建立B+树索引对机构化数据进行检索,并通过设置选择挤出分词方法和专有名词优化方法,并以此来对数据进行快速分词,其分词准确率高,效率快,有效的提高了检索结果的准确性,保证了检索的高效性。检索的高效性。

【技术实现步骤摘要】
一种检索结构化数据的分词方法及其设备


[0001]本专利技术涉及数据检索
,具体为一种检索结构化数据的分词方法及其设备。

技术介绍

[0002]结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。
[0003]结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。搜索引擎都支持标准的结构化数据标记,以便为用户提供更好的上网体验。网页内微数据标记可以帮助搜索引擎理解网页上的信息,能更方便搜索引擎识别分类,判断相关性。同时结构化微数据可以让搜索引擎提供更丰富的搜索结果摘要展现,也就是为用户的具体查询提供帮助的详细信息,让用户直接在搜索结果中看见你商品的重要信息。例如:商品的价格、名称、库存状况(商品是否有货)、评论者评分和评论等都可以在搜索结果摘要直接看到。这些丰富网页摘要可帮助用户了解网站与他们的搜索内容是否相关,可以让网页获得更多点击。如在搜索结果中,部分展示了更多的星级评分、评论条数以及价格等因素,这样无疑增加了网站的专业程度,且提高了客户对网站的信任度,网站良好的曝光度无形中就提高了网站的点击率与转化率,数据结构化是数据库系统与文件系统的根本区别。在文件系统中,独立文件内部的数据一般是有结构的,但文件之间不存在联系,因此从数据的整体来说是没有结构的。
[0004]现有的结构化数据在进行检索时,其分词方法导致检索匹配项过多,对于大量的数据进行处理时,无法高效的进行检索,效率低下,为此我们提出了一种检索结构化数据的分词方法及其设备。

技术实现思路

[0005]本专利技术的目的在于提供一种检索结构化数据的分词方法及其设备,以解决上述
技术介绍
中提出了现有的结构化数据在进行检索时,其分词方法导致检索匹配项过多,对于大量的数据进行处理时,无法高效的进行检索,效率低下的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种检索结构化数据的分词设备,包括获取模块、选择模块和数据分词模块。
[0007]优选的,获取模块包括数据解析模块、数据导入模块和结构化字段建立检索模块。
[0008]优选的,数据解析模块用于读取数据并检查数据的类型和格式是否正确,数据导入模块用于将原始数据队列中的数据导入到数据库中,结构化字段建立检索模块用于对数据库中的结构化字段建立B+树索引。
[0009]优选的,选择模块用于选择预设分词方法组合,其包括基础分词方法和专有名词优化方法。
[0010]优选的,数据分词模块用于对结构化数据进行分词。
[0011]本专利技术还提供一种检索结构化数据的分词的方法,包括如下步骤:
[0012]S1:将原始数据队列中的数据导入到数据库中;
[0013]S2:对结构化数据建立B+树索引,在进行检索时,查询B+树索引;
[0014]S3:选择预设数据分词方法,并利用选择的预设数据分词方法组合,对分词文本数据进行分词,采用基础分词方法对待分词文本数据进行分词,得到结果;
[0015]S4:根据预设专业词库中的专有名词,在基础分词结果中确定非专有词元组合和专有词元组合;
[0016]S5:输出专有词元组合、非专有词元组合和专有、非专有词元交叉组合。
[0017]优选的,对于专有词元组合中确定专有词元组合中的第一、第二专有名词进行重复循环匹配,以此来得到非专业词元组合。
[0018]优选的,将所述非单字词元组合,以及所述单字词元组合中未被所述非单字词元组合中的词元,语义所覆盖的单字,作为所述待分词文本的分词结果。
[0019]优选的,以最细粒度划分出所述待分词文本中所包括的全部词元,将得到的最细粒度词元组作为基础分词结果。
[0020]与现有技术相比,本专利技术的有益效果是:该检索结构化数据的分词方法及其设备,通过建立B+树索引对机构化数据进行检索,并通过设置选择挤出分词方法和专有名词优化方法,并以此来对数据进行快速分词,其分词准确率高,效率快,有效的提高了检索结果的准确性,保证了检索的高效性。
具体实施方式
[0021]下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]本专利技术提供了一种检索结构化数据的分词设备,包括获取模块、选择模块和数据分词模块。
[0023]其中,获取模块包括数据解析模块、数据导入模块和结构化字段建立检索模块。
[0024]其中,数据解析模块用于读取数据并检查数据的类型和格式是否正确,数据导入模块用于将原始数据队列中的数据导入到数据库中,结构化字段建立检索模块用于对数据库中的结构化字段建立B+树索引。
[0025]其中,选择模块用于选择预设分词方法组合,其包括基础分词方法和专有名词优化方法。
[0026]其中,数据分词模块用于对结构化数据进行分词。
[0027]本专利技术还提供一种检索结构化数据的分词的方法,包括如下步骤:
[0028]S1:将原始数据队列中的数据导入到数据库中;
[0029]S2:对结构化数据建立B+树索引,在进行检索时,查询B+树索引;
[0030]S3:选择预设数据分词方法,并利用选择的预设数据分词方法组合,对分词文本数据进行分词,采用基础分词方法对待分词文本数据进行分词,得到结果;
[0031]S4:根据预设专业词库中的专有名词,在基础分词结果中确定非专有词元组合和专有词元组合;
[0032]S5:输出专有词元组合、非专有词元组合和专有、非专有词元交叉组合。
[0033]其中,对于专有词元组合中确定专有词元组合中的第一、第二专有名词进行重复循环匹配,以此来得到非专业词元组合。
[0034]其中,将所述非单字词元组合,以及所述单字词元组合中未被所述非单字词元组合中的词元,语义所覆盖的单字,作为所述待分词文本的分词结果。
[0035]其中,以最细粒度划分出所述待分词文本中所包括的全部词元,将得到的最细粒度词元组作为基础分词结果。
[0036]综上所述,本专利技术通过建立B+树索引对机构化数据进行检索,并通过设置选择挤出分词方法和专有名词优化方法,并以此来对数据进行快速分词,其分词准确率高,效率快,有效的提高了检索结果的准确性,保证了检索的高效性。
[0037]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检索结构化数据的分词设备,其特征在于:包括获取模块、选择模块和数据分词模块。2.根据权利要求1所述的一种检索结构化数据的分词设备,其特征在于:获取模块包括数据解析模块、数据导入模块和结构化字段建立检索模块。3.根据权利要求2所述的一种检索结构化数据的分词设备,其特征在于:数据解析模块用于读取数据并检查数据的类型和格式是否正确,数据导入模块用于将原始数据队列中的数据导入到数据库中,结构化字段建立检索模块用于对数据库中的结构化字段建立B+树索引。4.根据权利要求1所述的一种检索结构化数据的分词设备,其特征在于:选择模块用于选择预设分词方法组合,其包括基础分词方法和专有名词优化方法。5.根据权利要求1所述的一种检索结构化数据的分词设备,其特征在于:数据分词模块用于对结构化数据进行分词。6.一种检索结构化数据的分词的方法,其特征在于:包括如下步骤:S1:将原始数据队列中的数据导入到数据库中;S2:对结构化数据建立B+树索引,在进行检索时,查...

【专利技术属性】
技术研发人员:张洪岭
申请(专利权)人:合肥长月科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1