一种检索结构化数据的分词方法及其设备技术

技术编号：35289377 阅读：21 留言：0更新日期：2022-10-22 12:34

本发明专利技术公开了数据检索技术领域的一种检索结构化数据的分词方法及其设备，包括获取模块、选择模块和数据分词模块，获取模块包括数据解析模块、数据导入模块和结构化字段建立检索模块，其分词方法包括将原始数据队列中的数据导入到数据库中,对结构化数据建立B+树索引，在进行检索时，查询B+树索引,选择预设数据分词方法，并利用选择的预设数据分词方法组合，对分词文本数据进行分词，采用基础分词方法对待分词文本数据进行分词，得到结果,通过建立B+树索引对机构化数据进行检索，并通过设置选择挤出分词方法和专有名词优化方法，并以此来对数据进行快速分词，其分词准确率高，效率快，有效的提高了检索结果的准确性，保证了检索的高效性。检索的高效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种检索结构化数据的分词方法及其设备

[0001]本专利技术涉及数据检索
，具体为一种检索结构化数据的分词方法及其设备。

技术介绍

[0002]结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据，包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理，广泛应用于全文检索和各种多媒体信息处理领域。
[0003]结构化数据标记，是一种能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记，便能使网站在搜索结果中良好地展示丰富网页摘要。搜索引擎都支持标准的结构化数据标记，以便为用户提供更好的上网体验。网页内微数据标记可以帮助搜索引擎理解网页上的信息，能更方便搜索引擎识别分类，判断相关性。同时结构化微数据可以让搜索引擎提供更丰富的搜索结果摘要展现，也就是为用户的具体查询提供帮助的详细信息，让用户直接在搜索结果中看见你商品的重要信息。例如：商品的价格、名称、库存状况(商品是否有货)、评论者评分和评论等都可以在搜索结果摘要直接看到。这些丰富网页摘要可帮助用户了解网站与他们的搜索内容是否相关，可以让网页获得更多点击。如在搜索结果中，部分展示了更多的星级评分、评论条数以及价格等因素，这样无疑增加了网站的专业程度，且提高了客户对网站的信任度，网站良好的曝光度无形中就提高了网站...

【技术保护点】

【技术特征摘要】
1.一种检索结构化数据的分词设备，其特征在于：包括获取模块、选择模块和数据分词模块。2.根据权利要求1所述的一种检索结构化数据的分词设备，其特征在于：获取模块包括数据解析模块、数据导入模块和结构化字段建立检索模块。3.根据权利要求2所述的一种检索结构化数据的分词设备，其特征在于：数据解析模块用于读取数据并检查数据的类型和格式是否正确，数据导入模块用于将原始数据队列中的数据导入到数据库中，结构化字段建立检索模块用于对数据库中的结构化字段建立B+树索引。4.根据权利要求1所述的一种检索结构化数据的分词设备，其特征在于：选择模块用于选择预设分词方法组合，其包括基础分词方法和专有名词优化方法。5.根据权利要求1所述的一种检索结构化数据的分词设备，其特征在于：数据分词模块用于对结构化数据进行分词。6.一种检索结构化数据的分词的方法，其特征在于：包括如下步骤：S1:将原始数据队列中的数据导入到数据库中；S2:对结构化数据建立B+树索引，在进行检索时，查...

【专利技术属性】
技术研发人员：张洪岭，
申请(专利权)人：合肥长月科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人