基于分词索引的开源项目搜索方法技术

技术编号：36967083 阅读：14 留言：0更新日期：2023-03-22 19:27

本发明专利技术公开了基于分词索引的开源项目搜索方法，具体步骤如下：S1、分词模型实现，基于mmseg算法的一个轻量级中文分词器,基于textRank算法实现七种分词模式；S2、检索模型实现，基于BM25模型的改进和优化；S3、排序模型实现，通过对多个量化模型对数据进行更多维度的量化然后参与到BM25模型得出的score的加权中，以提供更好的排序结果。本申请通过针对检索过程复杂的问题，提供一套基于分词模型、检索模型、排序模型相结合实现的一套方法和系统，用于提高检索的准确性。用于提高检索的准确性。用于提高检索的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于分词索引的开源项目搜索方法

[0001]本专利技术属于计算机软件
，具体为基于分词索引的开源项目搜索方法。

技术介绍

[0002]单纯的分词算法和索引模型市场上已经存在一些，例如mmseg分词算法、n
‑
gram分词算法、FMM\BMM分词算法、BM25检索匹配算法，TFIDF检索匹配算法等等，但是基本都是通用分词检索，无法适用于大规模的具有特性规则的检索场景，并且很多不支持自定义词库，其中检索的准确性方面也无法保证，针对上述问题，本申请提出了基于分词索引的开源项目搜索方法。

技术实现思路

[0003]针对现有技术的不足，本专利技术提供了基于分词索引的开源项目搜索方法，具有基于代码仓库信息的某些词汇按照特定的规则进行分词，生成分词索引，针对于生成的索引进行模型算法分析评分综合排序得到相应的检索结果，提高检索的准确性的优点。
[0004]为实现上述目的，本专利技术提供如下技术方案：基于分词索引的开源项目搜索方法，具体步骤如下：
[0005]S1、分词模型实现，基于mmseg算法的一个轻量级中文分词器,基于textRank算法实现七种分词模式；
[0006]S2、检索模型实现，基于BM25模型的改进和优化；
[0007]S3、排序模型实现，通过对多个量化模型对数据进行更多维度的量化然后参与到BM25模型得出的score的加权中，以提供更好的排序结果。
[0008]优选的，所述S1步骤中七种分词模式包括有简易模式、复杂模式、检测模式、最多模

【技术保护点】

【技术特征摘要】
1.基于分词索引的开源项目搜索方法，其特征在于，具体步骤如下：S1、分词模型实现，基于mmseg算法的一个轻量级中文分词器,基于textRank算法实现七种分词模式；S2、检索模型实现，基于BM25模型的改进和优化；S3、排序模型实现，通过对多个量化模型对数据进行更多维度的量化然后参与到BM25模型得出的score的加权中，以提供更好的排序结果。2.根据权利要求1所述的基于分词索引的开源项目搜索方法，其特征在于：所述S1步骤中七种分词模式包括有简易模式、复杂模式、检测模式、最多模式、分隔符模式、NLP模式、n
‑
gram模式。3.根据权利要求1所述的基于分词索引的开源项目搜索方法，其特征在于：所述S2步骤中基于TFIDF的数据模型为：TF(qi)＝fi；检索仓库时基于仓库名字检索提示，检索模型EFR(Equality From Randomness)模型定义如下：其中N文档总数；n(qi)包含q词条的文档总数；fi词条qi的词频，在d中出现的次数；dl文档d的长度(词条数目)；avgdl文档d集合的平均长度(词条数目)；k1非线性词频归一化控制因子；b控制文档长度规范...

【专利技术属性】
技术研发人员：刘冬，
申请(专利权)人：深圳市奥思网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人