【技术实现步骤摘要】
一种基于mongodb数据库的中文检索方法、装置及电子设备
[0001]本申请涉及文本检索
,具体而言,涉及一种基于mongodb数据库的中文检索方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]大多数的中文检索方法基于搜索引擎和数据库实现,这种方法对资源消耗较大,可用性也相对较低。mongodb数据库提供的全文检索功能对中文的效果非常差,准确率和耗时都很不理想。
[0003]然而,一些基于单mongodb数据库实现的中文检索方案主要基于分词实现,该方案的查询时效会随着文本数据长度增加而变差,对于一些中文全文的检索,效果并不理想。
技术实现思路
[0004]本申请实施例的目的在于提供一种基于mongodb数据库的中文检索方法、装置、电子设备及计算机可读存储介质,提高mongodb数据库对中文的检索能力,增加可用性,减少资源消耗,降低成本。
[0005]第一方面,本申请实施例提供了一种基于mongodb数据库的中文检索方法,所述方法包括:
[0006]获取中文文本; ...
【技术保护点】
【技术特征摘要】
1.一种基于mongodb数据库的中文检索方法,其特征在于,所述方法包括:获取中文文本;构建中文核心词典;根据所述中文文本和所述中文核心词典构建索引专用词典字段;对所述索引专用词典字段进行分词处理,得到单词索引;根据所述单词索引在所述mongodb数据库中进行检索,得到检索结果。2.根据权利要求1所述的基于mongodb数据库的中文检索方法,其特征在于,所述构建中文核心词典的步骤,包括:获取所述中文文本中的词汇的关键度序列和所述中文文本中的词汇的出现频率;根据所述关键度序列和所述出现频率构建所述中文核心词典。3.根据权利要求1所述的基于mongodb数据库的中文检索方法,其特征在于,所述根据所述中文文本构建索引专用词典字段的步骤,包括:判断所述中文文本和所述中文核心词典是否存在重叠的词汇;若是,获取所述重叠的词汇;根据所述重叠的词汇构建索引专用词典字段。4.根据权利要求1所述的基于mongodb数据库的中文检索方法,其特征在于,所述对所述索引专用词典字段进行分词处理,得到单词索引的步骤,包括:在所述索引专用词典字段中加入间隔符,得到分词处理后的索引专用词典字段;对所述分词处理后的索引专用词典字段中的单词建立索引,得到所述单词索引。5.一种基于mongodb数据库的中文检索装置,其特征在于,所述装置包括:获取模块,用于获取中文文本;词典构建模块,用于构建中文核心词典;字段构建模块,用于根据所述中文文本和所述中文核心词典构建索...
【专利技术属性】
技术研发人员:熊涛,杜新凯,吕超,王建辉,刘广鹏,
申请(专利权)人:阳光保险集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。