【技术实现步骤摘要】
文档的索引创建及搜索方法、电子设备及程序产品
[0001]本公开涉及数据处理
,具体涉及一种文档的索引创建及搜索方法、电子设备及程序产品。
技术介绍
[0002]随着互联网技术的发展,目前普遍采用搜索引擎进行文档的搜索服务,而基于搜索引擎进行搜索服务的首要条件是:基于原始文档创建索引,将原始文档中的每一个字段都编入索引,使其可以被搜索,由于索引数量越少,文档的搜索性能就越高,因此如何减少索引数量成为目前亟待解决的技术问题。
技术实现思路
[0003]为了解决相关技术中的问题,本公开实施例提供一种文档的索引创建及搜索方法、电子设备及程序产品。
[0004]第一方面,本公开实施例中提供了一种文档的索引创建方法。
[0005]具体地,所述文档的索引创建方法,包括:
[0006]将原始文档的文档内容进行字符切分处理,得到所述原始文档中的初始分词;
[0007]针对每个初始分词,从分词词典中的词典分词中查询与所述初始分词匹配的词典分词,其中,所述分词词典包括预先设置的拼音词典和当前 ...
【技术保护点】
【技术特征摘要】
1.一种文档的索引创建方法,包括:将原始文档的文档内容进行字符切分处理,得到所述原始文档中的初始分词;针对每个初始分词,从分词词典中的词典分词中查询与所述初始分词匹配的词典分词,其中,所述分词词典包括预先设置的拼音词典和当前最新的英文词典,所述拼音词典中的词典分词为预先设置的单字拼音,所述与所述初始分词匹配的词典分词组成所述初始分词;若未查询到与所述初始分词匹配的词典分词,则将所述初始分词作为其匹配的词典分词加入英文词典,生成最新的英文词典;获取所述初始分词匹配的词典分词,并根据所述原始文档中的初始分词匹配的词典分词,建立所述原始文档与所述词典分词之间的对应关系,其中,所述分词词典中的词典分词为所述原始文档的索引。2.根据权利要求1所述的方法,其中,所述从分词词典中的词典分词中查询与所述初始分词匹配的词典分词,包括:使用所述拼音词典中的词典分词对所述初始分词进行正向最大匹配分词,若分词成功,则查询到与所述初始分词匹配的词典分词;若分词失败,则从当前最新的英文词典中查询与所述初始分词匹配的词典分词。3.根据权利要求1所述的方法,其中,所述分词词典还包括所述词典分词对应的分词标识,所述根据所述原始文档中的初始分词对应的词典分词,建立所述原始文档与所述词典分词之间的对应关系,包括:根据所述原始文档中的初始分词匹配的词典分词以及所述词典分词对应的分词标识,建立所述原始文档的文档标识与所述分词标识之间的对应关系。4.根据权利要求1所述的方法,其中,所述将原始文档的文档内容进行字符切分处理,得到所述原始文档中的初始分词,包括:将原始文档的文档内容按照空格进行切分,得到所述原始文档的初始分词。5.根据权利要求1所述的方法,其中,所述建立所述原始文档与所述词典分词之间的对应关系,包括:采用倒排索引的数据存储结构,记录所述原始文档与所述词典分词之间的对应关系。6....
【专利技术属性】
技术研发人员:庄毓君,李勇聪,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。