一种面向中文资料的关键词检索方法技术

技术编号:38209908 阅读:9 留言:0更新日期:2023-07-21 17:00
一种面向中文资料的关键词检索方法,属于信息检索技术领域,包括以下步骤:步骤S1,中文资料的预处理。步骤S2,词频的计算。步骤S3,词频权重的计算。步骤S4,中文信息检索。本方案,对中文资料进行了预处理,方便后续的关键字的提取以及比对,确定了比对方向,删除了多余信息,提升运行效率,并采用MapReduce计算模型,将使用者输入的关键字与代表文件的关键字或完整的文件内容进行比对,并依其相关程度排序,检索出与使用者输入的关键字相关的文件。检索出与使用者输入的关键字相关的文件。检索出与使用者输入的关键字相关的文件。

【技术实现步骤摘要】
一种面向中文资料的关键词检索方法


[0001]本专利技术属于信息检索
,特别涉及一种面向中文资料的关键词检索方法。

技术介绍

[0002]随着互联网数据量越来越大,用户从大数据中检索相关数据的时间越来越长。公开号为CN103631960A的中国专利申请,公开了一种中文词条检索方法,其通过http/get/post接口输入中文词条,分词系统介入,对用户检索的关键词进行分词。但是,其具有以下不足:
[0003]第一,其并未对原始材料进行预处理,导致检索量过大,且检索方向趋于盲目。
[0004]第二,其分词之后,并未对于关键词之间的相似程度进行分析,难以应用于实际的检索过程。
[0005]第三,该方案在处理大量资料时,运算效率不如Hadoop架构。
[0006]Hadoop架构,以MapReduce以及HDFS分散式档案系统为两大核心,利用分散式的平行运算,处理大量资料的运算。公开号为CN104408034A的中国专利申请,公开了一种面向文本大数据的中文分词方法,其采用MapReduce计算模型进行中文分词,有效的提高了分词的准确度。但是,该方案,仅作了分词处理,并未对MapReduce计算模型如何进行词频计算给出具体的方案。

技术实现思路

[0007]鉴于上述现有技术的不足之处,本专利技术的目的在于提供一种面向中文资料的关键词检索方法。
[0008]为了达到上述目的,本专利技术采取了以下的技术方案。
[0009]一种面向中文资料的关键词检索方法,包括以下步骤:
[0010]步骤S1,中文资料的预处理:对中文资料进行预先处理,将其处理成适用于MapReduce计算模型的格式;
[0011]步骤S2,词频的计算:
[0012]步骤S201,将中文资料储存至HDFS,HDFS将中文资料分割成固定大小的资料区块。
[0013]步骤S202,InputFormat组件,把资料区块上的资料通过RecordReader组件,对每一笔资料的内容进行处理,产生输入到Mapper组件运算的键值对(Key1,Value1)形式,Key1值为资料的偏移量,Value1值为资料的内容;
[0014]步骤S203,Mapper组件,将输入的键值对(Key1,Value1),取出Value1值当中的文件编号和字词部分,组合起来当做输出的Key2值,Key2值对应的Value2值为1,输出键值对(Key2,Value2);每个键值对(Key2,Value2),经过Shuffle组件与Sort组件,若键值对存在相同的Key2,则将其对应的Value2值进行合并并依照其值的大小排序形成Value2

,然后输出键值对(Key2,Value2

);
[0015]步骤S204,Reducer组件,就每个输入的键值对(Key2,Value2

)的进行计算:将
Key2值所对应的Value2

全部相加后得到Value3,Key2=Value3;然后输出成键值对(Key3,Value3);此时Value3表示词频;
[0016]步骤S205,OutputFormat组件,通过RecordWriter组件将每个键值对Key3和Value3的结果输出成文字档并存放至HDFS当中;
[0017]步骤S3,词频权重的计算:计算词频权重,选取词频权重高于预设阈值的字词,作为文件最具代表性的字词;
[0018]步骤S4,中文信息检索:将使用者输入的关键字与代表文件的关键字或完整的文件内容进行比对,检索出与使用者输入的关键字相关的文件。
[0019]进一步,步骤S1,包括以下步骤:
[0020]步骤S101,符号代换:将中文资料中含有中文断词系统无法辨识的标点符号,取代成正常判别的符号;
[0021]步骤S102,断字断词处理:中文资料通过中文断词系统进行断字断词处理,得到有意义且标注其词性的字词;
[0022]步骤S103,词性合并:对于断字断词处理后的字词,将相同或者相近的字词进行合并处理;
[0023]步骤S104,删除停用字:删除经过断字断词处理后具无意义的字词,包括感叹词、语助词和标点符号词性的字词;
[0024]步骤S105,同义字过滤:利用同义字数据库进行比对后将多余的同义字过滤。
[0025]进一步,步骤S3中,词频权重公式:
[0026]其中,w
ij
为字词i在文件j中的权重;tf
ij
为字词i在文件j的词频;df
ij
为字词i出现在所有文件的文件数目,N为所有文件的数目。
[0027]进一步,步骤S3,包括以下步骤:
[0028]步骤S301,从HDFS中取出文字档;
[0029]步骤S302,InputFormat组件,把资料区块上的资料通过RecordReader组件,对每一笔资料的内容进行处理,产生输入到Mapper组件运算的键值对(Key1,Value1)形式,Key1值为资料的偏移量,Value1值为资料的内容;
[0030]步骤S303,Mapper组件,将输入的键值对(Key1,Value1),取出Value1值当中的字词部分作为输出的Key2值,Key2值对应的Value2值为文件编号、词频和1;每个键值对(Key2,Value2),经过Shuffle组件与Sort组件,若键值对存在相同的Key2,则将其对应的Value2值进行合并并依照其值的大小排序形成Value2

,然后输出键值对(Key2,Value2

);
[0031]步骤S304,Reducer组件,就每个输入的键值对(Key2,Value2

)读取其文件总数,然后对每个Value2

,将1的部分加总后得到文件数目df
ij
,然后计算词频权重w
ij

[0032]将字词作为Key3,将文件编号、词频tf
ij
、文件数目df
ij
和词频权重w
ij
作为Value3。
[0033]进一步,步骤S4,包括以下步骤:
[0034]步骤S401,关键字检索,将使用者输入的关键字和代表文件的关键字,进行相似度计算,检索出与使用者输入关键字相关的文件;
[0035]使用者输入的关键字和代表文件的关键字相似度计算公式:
[0036][0037][0038]其中,Sim(a,b)为a、b两个关键字的相似度,a
LA
为使用者输入的关键字a的数量,b
LA
为代表文件的关键字b的数量,(a∪b)
LA
为同时为使用者输入d关键字a与代表文件的关键字b的数量,a
LA

b
LA<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向中文资料的关键词检索方法,其特征在于,包括以下步骤:步骤S1,中文资料的预处理:对中文资料进行预先处理,将其处理成适用于MapReduce计算模型的格式;步骤S2,词频的计算:步骤S201,将中文资料储存至HDFS,HDFS将中文资料分割成固定大小的资料区块;步骤S202,InputFormat组件,把资料区块上的资料通过RecordReader组件,对每一笔资料的内容进行处理,产生输入到Mapper组件运算的键值对(Key1,Value1)形式,Key1值为资料的偏移量,Value1值为资料的内容;步骤S203,Mapper组件,将输入的键值对(Key1,Value1),取出Value1值当中的文件编号和字词部分,组合起来当做输出的Key2值,Key2值对应的Value2值为1,输出键值对(Key2,Value2);每个键值对(Key2,Value2),经过Shuffle组件与Sort组件,若键值对存在相同的Key2,则将其对应的Value2值进行合并并依照其值的大小排序形成Value2

,然后输出键值对(Key2,Value2

);步骤S204,Reducer组件,对每个输入的键值对(Key2,Value2

)进行计算:将Key2值所对应的Value2

全部相加后得到Value3,Key2=Value3;然后输出成键值对(Key3,Value3);此时Value3表示词频;步骤S205,OutputFormat组件,通过RecordWriter组件将每个键值对Key3和Value3的结果输出成文字档并存放至HDFS当中;步骤S3,词频权重的计算:计算词频权重,选取词频权重高于预设阈值的字词,作为文件最具代表性的字词;步骤S4,中文信息检索:将使用者输入的关键字与代表文件的关键字或完整的文件内容进行比对,检索出与使用者输入的关键字相关的文件。2.根据权利要求1所述的一种面向中文资料的关键词检索方法,其特征在于,步骤S1,包括以下步骤:步骤S101,符号代换:将中文资料中含有中文断词系统无法辨识的标点符号,取代成正常判别的符号;步骤S102,断字断词处理:中文资料通过中文断词系统进行断字断词处理,得到有意义且标注其词性的字词;步骤S103,词性合并:对于断字断词处理后的字词,将相同或者相近的字词进行合并处理;步骤S104,删除停用字:删除经过断字断词处理后具无意义的字词,包括感叹词、语助词和标点符号词性的字词;步骤S105,同义字过滤:利用同义字数据库进行比对后将多余的同义字过滤。3.根据权利要求2所述的一种面向中文资料的关键词检索方法,其特征在于,步骤S3中,词频权重公式:其中,w
ij
为字词i在文件j中的权重;tf
ij
为字词i在文件j的词频;df
ij
为字词i出现在所有文件的文件数目,N为所有文件的数目。4.根据权利要求3所述的一种面向中文资料的关键词检索方法,其特征在于,步骤S3,包括以下步骤:

【专利技术属性】
技术研发人员:李文龙吴代君朱海洋张国力
申请(专利权)人:浙江数洋科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1