【技术实现步骤摘要】
文本内容的匹配方法及装置
[0001]本专利技术涉及一种自然语言处理
,特别是涉及一种文本内容的匹配方法及装置。
技术介绍
[0002]随着大数据技术的快速发展,越来越多的应用领域需要对企业数据进行大数据性管理,尤其是针对没有唯一身份编码的对象,通常需要利用名称唯一标识身份来进行相关数据管理,如包括企业名称管理、论文名称管理、试题题目管理等。例如,在利用企业名称作为唯一标识身份进行相关业务管理过程中,需要进行名称的一致性验证,即将一个或多个企业名称,与现有业务数据中的多个企业名称进行比对,以确定企业主体的一致性,从而保证企业身份的真实性。
[0003]目前,现有的名称的一致性验证通常是通过将名称作为文本内容拆分单字进行一一对比,以确定名称的主体一致性,但是,拆分单字进行一一对比大大降低了匹配效率,使得匹配结果存在冗余,且由于词语组成的特性,拆分单字进行对比还需要大量人工筛选,加大了匹配的负担,从而降低了文本内容的匹配效率。
技术实现思路
[0004]有鉴于此,本专利技术提供一种文本内容的匹配方法 ...
【技术保护点】
【技术特征摘要】
1.一种文本内容的匹配方法,其特征在于,包括:获取待匹配的目标文本内容;按照标记词类型对所述目标文本内容进行分词,得到分词结果,所述标记词类型用于表征待进行索引匹配的索引词的类型,所述索引词为基于与所述目标文本内容对应的对比文本内容构建的;若所述分词结果与所述索引词匹配,则基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较,并基于相似度比较结果确定与所述目标文本内容匹配的文本内容。2.根据权利要求1所述的方法,其特征在于,所述获取待匹配的目标文本内容之前,所述方法还包括:获取对比文本内容,并基于所述对比文本内容按照标记词类型进行拆分,所述标记词类型包括区域词类型、特征范围词类型、业务形式词类型;按照拆分后词语构建索引关系,确定索引词,所述索引关系用于表征在索引匹配时的匹配次序;生成与所述索引关系、所述索引词匹配的文本匹配词库,所述文本匹配词库中包含与所述索引词对应的同义词库,以基于所述同义词库中的同义词语进行索引匹配。3.根据权利要求2所述的方法,其特征在于,所述按照标记词类型对所述目标文本内容进行分词,得到分词结果包括:利用自然语言处理技术,按照所述标记词类型对所述目标文本内容中的词语进行拆分解析,确定所述词语所对应的标记词类型;按照所述标记词类型对所述词语进行标记,得到包含与所述标记词类型匹配的词语内容的分词结果。4.根据权利要求2所述的方法,其特征在于,所述按照标记词类型对所述目标文本内容进行分词,得到分词结果之后,还包括:按照所述分词结果中词语内容的标记词类型确定索引匹配的索引词,以及所述索引词所对应的同义词库;按照所述索引词的索引关系,将所述词语内容与所述同义词库中的同义词语进行比较;若所述同义词语与所述词语内容匹配,则确定所述分词结果与所述索引词匹配。5.根据权利要求2所述的方法,其特征在于,所述基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较,并基于相似度比较结果确定与所述目标文本内容匹配的文本内容包括:确定所述分词结果的标记参数,以及所述标记词类型的权重值;基于所述同义词库中索引词所对应的同义词语与所述分词结果之间的占比值,以及所述标记参数、所述...
【专利技术属性】
技术研发人员:周婷,曾曲,蒋兴荣,白欢朋,
申请(专利权)人:北京华通人商用信息有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。