【技术实现步骤摘要】
一种文本数据的内链词提取匹配方法及装置
[0001]本专利技术涉及属于计算机
,尤其涉及自然语言处理技术和数据处理
,具体涉及一种文本数据的内链词提取匹配方法及装置。
技术介绍
[0002]在互联网信息爆炸的时代,用户可阅读信息的数量会越来越多,也会越来越便捷。但随着互联网信息的不断增多,如何挖掘用户的信息需求,更便捷地提供有价值信息,是产品应用需要思考的问题。在阅读网页文本的过程中,可以通过点击内链词直接跳转到该内链词指向的另一个网页。显然,通过内链指向另一个网页链接的方式,是一种直接有效构建内链体系的方式。
[0003]目前不少应用也正在逐步构建内链体系,在构建的过程中,主要通过与已有数据库中的候选条目标签进行特征比对,相似度计算,进而提取出文本中的内链词及对应。但是通过这种方式,对于内链词的提取精准度来说,是非常依赖候选条目的数量和涵盖范围,且无法持续更新补充,对于相似语义词语的处理也无法通过用户行为进行学习提升,进而提炼匹配的准确度也无法保证。
技术实现思路
[0004]本专利技术的目的是提供一种文本数据的内链词提取匹配方法及装置,以达到提高提取精准度和提高匹配准确度的目的。
[0005]为实现上述目的,本专利技术提供了如下方案:一种文本数据的内链词提取匹配方法,包括:对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词;对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词 ...
【技术保护点】
【技术特征摘要】
1.一种文本数据的内链词提取匹配方法,其特征在于,包括:对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词;对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;所述目标特征词序列包括所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;更改后的候补内链词为正式内链词、预备内链词或者无意内链词;计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;更改后的标记预备内链词为正式内链词或者无意内链词;所述标记预备内链词为对目标文本中的内链词进行提取分配处理后得到的预备内链词或者更改所述候补内链词后所确定的预备内链词。2.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词,具体包括:从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词;将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理;其中,与所述正式池中的内链词完全匹配的目标内链词为正式内链词,与所述预备池中的内链词完全匹配的目标内链词为预备内链词,与所述无意池中的内链词完全匹配的目标内链词为无意内链词,剩余的目标内链词为候补内链词;所述剩余的目标内链词为在所有所述目标内链词中,除了所述正式内链词、所述预备内链词和所述无意内链词之外的目标内链词。3.根据权利要求2所述的一种文本数据的内链词提取匹配方法,其特征在于,所述将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理,具体包括:构建内链词的正式池、预备池和无意池;其中,所述正式池为使用中的内链词集合,所述正式池中的内链词是通过权重计算得出的优质内链词;所述预备池为新增内链词的临时中转词集合;所述无意池为被淘汰的内链词集合,所述无意池中的内链词是通过权重计算出的低质内链词;将所有所述目标内链词分别投放到所述正式池、所述预备池和所述无意池中,以进行匹配处理。4.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列,具体包括:将所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词投放到字典池内,以对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,进而得到所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;所述字典池为存
储有多个特征类型词的数据集合;所述字典池中的特征类型词分为行业特征词、领域特征词和属性特征词。5.根据权利要求2所述的一种文本数据的内链词提取匹配方法,其特征在于,所述基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,具体包括:按照最小特征词逐级比对原则,将所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列分别与所述候补内链词的特征词序列进行对比,以得到每个所述候补内链词的正式内链词匹配结果、预备内链词匹配结果和无意内链词匹配结果;所述正式内链词匹配结果和所述预备内链词匹配结果为增益值,所述无意内链词匹配结果为负面值;所述最小特征词逐级比对原则为按照行业特征词、领域特征词和属性特征词的先后顺序依次进行比对的原则;确定所述正式池中与所述候补内链词的特征词序列匹配的内链词数量X、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量Y和所述无意池中与候补内链词的特征词序列匹配的内链词数量Z;基于所述正式池中与所述候补内链词的特征词序列匹配的内链词数量X、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量Y和所述无意池中与候补内链词的...
【专利技术属性】
技术研发人员:朱春华,王涛,程晓梅,王艳娜,逄晓刚,曾繁诚,
申请(专利权)人:山东捷瑞数字科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。