一种基于关键词的文本信息精准匹配方法、系统、存储介质、终端技术方案

技术编号:26762721 阅读:36 留言:0更新日期:2020-12-18 23:15
本发明专利技术提供一种基于关键词的文本信息精准匹配方法、系统、存储介质、终端,包括以下步骤:构建关键词方案;基于所述关键词方案在数据库中获取初步匹配文本;对所述初步匹配文本进行分词,以获取分词结果;将所述关键词方案拆解为多个独立关键词方案;当所述分词结果命中至少一个独立关键词方案时,对所述初步匹配文本进行关键词抽取,并获取文本特征;根据所述文本特征基于决策树模型获取文本信息匹配分值,并在所述文本信息匹配分值大于预设阈值时判断所述初步匹配文本为最终匹配文本。本发明专利技术的基于关键词的文本信息精准匹配方法、系统、存储介质、终端将关键词作为文本特征,结合有监督的文本分类,大大提升了文本信息匹配的可解释性和精确程度。

【技术实现步骤摘要】
一种基于关键词的文本信息精准匹配方法、系统、存储介质、终端
本专利技术涉及信息处理的
,特别是涉及一种基于关键词的文本信息精准匹配方法、系统、存储介质、终端。
技术介绍
现有技术中,在进行文本信息检索时,通常采用以下几种方案:(1)采用纯文字匹配的方式,但该方式会导致检索到很多无关的文本内容,给用户带来很多困扰。例如,文本内容出现有用户指定的关键词,但该关键词并非文本的重点讲述内容。再例如,文本内容中出现有该关键词,但该关键词并不形成一个构词,导致语义不相关的文本内容被命中,如关键词是“和服”,命中的文本内容为“产品和服务”。(2)采用文本关键词抽取的方式对用户设置的关键词进行赋分和排序,但计算得到的结果会因为文本长度不同、关键词设置数量不同等原因很难进行分值比较,同时很多完全命中且关键词分值高的文本信息并非用户所需。(3)采用文本分类的方式,但该方式仅在海量数据的情况下能够自动捕捉文本特征,难以融合用户设置的关键词信息进行判断。特别地,对于用户反馈数据数量有限的应用场景,无法满足应用需求。本文档来自技高网...

【技术保护点】
1.一种基于关键词的文本信息精准匹配方法,其特征在于:包括以下步骤:/n构建关键词方案,所述关键词方案包括至少两个独立关键词组,每个独立关键词组包括一个或多个关键词;/n基于所述关键词方案在数据库中获取初步匹配文本;/n对所述初步匹配文本进行分词,以获取分词结果;/n将所述关键词方案拆解为多个独立关键词方案,所述独立关键词方案由每个独立关键词组中的一个关键词并列组成;/n当所述分词结果命中至少一个独立关键词方案时,对所述初步匹配文本进行关键词抽取,并获取文本特征;/n根据所述文本特征基于决策树模型获取文本信息匹配分值,并在所述文本信息匹配分值大于预设阈值时判断所述初步匹配文本为最终匹配文本。/...

【技术特征摘要】
1.一种基于关键词的文本信息精准匹配方法,其特征在于:包括以下步骤:
构建关键词方案,所述关键词方案包括至少两个独立关键词组,每个独立关键词组包括一个或多个关键词;
基于所述关键词方案在数据库中获取初步匹配文本;
对所述初步匹配文本进行分词,以获取分词结果;
将所述关键词方案拆解为多个独立关键词方案,所述独立关键词方案由每个独立关键词组中的一个关键词并列组成;
当所述分词结果命中至少一个独立关键词方案时,对所述初步匹配文本进行关键词抽取,并获取文本特征;
根据所述文本特征基于决策树模型获取文本信息匹配分值,并在所述文本信息匹配分值大于预设阈值时判断所述初步匹配文本为最终匹配文本。


2.根据权利要求1所述的基于关键词的文本信息精准匹配方法,其特征在于:基于Textrank算法对所述初步匹配文本进行关键词抽取。


3.根据权利要求1所述的基于关键词的文本信息精准匹配方法,其特征在于:所述文本特征包括文本排序特征、文本分数特征、文本排序分数融合特征、文本关键词匹配特征、文本方案特征、文本方案深度特征、标题排序特征、标题分数特征、标题排序分数融合特征、标题关键词匹配特征、标题方案特征和标题方案深度特征。


4.根据权利要求1所述的基于关键词的文本信息精准匹配方法,其特征在于:所述决策树模型基于带标注的数据进行有监督建模生成。


5.一种基于关键词的文本信息精准匹配系统,其特征在于:包括构建模块、获取模块、分词模块、拆解模块、抽取模块和匹配模块;
所述构建模块用于构建关键词方案,所述关键词方案包括至少两个独立关键词组,每个独立关键词组包括一个或多个关键词;
所述获取模块用于基于所述关...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1