一种金融信息搜索中台的召回排序算法和层叠式技术架构制造技术

技术编号：33644172 阅读：19 留言：0更新日期：2022-06-02 20:20

针对金融信息智能搜索中台的建设。本发明专利技术的一个技术方案是提供了一种召回算法和排序算法，其中，提出一种权重随时间变化金融知识图谱建构方法，召回算法基于金融知识图谱，对查询词进行动态语义拓展后召回；排序算法在基准因子基础上，增加时效因子、来源因子、热门因子，以及由词群算法结果衍生的相关性因子、质量因子、个性化推荐因子。本发明专利技术的另一个技术方案是提供了一种水平层叠式技术架构的实现方法，将每个业务需要的功能进行模块化解耦，每个模块交给专业团队去维护、迭代。每个模块按照搜索流程划分为不同层级：数据层、语义分析层、召回层、排重/分组层、排序层、缓存层。通过配置文件串联不同层级的模块，实现搜索引擎灵活配置。灵活配置。灵活配置。

全部详细技术资料下载

【技术实现步骤摘要】
一种金融信息搜索中台的召回排序算法和层叠式技术架构

[0001]本专利技术涉及一种基于动态金融知识图谱实现语义拓展召回和多因子线性排序，实现智能搜索的算法。本专利技术还涉及一种算法模块化解耦、共享型设计、并按照搜索流程水平层叠式的搜索中台技术架构。

技术介绍

[0002]搜索引擎是互联网产品的核心功能之一，帮助用户从海量资讯中，快速、准确寻找目标信息，是一个涉及到从亿级别的数据中挑选数十个正确结果的过程。
[0003]搜索引擎背后涉及到一系列的知识图谱、打标、打分、排重、召回、排序等算法支持，环环相扣、缺一不可、专业化维护。如图1所示。其中，召回算法、排序算法是搜索引擎2个最核心的算法：
[0004]召回算法是通过倒排索引，预先将新闻资讯打好标签，建立新闻资讯与标签的映射关系，搜索结果空间能从亿级别快速降维到万级别。
[0005]排序算法是通过打分机制，将搜索结果从高分到低分排序，并展示分数TopN (按照不同功能和不同业务需求，N为非限定的正整数)的搜索结果展示给用户。
[0006]搜索引擎需要存储海量原文和索引，在大数据时代，单机数据库和单机计算已经无法满足业务需求，技术架构需要使用分布式计算，分布式存储和分布式缓存，来满足海量数据预处理、查询相关计算以及高并发查询需求，并且能根据业务需求，快速灵活地部署和迭代。
[0007]提供搜索引擎服务的知名企业，譬如：百度、Google均使用自研搜索系统，文献中报道也只是冰山一角。搜索引擎是一个巨大的工程项目，对于中小企业一般不会自...

【技术保护点】

【技术特征摘要】
1.一种金融信息智能搜索中台的召回算法和排序算法，其特征在于，包括：召回算法，建立权重随时间变化的金融知识图谱，基于金融知识图谱对用户输入的查询词作语义拓展后，进入召回阶段，其中：上市公司的公司名称作为金融知识图谱的根节点，公司名称包括交易代码和别名，交易代码和别名与公司名称作等同映射；上市公司的每个属性作为金融知识图谱的叶节点，挂在对应的根节点下面；在计算金融知识图谱中节点之间的权重时，只考虑根节点与根节点之间的权重以及根节点与叶节点之间的权重，而不考虑叶节点与叶节点之间的“次近邻”关系权重，记：第i个根节点与第j个根节点之间的权重为F
ij
(t)：第i个根节点与第i个根节点下的第o个叶节点之间的权重表示为f
io
(t)：式(1)、(2)中，Frequency(i，j|T)表示在第T个时间段内，第i个节点所对应的词以及第j个节点所对应的词在数据源的同一个句子共现的频率，通过爬虫监控全网新增资讯的流式数据可以实时统计出来；L表示统计的时间区间长度；t表示当前时刻；通过金融知识图谱，对用户输入的查询词Query作语义拓展，包括以下内容：若用户从根节点进入，则：步骤1、拓展出公司名称、交易代码和所有别名；步骤2、根据当前时间段，拓展出TopN根节点；步骤3、根据当前时间段，拓展出TopN叶节点；步骤4、替代用户的查询词Query，将前述步骤1至步骤3扩展出的词加上用户的查询词Query作为拓展查询词Extended Query，进入召回阶段；若用户从叶节点进入，则：步骤A、返回根节点；步骤B、重复上述步骤1至步骤4；召回算法基于拓展查询词Extended Query得到搜索结果候选集后，经过相似度算法排重/分组后，进入排序算法；排序算法，基于多因子线性排序算法模型对排重/分组后的搜索结果候选集，进行打分，其中：多因子线性排序算法模型采用下式进行打分：式(3)中：w0、w1、w2、w3、w4、w5、w6为权重；f0为基准因子，是TFIDF指标体现关键字在统计学上的稀缺性；f1为时效因子，是体现新闻在发文时间上的优先顺序；f2为来源因子，是基于业务部门对各大新闻媒体的内部评级，以及对版面在整个网站所在的位置评级的高低来计算；f3为热门因子，是通过用户互动数据的高低来计算；f4为相关性因子，根据股票名称在文章中的相关性打分R，基于相关性得分R获得相关性
因子f4；f5为质量因子，根据文章的信息量打分S，获得质量因子f5：根据文章的个性化向量，即文章在核心层、中间层、表象层3个维度上的打分，得到物品向量其中，核心层、中间层、表象层分别表示文章在3个不同深度层面的信息；为个性化因子，是根据用户的最近历史点击文章的物品向量计算的得到用户向量计算和之间的余弦夹角得到个性化因子。2.如权利要求1所述的一种金融信息智能搜索中台的召回算法和排序算法，其特征在于，按照一定权重h
s
计算得到用户向量计算得到用户向量式(4)中，权重h
s
满足M为回溯物品向量的个数，表示第i个物品向量。3.如权利要求1所述的一种金融信息智能搜索中台的召回算法和排序算法，其特征在于，所述经过相似度算法排重/分组是指，通过相似度算法对搜索结果候选集结果进行排重，把相似度高的结果抛弃或者合并成一组，并且组内随...

【专利技术属性】
技术研发人员：罗伟杰，
申请(专利权)人：东方财富信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人