一种金融信息搜索中台的召回排序算法和层叠式技术架构制造技术

技术编号:33644172 阅读:19 留言:0更新日期:2022-06-02 20:20
针对金融信息智能搜索中台的建设。本发明专利技术的一个技术方案是提供了一种召回算法和排序算法,其中,提出一种权重随时间变化金融知识图谱建构方法,召回算法基于金融知识图谱,对查询词进行动态语义拓展后召回;排序算法在基准因子基础上,增加时效因子、来源因子、热门因子,以及由词群算法结果衍生的相关性因子、质量因子、个性化推荐因子。本发明专利技术的另一个技术方案是提供了一种水平层叠式技术架构的实现方法,将每个业务需要的功能进行模块化解耦,每个模块交给专业团队去维护、迭代。每个模块按照搜索流程划分为不同层级:数据层、语义分析层、召回层、排重/分组层、排序层、缓存层。通过配置文件串联不同层级的模块,实现搜索引擎灵活配置。灵活配置。灵活配置。

【技术实现步骤摘要】
一种金融信息搜索中台的召回排序算法和层叠式技术架构


[0001]本专利技术涉及一种基于动态金融知识图谱实现语义拓展召回和多因子线性排序,实现智能搜索的算法。本专利技术还涉及一种算法模块化解耦、共享型设计、并按照搜索流程水平层叠式的搜索中台技术架构。

技术介绍

[0002]搜索引擎是互联网产品的核心功能之一,帮助用户从海量资讯中,快速、准确寻找目标信息,是一个涉及到从亿级别的数据中挑选数十个正确结果的过程。
[0003]搜索引擎背后涉及到一系列的知识图谱、打标、打分、排重、召回、排序等算法支持,环环相扣、缺一不可、专业化维护。如图1所示。其中,召回算法、排序算法是搜索引擎2个最核心的算法:
[0004]召回算法是通过倒排索引,预先将新闻资讯打好标签,建立新闻资讯与标签的映射关系,搜索结果空间能从亿级别快速降维到万级别。
[0005]排序算法是通过打分机制,将搜索结果从高分到低分排序,并展示分数TopN (按照不同功能和不同业务需求,N为非限定的正整数)的搜索结果展示给用户。
[0006]搜索引擎需要存储海量原文和索引,在大数据时代,单机数据库和单机计算已经无法满足业务需求,技术架构需要使用分布式计算,分布式存储和分布式缓存,来满足海量数据预处理、查询相关计算以及高并发查询需求,并且能根据业务需求,快速灵活地部署和迭代。
[0007]提供搜索引擎服务的知名企业,譬如:百度、Google均使用自研搜索系统,文献中报道也只是冰山一角。搜索引擎是一个巨大的工程项目,对于中小企业一般不会自主研发。在开源的搜索引擎中,最知名的是Elastic Search(简称ES)。 Elastic Search提供有限的召回算法和排序算法(通过原文的分词结果建立对原文的索引,通过计算分词在文档中的TFIDF,即Term Frequency InverseDocument Frequency,建立评分排序),没有语义分析,没有内容排重,自带分布式计算和分布式存储,自带Kibana统计监控,开箱即用的简易搜索引擎,适用中小企业低成本搭建搜索引擎。
[0008]现有搜索引擎基于用户画像,个性化推荐资讯、商品和视频,最大化用户使用时长、购买价值转化率、或者广告价值转化率等目标。金融信息智能搜索引擎的目标跟推荐搜索引擎有本质的不同,不完全是跟随用户,即用户喜欢什么,就推荐什么给用户看,更重要的是能高于用户和引领用户,在金融信息服务方面体现自身的专业性,业务专家或者产品经理觉得哪些信息对用户的投资带来价值 (譬如:在法律合规范围内,提示风险信息和投资机会),就推荐给用户看。在专业性和个性化之间,金融信息智能搜索引擎赋予专业性更高的权重。追求可解析性、可理解性、可规则化、可统计归因对提高专业性有指导性意义。
[0009]在传统的搜索引擎中,语义分析以通用场景为主,在金融垂直领域涉及较少。语义分析是通过维护近义词和反义词,其缺点是相对静态,无法满足市场信息和语境快速动态变化的需求。
[0010]在传统的搜索引擎中,排序算法是通过分词的TFIDF实现文章打分,TFIDF 仅仅是一个频率统计,只反映分词的稀缺性,不能反映资讯的时效性、权威性、热门程度、重要性、相关性和用户个性化等因素。
[0011]在个性化的搜索引擎中,千人千面的排序算法过分地跟随用户,强调用户偏好,没有体现金融机构的金融信息服务专业性,金融机构的职责需要更多地引领用户的财富增值保值。
[0012]传统的搜索引擎是一体化集成、专用型设计、垂直烟囱式技术架构,如图9 所示,针对一个业务,开发一个搜索引擎,其缺点是算法模块无法分解复用、不同业务之间重复造轮子、专业化分工不够、运维成本高。

技术实现思路

[0013]本专利技术的目的是:提供一种垂直于金融、投资、财经领域的智能搜索中台(简称:金融信息搜索中台)。
[0014]为了达到上述目的,本专利技术的一个技术方案是提供了一种金融信息智能搜索中台的召回算法和排序算法,其特征在于,包括:
[0015]召回算法,建立权重随时间变化的金融知识图谱,基于金融知识图谱对用户输入的查询词作语义拓展后,进入召回阶段,其中:
[0016]上市公司的公司名称作为金融知识图谱的根节点,公司名称包括交易代码和别名,交易代码和别名与公司名称作等同映射;
[0017]上市公司的每个属性作为金融知识图谱的叶节点,挂在对应的根节点下面;
[0018]在计算金融知识图谱中节点之间的权重时,只考虑根节点与根节点之间的权重以及根节点与叶节点之间的权重,而不考虑叶节点与叶节点之间的“次近邻”关系权重,记:
[0019]第i个根节点与第j个根节点之间的权重为F
ij
(t):
[0020][0021]第i个根节点与第i个根节点下的第o个叶节点之间的权重表示为f
io
(t):
[0022][0023]式(1)、(2)中,Frequency(i,j|T)表示在第T个时间段内,第i个节点所对应的词以及第j个节点所对应的词在数据源的同一个句子共现的频率,通过爬虫监控全网新增资讯的流式数据可以实时统计出来;L表示统计的时间区间长度;t表示当前时刻;
[0024]通过金融知识图谱,对用户输入的查询词Query作语义拓展,包括以下内容:
[0025]若用户从根节点进入,则:
[0026]步骤1、拓展出公司名称、交易代码和所有别名;
[0027]步骤2、根据当前时间段,拓展出TopN根节点;
[0028]步骤3、根据当前时间段,拓展出TopN叶节点;
[0029]步骤4、替代用户的查询词Query,将前述步骤1至步骤3扩展出的词加上用户的查询词Query作为拓展查询词Extended Query,进入召回阶段;
[0030]若用户从叶节点进入,则:
[0031]步骤A、返回根节点;
[0032]步骤B、重复上述步骤1至步骤4;
[0033]召回算法基于拓展查询词Extended Query得到搜索结果候选集后,经过相似度算法排重/分组后,进入排序算法;
[0034]排序算法,基于多因子线性排序算法模型对排重/分组后的搜索结果候选集,进行打分,其中:
[0035]多因子线性排序算法模型采用下式进行打分:
[0036][0037]式(3)中:w0、w1、w2、w3、w4、w5、w6为权重;
[0038]f0为基准因子,是TFIDF指标体现关键字在统计学上的稀缺性;
[0039]f1为时效因子,是体现新闻在发文时间上的优先顺序;
[0040]f2为来源因子,是基于业务部门对各大新闻媒体的内部评级,以及对版面在整个网站所在的位置评级的高低来计算;
[0041]f3为热门因子,是通过用户互动数据的高低来计算;
[0042]f4为相关性因子,根据股票名称在文章中的相关性打分R,基于相关性得分 R获得相关性因子f4;
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种金融信息智能搜索中台的召回算法和排序算法,其特征在于,包括:召回算法,建立权重随时间变化的金融知识图谱,基于金融知识图谱对用户输入的查询词作语义拓展后,进入召回阶段,其中:上市公司的公司名称作为金融知识图谱的根节点,公司名称包括交易代码和别名,交易代码和别名与公司名称作等同映射;上市公司的每个属性作为金融知识图谱的叶节点,挂在对应的根节点下面;在计算金融知识图谱中节点之间的权重时,只考虑根节点与根节点之间的权重以及根节点与叶节点之间的权重,而不考虑叶节点与叶节点之间的“次近邻”关系权重,记:第i个根节点与第j个根节点之间的权重为F
ij
(t):第i个根节点与第i个根节点下的第o个叶节点之间的权重表示为f
io
(t):式(1)、(2)中,Frequency(i,j|T)表示在第T个时间段内,第i个节点所对应的词以及第j个节点所对应的词在数据源的同一个句子共现的频率,通过爬虫监控全网新增资讯的流式数据可以实时统计出来;L表示统计的时间区间长度;t表示当前时刻;通过金融知识图谱,对用户输入的查询词Query作语义拓展,包括以下内容:若用户从根节点进入,则:步骤1、拓展出公司名称、交易代码和所有别名;步骤2、根据当前时间段,拓展出TopN根节点;步骤3、根据当前时间段,拓展出TopN叶节点;步骤4、替代用户的查询词Query,将前述步骤1至步骤3扩展出的词加上用户的查询词Query作为拓展查询词Extended Query,进入召回阶段;若用户从叶节点进入,则:步骤A、返回根节点;步骤B、重复上述步骤1至步骤4;召回算法基于拓展查询词Extended Query得到搜索结果候选集后,经过相似度算法排重/分组后,进入排序算法;排序算法,基于多因子线性排序算法模型对排重/分组后的搜索结果候选集,进行打分,其中:多因子线性排序算法模型采用下式进行打分:式(3)中:w0、w1、w2、w3、w4、w5、w6为权重;f0为基准因子,是TFIDF指标体现关键字在统计学上的稀缺性;f1为时效因子,是体现新闻在发文时间上的优先顺序;f2为来源因子,是基于业务部门对各大新闻媒体的内部评级,以及对版面在整个网站所在的位置评级的高低来计算;f3为热门因子,是通过用户互动数据的高低来计算;f4为相关性因子,根据股票名称在文章中的相关性打分R,基于相关性得分R获得相关性
因子f4;f5为质量因子,根据文章的信息量打分S,获得质量因子f5:根据文章的个性化向量,即文章在核心层、中间层、表象层3个维度上的打分,得到物品向量其中,核心层、中间层、表象层分别表示文章在3个不同深度层面的信息;为个性化因子,是根据用户的最近历史点击文章的物品向量计算的得到用户向量计算和之间的余弦夹角得到个性化因子。2.如权利要求1所述的一种金融信息智能搜索中台的召回算法和排序算法,其特征在于,按照一定权重h
s
计算得到用户向量计算得到用户向量式(4)中,权重h
s
满足M为回溯物品向量的个数,表示第i个物品向量。3.如权利要求1所述的一种金融信息智能搜索中台的召回算法和排序算法,其特征在于,所述经过相似度算法排重/分组是指,通过相似度算法对搜索结果候选集结果进行排重,把相似度高的结果抛弃或者合并成一组,并且组内随...

【专利技术属性】
技术研发人员:罗伟杰
申请(专利权)人:东方财富信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1