【技术实现步骤摘要】
文章处理方法、电子设备和程序产品
[0001]本公开的实施例总体上涉及计算机技术,具体地涉及文章处理方法、电子设备和计算机程序产品,可用于数据分析领域和用户偏好推荐领域。
技术介绍
[0002]诸如大数据、物联网和人工智能等各种颠覆性技术的出现促使我们的社会生成大量的数据。从这些大量的数据中有效、高效、透明地捕获和融合与知识相关联的信息正变得日益流行和至关重要。在对信息进行捕获和融合的过程中,知识图可以是实现目标的好方法。在对知识图的使用过程中,通过以结构的形式捕获前述信息,可以进一步提供有关当前趋势甚至未来趋势预测的报告。然而,如何利用知识图和新文章来寻找新文章与现有文章之间的关联以及如何基于它们来生成准确的趋势报告仍然具有挑战性。
[0003]在传统技术中,在利用知识图和新文章来寻找新文章与现有文章之间的关联以及基于它们来生成准确的趋势报告方面的不足导致旨在获取这些内容的用户的用户体验被降低。
技术实现思路
[0004]本公开的实施例提供了文章处理方法、电子设备和计算机程序产品。
[0005]在本公开的第一方面中,提供了一种文章处理方法。该方法包括:基于目标文章的内容,确定与目标文章相关联的目标文章向量,目标文章向量属于文章向量空间;获取与参考文章集合相关联的参考文章向量集合,参考文章向量集合中的参考文章向量属于文章向量空间;以及基于目标文章向量与参考文章向量集合中的参考文章向量在文章向量空间中的距离,将参考文章向量集合中与目标文章向量相关联的参考文章向量确定为关联文章向量。 />[0006]在本公开的第二方面中,提供了一种电子设备。该电子设备包括:至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令当由至少一个处理单元执行时,使得设备执行动作,动作包括:基于目标文章的内容,确定与目标文章相关联的目标文章向量,目标文章向量属于文章向量空间;获取与参考文章集合相关联的参考文章向量集合,参考文章向量集合中的参考文章向量属于文章向量空间;以及基于目标文章向量与参考文章向量集合中的参考文章向量在文章向量空间中的距离,将参考文章向量集合中与目标文章向量相关联的参考文章向量确定为关联文章向量。
[0007]在本公开的第三方面中,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,机器可执行指令在被执行使得机器执行根据本公开的第一方面所描述的方法的任意步骤。
[0008]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识本公开的实施例的关键特征或必要特
征,也无意限制本公开的实施例的范围。
附图说明
[0009]通过结合附图对本公开的示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开的示例性实施例中,相同的参考标号通常代表相同部件。
[0010]图1示出了根据本公开的实施例的设备和/或方法可以在其中被实施的文章处理环境100的示意图;
[0011]图2示出了根据本公开的实施例的文章处理方法200的流程图;
[0012]图3示出了根据本公开的实施例的文章处理方法300的流程图;
[0013]图4示出了根据本公开的实施例的文章处理方法400的流程图;
[0014]图5示出了根据本公开的实施例的文章处理方法500的流程图;
[0015]图6示出了根据本公开的实施例的文章处理方法600的流程图;
[0016]图7示出了根据本公开的实施例的文章处理流程700的示意图;以及
[0017]图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。
[0018]在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0019]下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以按照各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0020]在本文中使用的术语“包括”及其变形表示开放性包括,例如,“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0021]认识到知识对人类生存的重要性,广泛的研究集中于定义和设计以其表示形式的概念模型。人类擅长观察、解释和理解周围环境,而机器则需要额外的知识表示来执行所有这些任务并以智能的方式行事。在1700年代初期,人们目睹了现代分类学的兴起。分类法充分代表了概念及其标签之间的简单层次关系(例如,父子关系)。但是,它不能描述任何级别的属性限制。为了克服这个问题,本体论是分类法的扩展,其可以使用多个类、关系和约束来将世界上的所有知识描述并捕获为概念和实体。因此,本体论能够有效地记录特定领域中的复杂结构和模式,并且自1980年代以来已经被广泛用于人工智能和机器学习研究领域。
[0022]知识图是强调知识表示和语义数据本质的主要对象和方法。知识图通常在现有数据库之上被构建知识图,以将例如文本、数字和几何图形的非结构化数据、以及结构化数据中的所有数据连接在一起。知识图使用图模型以节点和边的形式存储数据,其中节点例如代表编码为文字的实体或原始值,而语义关系由边表示。知识图也稍微类似于本体论,但是
它们并不相同。知识图可以获取并将信息集成到本体论中,并应用推理器来推导新知识。在第四次工业革命中,这为从大数据中获取基础知识带来了必不可少的宝贵优势。随着例如物联网、人工智能和云计算的尖端技术的迅速发展,大量不同类型的数据被生成,这些数据包括但不限于大众媒体数据、社交媒体数据和传感器数据。然而,大数据本身是难以被理解和利用的,除非对它们进行处理并提取有用的信息。在尤其是知识图的知识表示的支持下,可以发现来自不同大数据源的不同对象之间的关联性,在这些对象之间构建语义联系,并且可以有效地将大数据转化为可用知识。因此,知识图可以有助于在广泛的应用中提高决策过程的质量,生产率和适应性。
[0023]图深度学习是新兴的研究领域,并且在学习和分析图形数据时非常有用。如前所述,包括知识图的图是一种数据结构,其可以包括包括例如顶点的节点和将节点连接在一起的边以表示信息而没有明确的开始或结束。所有节点都可以在空间中占据任意位置,它们通常在二维甚至N维空间中被绘制,并且通常根据相似的特征被聚类。边可以是例如用箭头表示的有向边,以表示节点之间的关系类型,因此关系可以是双向的或者单向的。两种不同类型的图例如包括节点之间的连接方向很重要的有本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文章处理方法,包括:基于目标文章的内容,确定与目标文章相关联的目标文章向量,所述目标文章向量属于文章向量空间;获取与参考文章集合相关联的参考文章向量集合,所述参考文章向量集合中的参考文章向量属于所述文章向量空间;以及基于所述目标文章向量与所述参考文章向量集合中的参考文章向量在所述文章向量空间中的距离,将所述参考文章向量集合中与所述目标文章向量相关联的参考文章向量确定为关联文章向量。2.根据权利要求1所述的方法,其中所述参考文章向量集合被表示为文章知识图,所述文章知识图的节点对应于所述参考文章向量集合中的参考文章向量,所述文章知识图中的两个节点之间的边表示与所述两个节点对应的参考文章向量之间的文章向量关联性,所述方法还包括:确定所述文章知识图中的,与所述关联文章向量对应的关联节点;以及基于所述关联节点以及与所述关联节点有关的边,构建文章子知识图。3.根据权利要求2所述的方法,还包括:基于所述文章子知识图中的边,确定所述文章子知识图中的低关联性节点;以及从所述关联文章向量中,去除与所述低关联性节点对应的关联文章向量。4.根据权利要求3所述的方法,其中确定所述低关联性节点包括以下至少一项:如果所述文章子知识图中的第一节点与其他节点之间的边的数目小于阈值数目,将所述第一节点确定为所述低关联性节点;以及如果所述文章子知识图中的第一节点与其他节点之间的边的长度均大于阈值长度,将所述第一节点确定为所述低关联性节点。5.根据权利要求2所述的方法,还包括:基于所述目标文章的内容,确定与所述文章子知识图中的节点相关联的参考文章与所述目标文章的文章关联性;基于所述文章关联性,将与所述目标文章相关联的目标节点添加到所述文章子知识图中,其中所述目标节点和所述文章子知识图中的节点之间的边基于所述文章关联性而被确定;以及使用已添加所述目标节点的所述文章子知识图来更新所述文章知识图。6.根据权利要求2所述的方法,其中所述目标文章为第一目标文章,所述文章子知识图为第一文章子知识图,所述方法还包括:基于所述第一目标文章和至少一个第二目标文章的内容,生成与所述第一目标文章和所述至少一个第二目标文章相关联的热点话题;获取与所述至少一个第二目标文章相关联的至少一个第二文章子知识图;以及基于所述热点话题、所述第一文章子知识图和所述至少一个第二文章子知识图,确定与所述第一目标文章和所述至少一个第二目标文章相关联的知识图报告。7.根据权利要求1所述的方法,其中所述目标文章为第一目标文章,所述方法还包括:基于所述第一目标文章和至少一个第二目标文章的内容,生成与所述第一目标文章和所述至少一个第二目标文章相关联的热点话题;
确定与所述至少一个第二目标文章相关联的至少一个关联文章向量;以及基于所述热点话题、与所述关联文章向量相关联的参考文章和与所述至少一个关联文章向量相关联的至少一个参考文章,确定与所述第一目标文章和所述至少一个第二目标文章相关联的文章报告。8.根据权利要求1所述的方法,其中所述目标文章的内容包括以下至少一项:所述文章的题目;所述文章的作者;所述文章的摘要;以及所述文章的正文。9.一种电子设备,包括:至少一个处理单元;以及至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行动作,所述动作包括:基于目...
【专利技术属性】
技术研发人员:王子嘉,贾真,倪嘉呈,
申请(专利权)人:伊姆西IP控股有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。