一种确定相关对象的方法和装置制造方法及图纸

技术编号:14550457 阅读:42 留言:0更新日期:2017-02-04 23:33
本发明专利技术公开了一种确定相关对象的方法和装置。其中一种确定相关对象的方法包括:依据对象的原始语料文档确定对象的对象类型和对象主题;按照对象类型聚合对象,得到一个以上的对象簇;依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。应用本发明专利技术所提供方法和装置,可以自动实现待分析对象的相关对象的确定,克服了现有技术中通过经验分析法进行数据分析造成的人力成本过高,并且分析结果受限于分析人员的经验和市场活动范围的缺陷。

Method and device for determining relevant object

The invention discloses a method and a device for determining related objects. Including one method to determine the related object: object type and object object object are determined based on the original document corpus; according to the object type polymerization object, object clusters of more than one; based on the theme of similarity between objects of the same object in a cluster, the analysis of related objects. The method and device provided by the invention, can automatically determine the relevant objects to be analyzed, to overcome the existing technologies through empirical analysis by the human cost is too high, and the analysis results are limited to the defect analysis of the experience and the range of motion of the market.

【技术实现步骤摘要】

本专利技术涉及计算机数据处理的
,尤其涉及一种确定相关对象的方法和装置
技术介绍
随着互联网的发展,人们可以从互联网网页、企业网站、或者提供特定信息服务的数据库等外部数据源获取越来越多的原始数据信息,这些原始数据信息可以为人们提供大量所需要的内容。然而,由于通过外部数据源所获取的信息数量庞大、单位价值相对较低、几乎全是以原始语料文档的方式存在,因此如何处理这些原始数据信息以获得人们想要的内容,或者如何分析原始数据信息中这些内容之间的关系以便为人们提供服务,是目前亟待解决的问题。现有的处理和分析原始数据信息的方式通常是依据从业或者分析人员的经验,将采集的原始数据信息通过人工的方式进行分析和判断以提取出有用的内容。但是通过经验分析法进行数据分析,人力成本过高,并且分析结果受限于分析人员的经验和市场活动范围。
技术实现思路
本专利技术提供了一种确定相关对象的方法和装置,用以降低人力成本,提高准确性。具体技术方案如下:本专利技术提供了一种确定相关对象的方法,所述方法包括:依据对象的原始语料文档确定对象的对象类型和对象主题;按照对象类型聚合对象,得到一个以上的对象簇;依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。根据本专利技术一优选实施例,所述依据对象的原始语料文档确定对象的对象类型和对象主题具体包括:从外部数据源获取对象的原始语料文档;从所述对象的原始语料文档中提取类型关键词集合和主题关键词集合;将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词集合所匹配到的标准对象主题作为对象主题。根据本专利技术一优选实施例,所述将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词集合所匹配到的标准对象主题作为对象主题具体包括:将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类知识库和标准主题分类知识库进行匹配;确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型分类,以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主题分类;依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主题。根据本专利技术一优选实施例,按照对象类型聚合对象,得到一个以上的对象簇包括:查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构的位置;若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符合预设的要求,则确定该各对象属于同一对象簇。根据本专利技术一优选实施例,采用如下方式确定对象之间的主题相似度:分别确定各对象的主题向量,所述主题向量由对象的每个对象主题构成;确定各对象的主题向量的余弦相似度作为对象之间的主题相似度。根据本专利技术一优选实施例,周期性地或者受事件触发时,执行所述方法。根据本专利技术一优选实施例,所述方法还包括:将各对象分别作为待分析对象,执行所述方法;在结果数据库中存储各对象对应的相关对象。根据本专利技术一优选实施例,所述方法还包括:将用户输入的对象作为待分析对象,执行所述方法,并输出待分析对象的相关对象。根据本专利技术一优选实施例,所述方法还包括:获取用户输入的对象;查询所述结果数据库,确定并输出与所述输入的对象对应的相关对象。根据本专利技术一优选实施例,所述对象的原始语料文档包括公司的新闻语料、行业描述、产品服务描述及关系;所述对象类型包括公司行业;所述对象主题包括公司提供的产品服务;所述相关对象包括存在竞争关系的公司。本专利技术还提供了一种确定相关对象的装置,所述装置包括:确定单元,用于依据对象的原始语料文档确定对象的对象类型和对象主题;聚合单元,用于按照对象类型聚合对象,得到一个以上的对象簇;相关对象获得单元,用于依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。根据本专利技术一优选实施例,所述确定单元具体包括:原始语料文档获取单元,用于从外部数据源获取对象的原始语料文档;关键词集合提取单元,用于从所述对象的原始语料文档中提取类型关键词集合和主题关键词集合;匹配单元,用于将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词集合所匹配到的标准对象主题作为对象主题。根据本专利技术一优选实施例,所述匹配单元具体执行以下操作:将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类知识库和标准主题分类知识库进行匹配;确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型分类,以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主题分类;依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主题。根据本专利技术一优选实施例,所述聚合单元具体执行以下操作:查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构的位置;若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符合预设的要求,则确定该各对象属于同一对象簇。根据本专利技术一优选实施例,所述相关对象获得单元执行如下操作以确定对象之间的主题相似度:分别确定各对象的主题向量,所述主题向量由对象的每个对象主题构成;确定各对象的主题向量的余弦相似度作为对象之间的主题相似度。根据本专利技术一优选实施例,周期性地或者受事件触发时,使所述装置执行确定相关对象的操作。根据本专利技术一优选实施例,所述装置将各对象分别作为待分析对象,执行确定相关对象的操作;并且由所述相关对象获得单元将各对象对应的相关对象存储在结果数据库中。根据本专利技术一优选实施例,所述装置将用户输入的对象作为待分析对象,执行确定相关对象的操作,并输出待分析对象的相关对象。根据本专利技术一优选实施例,所述装置还包括输入单元和输出单元:所述输入单元用于获取用户输入的对象;所述输出单元用于将由所述相关对象获得单元通过查询所述结果数据库确定的与所述输入的对象对应的相关对象输出。根据本专利技术一优选实施例,所述对象的原始语料文档包括公司的新闻语料、行业描述、产品服务描述及关系;所述对象类型包括公司行业;所述对象主题包括公司提供的产品服务;所述相关对象包括存在竞争关系的公司。由以上技术方案可以看出,本专利技术通过对象类型之间的相通性以及对象主题之间的相似性,自动实现了待分析对象的相关对象确定,降低了人力成本,且提高了分析准确性。<本文档来自技高网...

【技术保护点】
一种确定相关对象的方法,其特征在于,所述方法包括:依据对象的原始语料文档确定对象的对象类型和对象主题;按照对象类型聚合对象,得到一个以上的对象簇;依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。

【技术特征摘要】
1.一种确定相关对象的方法,其特征在于,所述方法包括:
依据对象的原始语料文档确定对象的对象类型和对象主题;
按照对象类型聚合对象,得到一个以上的对象簇;
依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。
2.根据权利要求1所述的方法,其特征在于,所述依据对象的原始语料文档
确定对象的对象类型和对象主题具体包括:
从外部数据源获取对象的原始语料文档;
从所述对象的原始语料文档中提取类型关键词集合和主题关键词集合;
将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词
集合所匹配到的标准对象主题作为对象主题。
3.根据权利要求2所述的方法,其特征在于,所述将类型关键词集合所匹配
到的标准对象类型作为对象类型,以及主题关键词集合所匹配到的标准对象主
题作为对象主题具体包括:
将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类
知识库和标准主题分类知识库进行匹配;
确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型
分类,以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主
题分类;
依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主
题。
4.根据权利要求1至3任一项所述的方法,其特征在于,按照对象类型聚合
对象,得到一个以上的对象簇包括:
查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构
的位置;
若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符

\t合预设的要求,则确定该各对象属于同一对象簇。
5.根据权利要求1至3任一项所述的方法,其特征在于,采用如下方式确定
对象之间的主题相似度:
分别确定各对象的主题向量,所述主题向量由对象的每个对象主题构成;
确定各对象的主题向量的余弦相似度作为对象之间的主题相似度。
6.根据权利要求1至3任一项所述的方法,其特征在于,周期性地或者受事
件触发时,执行所述方法。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
将各对象分别作为待分析对象,执行所述方法;
在结果数据库中存储各对象对应的相关对象。
8.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
将用户输入的对象作为待分析对象,执行所述方法,并输出待分析对象的相
关对象。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取用户输入的对象;
查询所述结果数据库,确定并输出与所述输入的对象对应的相关对象。
10.根据权利要求1至3任一项所述的方法,其特征在于,
所述对象的原始语料文档包括公司的新闻语料、行业描述、产品服务描述
及关系;
所述对象类型包括公司行业;
所述对象主题包括公司提供的产品服务;
所述相关对象包括存在竞争关系的公司。
11.一种确定相关对象的装置,其特征在于,所述装置包括:
确定单元,用于依...

【专利技术属性】
技术研发人员:葛宁
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1