【技术实现步骤摘要】
【国外来华专利技术】经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理相关申请的交叉引用本申请要求于2014年9月3日提交的美国临时专利申请序列号62/045,398的优先权,其内容通过引用并入本文中。
本公开内容涉及一种采用新的、经验的、即科学的和可再现的归属和鉴别处理(在本文中也称为能力)的系统,以生成来自不良策展或不良结构的非结构化或半结构化来源且特别是社交媒体来源的数据的描述性上下文属性。然后,使用超出现有递归完善处理和形态的方法,将这些属性用于表征、审议、区分和最终作出关于数据最合适处置或对待的决策。本公开内容所解决的一个固有问题是,在没有足够的本体或规范形式来构建摄取和策展处理情况下,当前不可能以一定规模一致地审查、裁定和摄取数据。本文描述的能力可以用于处理从文件获取的数据,所述文件直接从在线源下载或者响应于由终端用户、系统、应用或提供要摄取、处理和用于某些目的的数据的任何其他方法发起的查询。在这种情况下,“处理和用于某些目的”可以是充分利用数据的任何下游系统或功能,并且将受益于能力,即导出推断,辅助观察模式,执行得更好、更快速、更高效或者倾向于在该系统或功能 ...
【技术保护点】
一种方法,包括:从数据源接收数据;根据规则对所述数据源进行归属,从而产生属性;分析所述数据以识别所述数据中的混杂特性;计算所述属性的定性度量,从而得到加权属性;计算所述混杂特性的定性度量,从而产生加权混杂特性;分析所述加权属性和所述加权混杂特性,以产生处置;根据所述处置过滤所述数据,从而产生提取的数据;以及将所述提取的数据发送至下游处理。
【技术特征摘要】
【国外来华专利技术】2014.09.03 US 62/045,3981.一种方法,包括:从数据源接收数据;根据规则对所述数据源进行归属,从而产生属性;分析所述数据以识别所述数据中的混杂特性;计算所述属性的定性度量,从而得到加权属性;计算所述混杂特性的定性度量,从而产生加权混杂特性;分析所述加权属性和所述加权混杂特性,以产生处置;根据所述处置过滤所述数据,从而产生提取的数据;以及将所述提取的数据发送至下游处理。2.根据权利要求1所述的方法,还包括:基于所述处置生成反馈;以及基于所述反馈改进所述方法。3.根据权利要求1所述的方法,还包括:基于所述处置来配置和执行自动数据发现处理以发现新的数据源;以及探索所述新的数据源。4.根据权利要求1所述的方法,其中,在选自实体提取、语义消歧、情感分析、语言提取、语言转换和基本元数据的维度上进行所述分析。5.根据权利要求1所述的方法,其中,所述混杂特性选自讽刺、新词、语法变异、不恰当措辞的文本、标点符号、多语种数据、拼写、模糊、加密、上下文以及媒体组合的使用。6.根据权利要求1所述的方法,其中,所述处置选自:(a)设置与所述数据源类似的文件被全然摄取的规则,(b)分割来自所述数据源的文件并仅摄取符合特定标准的部分,(c)从所述数据源中摄取整个文件,但是使用特定于源的质量等级指示符来标记数据,(d)设置来自所述数据源的文件总是被拒绝的规则,以及(e)暂且从所述数据源中摄取文件,但保留所述文件以待另外的确证。7.一种系统,包括:处理器;以及存储器,其包含能够由所述处理器读取以使所述处理器执行以下操作的指令:从数据源接收数据;根据规则对所述数据源进行归属,从而产生属性;分析所述数据以识别所述数据中的混杂特性;计算所述属性的定性度量,从而产生加权属性;计算所述混杂特性的定性度量,从而产生加权混杂特性;分析所述加权属性和所述加权混杂特性,以产生处置;根据所述处置过滤所述数据,从而产生提取的数据;以及将所述提取的数据发送至下游处理。8.根据权利要求7所述的系统,其中,所述指令还使所述处理器:基于所述处置生成反馈;以及基于所述反馈改进所述方法。9.根据权利要求7所述的系统,其中,所述指令还使所述处理器:基于所述处置来配置和执行自动数据发现处理以发现新的数据源;以及探索所述新的数据源。10.根据权利要求7所述的系统,其中,使所述处...
【专利技术属性】
技术研发人员:安东尼·J·斯克里菲尼亚诺,耶姆·森伯哈尼奇,罗宾·弗莱·戴维斯,沃威克·马修斯,
申请(专利权)人:邓白氏公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。