一种非结构化文本的处理方法及装置制造方法及图纸

技术编号:18350214 阅读:29 留言:0更新日期:2018-07-01 23:17
本发明专利技术提供了一种非结构化文本的处理方法及装置,该方法,包括:预先设置至少一个对象类型;接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。本发明专利技术能够更方便地从非结构化文本中获取所需要的数据。

【技术实现步骤摘要】
一种非结构化文本的处理方法及装置
本专利技术涉及计算机
,特别涉及一种非结构化文本的处理方法及装置。
技术介绍
随着计算机、互联网和数字媒体等的进一步普及、人工智能的急剧发展,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,面对如此巨大的信息海洋,特别是非结构化数据信息,如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。现有技术中对于非结构化文本这种非结构化数据的处理还是简单的保存到数据库中。当用户需要从非结构化文本中获取需要的数据时,需要对整个非结构化文本进行逐字搜索,效率很低。总之,现有技术中对非结构化文本的处理不便于从非结构化文本中获取需要的数据。
技术实现思路
本专利技术实施例提供了一种非结构化文本的处理方法及装置,能够更方便地从非结构化文本中获取所需要的数据。一方面,本专利技术实施例提供了一种非结构化文本的处理方法,包括:预先设置至少一个对象类型;接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;包括:确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。进一步地,该方法进一步包括:预先设置至少一个属性类型;接收用户输入的属性自定义指令;根据所述属性自定义指令,生成用户自定义的至少一个属性类型;将用户自定义的至少一个属性类型和预先设置的至少一个属性类型作为至少一个可选的属性类型;进一步包括:接收用户输入的针对所述待标注的对象的属性标注指令;根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;利用所述目标属性类型对所述待标注的对象进行标注。进一步地,该方法进一步包括:预先设置至少一个关联类型,以及至少一个关联方向;接收用户输入的关联自定义指令;根据所述关联自定义指令,生成用户自定义的至少一个关联类型;将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;进一步包括:接收用户输入的针对所述待标注的对象的关联标注指令;根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。进一步地,所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。进一步地,在所述确定用户选择的非结构化文本中的待标注内容之后,进一步包括:记录所述待标注内容的起始位置和长度;进一步包括:当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容。进一步地,在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:接收用户上传的所述非结构化文本。进一步地,在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:接收用户输入的URL(UniformResourceLocator,统一资源定位符)路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。另一方面,本专利技术实施例提供了一种非结构化文本的处理装置,包括:对象类型设置单元,用于设置至少一个对象类型;对象类型自定义单元,用于接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;对象类型汇总单元,用于将所述对象类型自定义单元生成的至少一个对象类型和所述对象类型设置单元设置的至少一个对象类型作为至少一个可选的对象类型;对象确定单元,用于确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;对象类型标注单元,用于接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。进一步地,该装置进一步包括:属性类型设置单元,用于设置至少一个属性类型;属性类型自定义单元,用于接收用户输入的属性自定义指令;根据所述属性自定义指令,生成用户自定义的至少一个属性类型;属性类型汇总单元,用于将所述属性类型自定义单元生成的至少一个属性类型和所述属性类型设置单元设置的至少一个属性类型作为至少一个可选的属性类型;属性类型标注单元,用于接收用户输入的针对所述待标注的对象的属性标注指令;根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;利用所述目标属性类型对所述待标注的对象进行标注。进一步地,该装置进一步包括:关联类型设置单元,用于设置至少一个关联类型,以及至少一个关联方向;关联类型自定义单元,用于接收用户输入的关联自定义指令;根据所述关联自定义指令,生成用户自定义的至少一个关联类型;关联类型汇总单元,用于将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;关联类型标注单元,用于接收用户输入的针对所述待标注的对象的关联标注指令;根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。进一步地,所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。进一步地,该装置进一步包括:记录单元,用于记录所述待标注内容的起始位置和长度;进一步包括:显示单元,用于当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容。进一步地,该装置进一步包括:上传单元,用于接收用户上传的所述非结构化文本。进一步地,该装置进一步包括:获取单元,用于接收用户输入的URL路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。在本专利技术实施例中,用户可以通过对象类型对位于非结构化文本中的待标注内容进行标注,并且,对象类型可以根据用户的需要自定义,使得用户能够更加精准地通过目标对象类型来标注待标注的对象,当需要从非结构化文本中获取需要的数据时,可以通过对象类型来快速找到需要的数据,使得从非结构化文本中获取所需要的数据变得更加方便。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种非结构化文本的处理方法的流程图;图2是本专利技术一实施例提供的另一种非结构化文本的处理方法的流程图;图3是本专利技术一实施例提供的一种非结构化文本的处理装置的示意图;图4是本专利技术一实施例提供的另一种非结构化文本的处理装置的示意图。具体实施方式为使本专利技术实施例的目的、技本文档来自技高网...
一种非结构化文本的处理方法及装置

【技术保护点】
1.一种非结构化文本的处理方法,其特征在于,预先设置至少一个对象类型;接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;包括:确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。

【技术特征摘要】
1.一种非结构化文本的处理方法,其特征在于,预先设置至少一个对象类型;接收用户输入的对象自定义指令;根据所述对象自定义指令,生成用户自定义的至少一个对象类型;将用户自定义的至少一个对象类型和预先设置的至少一个对象类型作为至少一个可选的对象类型;包括:确定用户选择的位于非结构化文本中的待标注内容;将所述待标注内容作为待标注的对象;接收用户输入的针对所述待标注的对象的对象标注指令;根据所述对象标注指令,从所述至少一个可选的对象类型中,确定目标对象类型;利用所述目标对象类型对所述待标注的对象进行标注。2.根据权利要求1所述的方法,其特征在于,进一步包括:预先设置至少一个属性类型;接收用户输入的属性自定义指令;根据所述属性自定义指令,生成用户自定义的至少一个属性类型;将用户自定义的至少一个属性类型和预先设置的至少一个属性类型作为至少一个可选的属性类型;进一步包括:接收用户输入的针对所述待标注的对象的属性标注指令;根据所述属性标注指令,从所述至少一个可选的属性类型中,确定目标属性类型;利用所述目标属性类型对所述待标注的对象进行标注。3.根据权利要求1所述的方法,其特征在于,进一步包括:预先设置至少一个关联类型,以及至少一个关联方向;接收用户输入的关联自定义指令;根据所述关联自定义指令,生成用户自定义的至少一个关联类型;将用户自定义的至少一个关联类型和预先设置的至少一个关联类型作为至少一个可选的关联类型;进一步包括:接收用户输入的针对所述待标注的对象的关联标注指令;根据所述关联标注指令,确定需要与所述待标注的对象关联的待关联的对象;根据所述关联标注指令,从所述至少一个可选的关联类型中,确定目标关联类型和目标关联方向;利用所述目标关联类型和所述目标关联方向将所述待标注的对象与所述待关联的对象进行关联。4.根据权利要求3所述的方法,其特征在于,所述至少一个关联方向包括:第一对象指向第二对象;所述第二对象指向所述第一对象;所述第一对象与所述第二对象互相指向。5.根据权利要求1-4中任一所述的方法,其特征在于,在所述确定用户选择的非结构化文本中的待标注内容之后,进一步包括:记录所述待标注内容的起始位置和长度;进一步包括:当打开所述非结构化文本时,根据所述待标注内容的起始位置和长度,显示所述待标注内容;和/或,在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:接收用户上传的所述非结构化文本;和/或,在所述确定用户选择的位于非结构化文本中的待标注内容之前,进一步包括:接收用户输入的统一资源定位符URL路径,解析所述URL路径,从所述URL路径中获取所述非结构化文本。6.一种非结构化文本的处理装置,其特征在于,包括:对象类型设置单元,用于设置至少一个对象类型;对象类型自...

【专利技术属性】
技术研发人员:邰亚琦张娴魏静如
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1