System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机处理,尤其涉及一种文本处理方法、装置、设备和存储介质。
技术介绍
1、随着信息技术的不断发展和普及,各行各业已经广泛利用信息技术来提高效率和生产力,由此产生了海量的文本数据。这些文本数据往往含有大量有用的信息,有效利用这些文本数据资源挖掘出有用的信息已经成为一个很迫切的需求。统计分析是一种有效的方法,但是统计分析不能发掘一些隐藏的信息,大数据技术被广泛地用来进行数据处理和数据挖掘。无论是统计分析,还是大数据技术,所处理的对象往往是结构化的数据,而生产生活中产生的海量文本数据中,大多是非结构化的数据,需要将其处理成结构化数据才能更好的采用统计分析和大数据技术进行处理。
2、如何将海量的文本数据处理成结构化数据,是一个亟待解决的问题。
技术实现思路
1、为了解决上述技术问题,本公开实施例提供了一种文本处理方法、装置、设备和存储介质,能够对文本数据做全面结构化的通用性处理,更接近认知层次,解决当前文本信息结构化方法在认知层面全面性、通用性较差的问题。
2、第一方面,本公开实施例提供一种文本处理方法,包括:
3、获取待处理文本数据中的至少一个预设关系信息,其中,所述预设关系信息包括第一预设关系信息和/或第二预设关系信息,所述第一预设关系信息包括第一文本短语、第一预设关系、第二文本短语,所述第二预设关系信息包括第三文本短语、第二预设关系、第四文本短语,所述第一预设关系用于描述所述第一文本短语和所述第二文本短语之间的关系,所述第二预设关系用于
4、基于所述至少一个预设关系信息提取所述待处理文本数据对应的至少一个目标开放关系信息,其中,所述目标开放关系信息包括:开放主体、开放关系、开放客体,所述开放主体基于所述第一预设关系信息确定,所述开放客体基于所述第二预设关系信息确定,所述开放关系基于所述第一预设关系信息和/或所述第二预设关系信息确定。
5、在本公开的一个实施方式中,所述基于所述至少一个预设关系信息提取所述待处理文本数据对应的至少一个目标开放关系信息,包括:针对每个所述第一预设关系信息,从所述第一预设关系信息中提取第一开放关系和所述开放主体;针对每个所述第二预设关系信息,从所述第二预设关系信息中提取第二开放关系和所述开放客体;如果存在所述第一开放关系和所述第二开放关系相同的第一预设关系信息和第二预设关系信息,则基于该第一预设关系信息中的开放主体、第一开放关系和该第二预设关系信息中的开放客体构建目标开放关系信息。
6、在本公开的一个实施方式中,所述方法还包括:如果不存在与所述第一开放关系相同的第二开放关系,则基于所述该第一预设关系信息中的开放主体和所述第一开放关系构建开放关系信息,其中,所述目标开放关系信息中的开放客体为空;如果不存在与所述第二开放关系相同的第一开放关系,则基于第二预设关系信息中的开放客体和所述第二开放关系构建目标开放关系信息,其中,所述目标开放关系信息中的开放主体为空。
7、在本公开的一个实施方式中,所述从所述第一预设关系信息中提取第一开放关系和所述开放主体,包括:如果所述第一预设关系表明第一文本短语是开放关系信息中的开放关系,则将所述第二文本短语作为以所述第一文本短语为第一开放关系的开放关系信息中的开放主体;或者,如果所述第一预设关系表明第二文本短语是开放关系信息中的开放关系,则将所述第一文本短语作为以所述第二文本短语为第一开放关系的开放关系信息中的开放主体。
8、在本公开的一个实施方式中,所述从所述第二预设关系信息中提取第二开放关系和所述开放客体,包括:如果所述第二预设关系表明第三文本短语是开放关系信息中的开放关系,则将所述第四文本短语作为以所述第三文本短语为第二开放关系的开放关系信息中的开放客体;或者,如果所述第二预设关系表明第四文本短语是开放关系信息中的开放关系,则将所述第三文本短语作为以所述第四文本短语为第二开放关系的开放关系信息中的开放客体。
9、在本公开的一个实施方式中,所述预设关系信息还包括第三预设关系信息,所述第三预设关系信息包括第五文本短语、第三预设关系,第六文本短语,所述第三预设关系用于描述所述第五文本短语和所述第六文本短语之间的关系;基于所述至少一个预设关系信息提取所述待处理文本数据对应的至少一个目标开放关系信息,包括:基于所述第一预设关系信息和所述第二预设关系信息提取所述待处理文本数据对应的待选开放关系信息,其中,所述待选开放关系信息包括:待选开放主体,待选开放关系,待选开放客体;基于所述第三预设关系信息提取校验开放主体和校验开放客体;如果所述待选开放关系信息中的开放主体与所述校验开放主体相同,且所述待选开放关系信息中的开放客体与所述校验开放客体相同,则将该待选开放关系信息作为目标开放关系信息。
10、在本公开的一个实施方式中,所述基于所述第三预设关系信息提取校验开放主体和校验开放客体,包括:如果所述第三预设关系中表明第五文本短语是开放关系信息中的校验开放主体,则将所述第六文本短语作为以第五文本短语为校验开放主体的开放关系信息中的校验开放客体;或者,如果所述第三预设关系中表明第六文本短语是开放关系信息中的校验开放主体,则将所述第五文本短语作为以第六文本短语为校验开放主体的开放关系信息中的校验开放客体。
11、在本公开的一个实施方式中,所述预设关系信息以预设关系三元组的形式表示,所述目标开放关系信息以目标开放关系三元组的形式表示。
12、在本公开的一个实施方式中,所述方法还包括:基于预设泛化认知关系提取所述待处理文本数据中的泛化认知关系信息,其中,所述泛化认知信息中包括:泛化认知主体、泛化认知关系、泛化认知客体,所述泛化认知关系用于描述所述泛化认知主体与所述泛化认知客体之间的通用语义认知关系。
13、在本公开的一个实施方式中,所述泛化认知关系信息中包括第一类认知关系信息,所述第一类认知关系信息包括:第一认知主体、第一认知关系、第一认知客体;所述第一认知关系用于表明在所述待处理文本数据的上下文语义中,所述第一认知主体在语义上强制约束所述第一认知客体;或者,所述第一认知关系用于表明在所述待处理文本数据的上下文语义中,所述第一认知客体在语义上强制约束所述第一认知主体。在本公开的一个实施方式中,所述泛化认知关系信息中包括第二类认知关系信息,所述第二类认知关系信息包括:第二认知主体、第二认知关系、第二认知客体;所述第二认知关系用于表明在脱离所述待处理文本数据的上下文语义的情况下,所述第二认知主体与所述第二认知客体在语义上相同。
14、在本公开的一个实施方式中,所述泛化认知关系信息中包括第三类认知关系信息,所述第三类认知关系信息包括:第三认知主体、第三认知关系、第三认知客体;所述第三认知关系用于表明在所述第三类认知关系信息中,所述第三认知主体无语义含义,所述第三认知主体用于代指第三认知客体;或者,所述第三认知关系用于表明在所述第三类认知关系信息中,所述第三认知客本文档来自技高网...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个预设关系信息提取所述待处理文本数据对应的至少一个目标开放关系信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述从所述第一预设关系信息中提取第一开放关系和所述开放主体,包括:
5.根据权利要求2所述的方法,其特征在于,所述从所述第二预设关系信息中提取第二开放关系和所述开放客体,包括:
6.根据权利要求1所述的方法,其特征在于,所述预设关系信息还包括第三预设关系信息,所述第三预设关系信息包括第五文本短语、第三预设关系,第六文本短语,所述第三预设关系用于描述所述第五文本短语和所述第六文本短语之间的关系;
7.根据权利要求6所述的方法,其特征在于,所述基于所述第三预设关系信息提取校验开放主体和校验开放客体,包括:
8.根据权利要求1-7中任一项所述方法,其特征在于,所述预设关系信息以预设关系三元组的形式表示,所述目标开放关系信息以目标
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
10.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第一类认知关系信息,所述第一类认知关系信息包括:第一认知主体、第一认知关系、第一认知客体;
11.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第二类认知关系信息,所述第二类认知关系信息包括:第二认知主体、第二认知关系、第二认知客体;
12.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第三类认知关系信息,所述第三类认知关系信息包括:第三认知主体、第三认知关系、第三认知客体;
13.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第四类认知关系信息,所述第四类认知关系信息包括:第四认知主体、第四认知关系、第四认知客体;
14.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第五类认知关系信息,所述第五类认知关系信息包括:第五认知主体、第五认知关系、第五认知客体;
15.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第六类认知关系信息,所述第六类认知关系信息包括:第六认知主体、第六认知关系、第六认知客体;
16.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第七类认知关系信息,所述第七类认知关系信息包括:第七认知主体、第七认知关系、第七认知客体;
17.根据权利要求9-16中任一项所述的方法,其特征在于,所述泛化认知关系信息中包括第八类认知关系信息,其中,所述第八类认识关系信息包括:第八认知主体、第八认知关系、第八认知客体;
18.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息以泛化认知关系三元组的形式表示。
19.一种文本处理装置,其特征在于,包括:
20.根据权利要求19所述的装置,其特征在于,所述开放关系信息提取模块,包括:
21.根据权利要求20所述的装置,其特征在于,所述开放关系信息提取模块,还包括:
22.根据权利要求19所述的装置,其特征在于,所述装置还包括:泛化认知关系信息提取模块,用于基于预设泛化认知关系提取所述待处理文本数据中的泛化认知关系信息,其中,所述泛化认知信息中包括:泛化认知主体、泛化认知关系、泛化认知客体,所述泛化认知关系用于描述所述泛化认知主体与所述泛化认知客体之间的通用语义认知关系。
23.一种电子设备,其特征在于,所述电子设备包括:
24.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-18中任一项所述的文本处理方法。
...【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个预设关系信息提取所述待处理文本数据对应的至少一个目标开放关系信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述从所述第一预设关系信息中提取第一开放关系和所述开放主体,包括:
5.根据权利要求2所述的方法,其特征在于,所述从所述第二预设关系信息中提取第二开放关系和所述开放客体,包括:
6.根据权利要求1所述的方法,其特征在于,所述预设关系信息还包括第三预设关系信息,所述第三预设关系信息包括第五文本短语、第三预设关系,第六文本短语,所述第三预设关系用于描述所述第五文本短语和所述第六文本短语之间的关系;
7.根据权利要求6所述的方法,其特征在于,所述基于所述第三预设关系信息提取校验开放主体和校验开放客体,包括:
8.根据权利要求1-7中任一项所述方法,其特征在于,所述预设关系信息以预设关系三元组的形式表示,所述目标开放关系信息以目标开放关系三元组的形式表示。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
10.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第一类认知关系信息,所述第一类认知关系信息包括:第一认知主体、第一认知关系、第一认知客体;
11.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第二类认知关系信息,所述第二类认知关系信息包括:第二认知主体、第二认知关系、第二认知客体;
12.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包括第三类认知关系信息,所述第三类认知关系信息包括:第三认知主体、第三认知关系、第三认知客体;
13.根据权利要求9所述的方法,其特征在于,所述泛化认知关系信息中包...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。