System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种信息聚合方法、装置、电子设备及存储介质。
技术介绍
1、实践中,一些信息的含义存在歧义性。例如,在视频领域,以视频标题《父母亲情》为例,标题既可以表示“父母的亲情”一种陈述句表达,也可以表示一种特殊字符,也即视频标题。假如有一句话为“这部剧父母亲情演的很不错”,那么,将难以区分这句话表达的是“父母的亲情演的很好”还是“《父母亲情》这部剧很好”。
2、由于语言文字等信息存在歧义性,导致信息语义存在偏差,进而导致对信息进行挑选、分析、归类等聚合处理,所得到的聚合结果的准确度较低。
技术实现思路
1、鉴于此,为解决上述部分或全部技术问题,本申请实施例提供一种信息聚合方法、装置、电子设备及存储介质。
2、第一方面,本申请实施例提供一种信息聚合方法,所述方法包括:
3、确定预设信息集合中的信息包含的专有名词,得到专有名词集合;
4、针对所述专有名词集合中的每个专有名词,基于该专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第一字符,其中,专有名词所属的类别与专有名词对应的字符一一对应;
5、基于获取到的目标词中的专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第二字符;
6、基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
7、在一个可能的实施方式中,所述基于所确定的第一字符和第二字符
8、针对所述预设信息集合中的每个信息,基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息;
9、基于所获取到的目标词中的专有名词和该专有名词对应的第二字符,生成新目标词;
10、基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
11、在一个可能的实施方式中,所述基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息,包括:
12、将该信息包含的专有名词替换为该专有名词对应的第一字符,得到新信息;以及
13、所述基于所获取到的目标词中的专有名词和该专有名词对应的第二字符,生成新目标词,包括:
14、将所获取到的目标词中的专有名词替换为该专有名词对应的第二字符,得到新目标词。
15、在一个可能的实施方式中,所述基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
16、确定替换后的所述预设信息集合中的信息的特征,得到第一特征;
17、确定所述新目标词的特征,得到第二特征;
18、针对所得到的每个第一特征,确定该第一特征和所述第二特征之间的相似度,得到该第一特征对应的相似度;
19、基于所得到的相似度,从替换后的预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
20、在一个可能的实施方式中,所述确定替换后的所述预设信息集合中的信息的特征,包括:
21、将替换后的预设信息集合中的信息输入至预先训练的目标模型,得到嵌入向量,以及替换后的所述预设信息集合中的信息的特征;以及
22、所述确定所述新目标词的特征,包括:
23、将所述新目标词输入至所述目标模型,得到所述新目标词的嵌入向量,以及将所得到的嵌入向量作为所述新目标词的特征;
24、其中,所述目标模型用于确定输入其中的信息的嵌入向量。
25、在一个可能的实施方式中,所述目标模型采用如下方式训练得到:
26、获取文本集合;
27、确定所述文本集合中的文本是否包含专有名词;
28、在所述文本集合中的文本包含专有名词的情况下,基于该专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第三字符,采用该专有名词对应的第三字符替代该专有名词,得到新文本;
29、基于所得到的各个新文本,生成训练样本集;
30、采用自监督学习算法,基于所述训练样本集训练目标模型。
31、在一个可能的实施方式中,聚合对象表示视频,专有名词所属的类别包括视频标题、角色名、演员名、职业名。
32、第二方面,本申请实施例提供一种信息聚合装置,所述装置包括:
33、第一确定单元,用于确定预设信息集合中的信息包含的专有名词,得到专有名词集合;
34、第二确定单元,用于针对所述专有名词集合中的每个专有名词,基于该专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第一字符,其中,专有名词所属的类别与专有名词对应的字符一一对应;
35、第三确定单元,用于基于获取到的目标词中的专有名词所属的类别,确定该专有名词对应的字符,得到该专有名词对应的第二字符;
36、第四确定单元,用于基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
37、在一个可能的实施方式中,所述基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
38、针对所述预设信息集合中的每个信息,基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息;
39、基于所获取到的目标词中的专有名词和该专有名词对应的第二字符,生成新目标词;
40、基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
41、在一个可能的实施方式中,所述基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息,包括:
42、将该信息包含的专有名词替换为该专有名词对应的第一字符,得到新信息;以及
43、所述基于所获取到的目标词中的专有名词和该专有名词对应的第二字符,生成新目标词,包括:
44、将所获取到的目标词中的专有名词替换为该专有名词对应的第二字符,得到新目标词。
45、在一个可能的实施方式中,所述基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
46、确定替换后的所述预设信息集合中的信息的特征,得到第一特征;
47、确定所述新目标词的特征,得到第二特征;
48、针对所得到的每个第一特征,确定该第一特征和所述第二特征之间的相似度,得到该第一特征对应的相似度;
49、基于所得到的相似度,从替换后的预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果。
50、本文档来自技高网...
【技术保护点】
1.一种信息聚合方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述确定替换后的所述预设信息集合中的信息的特征,包括:
6.根据权利要求5所述的方法,其特征在于,所述目标模型采用如下方式训练得到:
7.根据权利要求1-6之一所述的方法,其特征在于,聚合对象表示视频,专有名词所属的类别包括视频标题、角色名、演员名、职业名。
8.一种信息聚合装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
1
...【技术特征摘要】
1.一种信息聚合方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所确定的第一字符和第二字符,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于该信息包含的专有名词和该专有名词对应的第一字符,生成新信息,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所得到的新信息和所述新目标词,从所述预设信息集合中的信息表示的聚合对象中,确定所获取到的目标词的聚合结果,包括:
5.根据权利要求4所述的方...
【专利技术属性】
技术研发人员:申利彬,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。