【技术实现步骤摘要】
一种情节文本确定方法及装置
本专利技术涉及数据处理
,特别是涉及一种情节文本确定方法及装置。
技术介绍
小说、剧本等文本描述了各种不同的情节。每一情节是由一段连续的字符描述的,因此,可以称这一段连续的字符为情节文本。另外,对于一部小说或者一个剧本而言,情节节奏的快慢、情节安排是否合理直接影响其对用户的吸引力,因此,需要对小说、剧本等文本所描述的情节进行检测。在对文本所描述的情节进行检测之前,需要确定出文本中各个情节对应的情节文本。现有技术中,确定文本中的情节文本时,一般由工作人员人工识别得到,因此确定情节文本的效率较低。
技术实现思路
本专利技术实施例的目的在于提供一种情节文本确定方法及装置,以提高确定文本中的情节文本的效率。具体技术方案如下:第一方面,本专利技术实施例提供了一种情节文本确定方法,上述方法包括:确定文本中的各个文本单元,其中,各个文本单元中包含所述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集;提取各个文本单元的内容特征,所述内 ...
【技术保护点】
1.一种情节文本确定方法,其特征在于,所述方法包括:/n确定文本中的各个文本单元,其中,各个文本单元中包含所述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集;/n提取各个文本单元的内容特征,所述内容特征为:反映文本单元所描述的内容的特征;/n对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇;/n将每一单元簇包括的文本单元中的字符分别确定为所述文本中用于描述各个情节的情节文本。/n
【技术特征摘要】
1.一种情节文本确定方法,其特征在于,所述方法包括:
确定文本中的各个文本单元,其中,各个文本单元中包含所述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集;
提取各个文本单元的内容特征,所述内容特征为:反映文本单元所描述的内容的特征;
对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇;
将每一单元簇包括的文本单元中的字符分别确定为所述文本中用于描述各个情节的情节文本。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇,包括:
对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,其中,所述聚合对象为:进行对象聚合时的操作单元,每一聚合对象的初始对象中包含一个文本单元,且每一文本单元与每一初始对象一一对应,每一聚合对象的对象特征的初始值为聚合对象所包含的文本单元的内容特征,相邻聚合对象所包含的文本单元在所述文本中位置相邻;
按照匹配结果对各对相邻聚合对象进行对象聚合,得到新的聚合对象;
根据每一新的聚合对象的被聚合对象的对象特征,获得每一新的聚合对象的对象特征;
在满足预设聚合终止条件的情况下,将各个聚合对象分别作为所述文本对应的各个单元簇。
3.根据权利要求2所述的方法,其特征在于,所述预设聚合终止条件包括以下情况中的至少一种:
聚合次数达到预设次数;
新的聚合对象与聚合前的聚合对象全部相同;
第一目标聚合对象的个数大于预设对象个数,所述第一目标聚合对象为:包含的字符的数量大于预设数量的聚合对象。
4.根据权利要求2或3所述的方法,其特征在于,所述对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,包括:
针对聚合对象的每一类型的对象特征,计算各对相邻聚合对象在该对象特征上的相似度,作为局部相似度;
根据各对相邻聚合对象的局部相似度,获得各对相邻聚合对象在所有对象特征上的整体相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据各对相邻聚合对象的局部相似度,获得各对相邻聚合对象在所有对象特征上的整体相似度,包括:
对各对相邻聚合对象的局部相似度进行统计计算,得到各对相邻聚合对象的整体相似度的初始值;
按照以下表达式,调整各对相邻聚合对象对应的整体相似度的初始值,得到各对相邻聚合对象的整体相似度:
其中,W为所述整体相似度,W0为所述整体相似度的初始值,a、b、c与d为预设...
【专利技术属性】
技术研发人员:郏昕,阳任科,赵冲翔,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。