【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质
本专利技术涉及数据处理技术,尤其涉及一种文本处理方法、装置、电子设备及存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP,NatureLanguageProcessing)是人工智能中的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。关键词确定是自然语言处理中的一个重要应用,得到的关键词可用于文本分类等场景。在相关技术提供的方案中,通常是通过无监督学习,来确定文本中的关键词,具体通过滑动窗口的方式,确定文本中的词之间的共现关系,从而确定出较为重要的关键词。但是,文本的句法结构可能较为复杂,导致通过滑动窗口的方式并不能有效体现文本中的词之间的关系,确定关键词的准确性低。
技术实现思路
本专利技术实施例提供一种文本处理方法、装置、电子设备及存 ...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n对待处理文本进行分词处理,将分词处理得到的词组成词序列;/n对所述词序列进行依存句法处理,得到所述词序列中的词之间的词依存关系;/n将所述词序列中的词映射为节点,并将所述词依存关系映射为对应节点之间的边,以得到由所述节点和所述边连接而构成的候选关键词图;/n根据所述候选关键词图中的边,传播所述候选关键词图中节点的节点权重;/n将传播后的所述候选关键词图中满足权重条件的节点,确定为目标节点,并/n将所述目标节点对应的词,确定为所述待处理文本的关键词。/n
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
对待处理文本进行分词处理,将分词处理得到的词组成词序列;
对所述词序列进行依存句法处理,得到所述词序列中的词之间的词依存关系;
将所述词序列中的词映射为节点,并将所述词依存关系映射为对应节点之间的边,以得到由所述节点和所述边连接而构成的候选关键词图;
根据所述候选关键词图中的边,传播所述候选关键词图中节点的节点权重;
将传播后的所述候选关键词图中满足权重条件的节点,确定为目标节点,并
将所述目标节点对应的词,确定为所述待处理文本的关键词。
2.根据权利要求1所述的文本处理方法,其特征在于,
所述对待处理文本进行分词处理,将分词处理得到的词组成词序列,包括:
对所述待处理文本进行语句分割处理,得到至少一个语句;
对语句分割处理得到的每个所述语句进行分词处理,将分词处理得到的多个词组成所述语句对应的词序列;
所述将所述目标节点对应的词,确定为所述待处理文本的关键词之后,还包括:
确定所述语句包括的关键词的数量;
当所述语句包括的关键词的数量满足数量条件时,确定所述语句为所述待处理文本的文本摘要。
3.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述候选关键词图中的边,传播所述候选关键词图中节点的节点权重,包括:
对所述候选关键词图中节点的节点权重进行初始化处理;
迭代遍历所述候选关键词图中的节点,并
将遍历到的节点的节点权重,分配至与所述遍历到的节点存在连接关系的节点,以使所述存在连接关系的节点对被分配的节点权重进行求和处理,得到更新后的节点权重,直至满足迭代停止条件;
其中,所述连接关系的类型包括:无向边连接;出向边连接。
4.根据权利要求1所述的文本处理方法,其特征在于,
所述对待处理文本进行分词处理,将分词处理得到的词组成词序列之后,还包括:
根据所述词序列进行词性标注处理,得到所述词序列中每个词的词性;
所述将所述词序列中的词映射为节点,包括:
将所述词序列中词性满足词性条件的词映射为对应的节点。
5.根据权利要求1所述的文本处理方法,其特征在于,所述将所述词依存关系映射为对应节点之间的边,包括:
执行以下任意一种处理:
将所述词依存关系映射为对应节点之间的无向无权边;
将所述词依存关系映射为对应节点之间的无向边,并
根据所述词依存关系在所述词序列中的出现频次,确定映射的所述无向边的边权重;
其中,所述边权重与所述出现频次正相关;
根据所述词依存关系表示的方向,将所述词依存关系映射为对应节点之间的相同方向的有向边。
6.根据权利要求1所述的文本处理方法,其特征在于,所述将传播后的所述候选关键词图中满足权重条件的节点,确定为目标节点,包括:
根据节点权重对传播后的所述候选关键词图中的节点进行排序处理,得到节点序列;
根据访问顺序将所述节点序列中的节点逐个确定为目标节点,直至得到设定数量的目标节点;
其中,所述访问顺序为所述节点序列中节点的节点权重的降序。
7.根据权利要求6所述的文本处理方法,其特征在于,
所述根据访问顺序将所述节点序列中的节点逐个确定为目标节点之后,还包括:
将确定出的所述目标节点标记为已访问;其中,所述节点序列中的节点在初始化时均被标记为未访问;
所述将所述目标节点对应的词,确定为所述待处理文本的关键词之后,还包括:
当至少两个关键词在所述待处理文本中存在相邻关系时,将所述至少两个关键词进行合并处理;
确定所述待...
【专利技术属性】
技术研发人员:陈诚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。