信息处理方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:18525955 阅读:24 留言:0更新日期:2018-07-25 12:46
本发明专利技术提供一种信息处理方法,包括:接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算所述第一文本摘要与标准敏感文本摘要之间的相似度;根据所述相似度确定所述待处理文本信息的敏感检测结果。通过文本摘要计算相似度,检测待处理文本信息的敏感性,能够解决文本局部变形造成的干扰,提高抗干扰能力。还提供一种信息处理装置、存储介质和计算机设备。

【技术实现步骤摘要】
信息处理方法、装置、存储介质和计算机设备
本专利技术涉及计算机
,特别是涉及一种信息处理方法、装置、存储介质和计算机设备。
技术介绍
在社交场景中,经常出现谣言消息,并且谣言消息通过改变时间地点等方式不断变形,带来不容忽视的安全隐患和舆论风险。传统技术中,通常采用预设目标关键词的方式检测接收到的消息,在检测到消息包括预设目标关键词时,进行对用户发送提醒消息等操作。由于关键词需要人为预先设置,因此,采用关键词对消息进行检测,运营成本较高且抗干扰能力较差。
技术实现思路
基于此,有必要针对上述问题,提供一种信息处理方法、装置、存储介质和计算机设备,能够获取文本摘要,降低运营成本且根据文本摘要对信息内容进行检测,有效解决文本局部变形造成的干扰,提高了抗干扰能力。一种信息处理方法,所述方法包括:接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算所述第一文本摘要与标准敏感文本摘要之间的相似度;根据所述相似度确定所述待处理文本信息的敏感检测结果。一种信息处理装置,所述装置包括:第一获取模块,用于接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;第二获取模块,用于获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;相似度计算模块,用于计算所述第一文本摘要与标准敏感文本摘要之间的相似度;结果确定模块,用于根据所述相似度确定所述待处理文本信息的敏感检测结果。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时,使得所述处理器执行以下步骤:接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算所述第一文本摘要与标准敏感文本摘要之间的相似度;根据所述相似度确定所述待处理文本信息的敏感检测结果。一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行以下步骤:接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算所述第一文本摘要与标准敏感文本摘要之间的相似度;根据所述相似度确定所述待处理文本信息的敏感检测结果。上述信息处理方法、装置、存储介质和计算机设备,接收待处理文本信息,获取待处理文本信息对应的第一文本摘要,并获取标准敏感文本摘要,通过计算标准敏感文本摘要和第一文本摘要之间的相似度确定待处理文本信息的敏感检测结果。能够根据待处理文本信息获取到待处理文本信息的第一文本摘要,不需要预先人为的根据经验进行设置,降低了对人工运营经验的要求,从而降低了运营成本。进一步地,通过计算第一文本摘要与标准敏感文本摘要之间的相似度确定待处理文本信息是否是敏感文本信息,利用文本摘要对待处理文本信息是否敏感进行检测,文本摘要具有一定的可读性和不可逆性且包括多个关键信息,能够解决文本局部变形造成的干扰,提高抗干扰能力,并且根据相似度确定敏感检测结果,而不是直接比较是否相同,增强了敏感检测结果的可控性。附图说明图1为一个实施例中信息处理方法的流程图;图2为一个实施例中第一文本摘要提取方法的流程图;图3为另一个实施例中第一文本摘要提取方法的流程图;图4为一个实施例中相似度计算方法的流程图;图5为另一个实施例中相似度计算方法的流程图;图6为一个实施例中倒排索引文档生成方法的流程图;图6A为一个实施例中倒排索引文档的组成示意图;图7为一个实施例中信息处理方法的流程图;图8为一个具体实施例中信息处理方法的流程图;图8A为一个实施例中安全提醒消息的界面图;图9为一个实施例中信息处理装置的结构框图;图10为一个实施例中摘要提取模块的结构框图;图11为另一个实施例中摘要提取模块的结构框图;图12为一个实施例中相似度计算模块的结构框图;图13为一个实施例中第三获取模块的结构框图;图14为一个实施例中信息处理装置的结构框图;图15为另一个实施例中信息处理装置的结构框图;图16为又一个实施例中信息处理装置的结构框图;图17为一个实施例中计算机设备内部结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,在一个实施例中,提供一种信息处理方法,包括以下内容:步骤S110,接收待处理文本信息,获取待处理文本信息对应的第一文本摘要。其中,待处理文本信息是指待进行是否包含敏感信息检测的文本信息,敏感信息是指违法违规的信息内容,包括但不限于谣言、欺诈、赌博、刷票、广告等。待处理文本信息可以是终端接收到的文本信息,如从第一终端获取第二终端发送到第一终端的文本消息或从第一终端获取系统或服务器推送至第一终端的文本消息。待处理文本信息也可以是终端发送的消息,如第二终端通过服务器向第一终端发送消息,服务器获取第二终端发送的消息作为待处理文本消息。进一步地,接收到的待处理文本消息可以是原始文本消息,也可以是包括原始文本消息以及对应的文本摘要共同组成的文本消息。其中,文本摘要是指能够简明、确切的记载文本重要内容,反映文本重要信息的内容,文本摘要包括多个关键词。具体地,第一文本摘要可以是接收到待处理文本信息后提取得到的,也可以是在接收到待处理文本信息之前预先对待处理文本信息进行摘要提取并存储,在接收到待处理文本信息后直接获取得到的。若服务器接收到的待处理文本信息为原始文本信息,则利用摘要提取算法对待处理文本信息进行文本分析,结合待处理文本信息的内容语义等信息进行分析,对文本内容进行归纳,并生成对应的第一文本摘要,进一步地,摘要提取算法是一种实现自动提取文本摘要的算法,能够实现文本分析、内容归纳和摘要自动生成。若服务器接收到的待处理文本信息为包括原始文本消息和对应的文本摘要共同组成的文本消息时,则直接获取待处理文本信息对应的第一文本摘要。进一步地,为了更好的对文本内容进行归纳,可以对文本进行分词或切词。若待处理文本为长文本则采用分词加摘要的处理方式,对待处理文本进行分词后,根据分词结果提取对应的文本摘要,能够实现对文本进行降维,提高处理效率。若待处理文本为短文本,如以链接标题为代表的短文本,由于这类文本词汇较少,比较容易被同音字、形近字或加符号等形式对抗干扰,导致文本中许多词汇失去意义,无法成功进行分词,为了获取准确的文本摘要,使用切词算法对短文本进行切词,得到文本中多个相邻的字形成的组合,根据切词结果提取文本摘要。步骤S120,获取标准敏感文本摘要,标准敏感文本摘要通过对标准敏感文本进行摘要提取得到。其中,标准敏感文本是指用来判断待处理文本信息是否为敏感文本信息的参考敏感文本。标准敏感文本摘要是标准敏感文本通过对标准敏感文本进行摘要提取得到的,包括标准敏感文本的重要信息。进一步地,可以预先人为的根据标准敏感文本提取多个关键字作为标准敏感文本摘要,也可以根据摘要提取算法提取标准敏感文本对应的标准敏感文本摘要。本文档来自技高网...

【技术保护点】
1.一种信息处理方法,所述方法包括:接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算所述第一文本摘要与标准敏感文本摘要之间的相似度;根据所述相似度确定所述待处理文本信息的敏感检测结果。

【技术特征摘要】
1.一种信息处理方法,所述方法包括:接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算所述第一文本摘要与标准敏感文本摘要之间的相似度;根据所述相似度确定所述待处理文本信息的敏感检测结果。2.根据权利要求1所述的方法,其特征在于,所述获取所述待处理文本信息对应的第一文本摘要的步骤包括:根据分词切分算法得到所述待处理文本信息对应的分词;计算所述分词对应的词频;利用语料库计算各个分词对应的逆文档频率,分别将各个分词对应的词频与逆文档频率相乘得到对应的权重值;将所述权重值排序,并按照权重值从高到低的顺序获取预设数目的分词构成所述待处理文本信息对应的第一文本摘要。3.根据权利要求1所述的方法,其特征在于,所述获取所述待处理文本信息对应的第一文本摘要的步骤包括:根据分词切分算法得到所述待处理文本信息对应的分词;对所述分词进行词性标注,去除所述分词中的停用词得到候选关键词集合;根据预设的窗体长度截取所述候选关键词集合,得到各个窗体对应的目标候选关键词集合;将每个所述候选关键词作为一个节点,构造各个目标候选关键词集合中任意两个节点之间的边,构建所述候选关键词集合对应的候选关键词图;预设各个节点的初始化权重,利用网页排名迭代算法循环迭代所述候选关键词图,得到各个节点对应的节点权重值;按照所述节点权重值由高到低的顺序获取预设数目的候选关键词构成所述待处理文本信息对应的第一文本摘要。4.根据权利要求1所述的方法,其特征在于,所述计算所述第一文本摘要与标准敏感文本摘要之间的相似度的步骤包括:获取所述第一文本摘要与目标标准敏感文本摘要中相同关键词的数目;获取所述目标标准敏感文本摘要对应的关键词数目得到第一特征值;获取所述第一文本摘要对应的关键词数目得到第二特征值;获取所述第一特征值与所述第二特征值中的较大特征值作为目标特征值;计算所述相同关键词的数目与所述目标特征值的比值得到所述相似度。5.根据权利要求4述的方法,其特征在于,所述获取所述第一文本摘要与目标标准敏感文本摘要中相同关键词的数目的步骤包括:获取倒排索引文档,所述倒排索引文档记录了标准敏感文本库中各个标准关键词和所述标准关键词对应的标准敏感文本编号组合的关联关系;获取所述第一文本摘要中包括的待测关键词,依次获取各个待测关键词在所述倒排索引文档中相同的标准关键词,根据相同的标准关键词获取各个待测关键词对应的标准敏感文本编号组合;统计所有待测关键词对应的标准敏感文本编号,将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本;将所述目标标准敏感文本对应的重复次数作为所述相同关键词的数目。6.根据权利要求5所述的方法,其特征在于,所述获取倒排索引文档的步骤之前,还包括:以所述标准敏感文本摘要库中的各个标准关键词建立索引;将第一标准关键词作为当前处理关键词,获取所述标准敏感文本库中存在所述当前处理关键词的标准敏感文本对应的编号,将获取的各个标准敏感文本编号组成标准敏感文本编号组合,建立当前处理关键词与对应的标准敏感文本编号组合的关联关系;获取下一个标准关键词作为当前处理关键词,进入获取所述标准敏感文本库中存在所述当前处理关键词的标准敏感文本对应的编号的步骤,直至所有标准关键词建立与对应的标准敏感文本编号组合的关联关系;将所述各个标准关键词和所述标准关键词对应的标准敏感文本编号组合的关联关系形成所述倒排索引文档。7.根据权利要求1所述的方法,其特征在于,所述接收待处理文本信息的步骤之前,还包括:根据权威机构或用户举报获取敏感文本信息;获取所述敏感文本信息对应的...

【专利技术属性】
技术研发人员:赵自翔吴昊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1