信息处理方法、装置、存储介质和计算机设备制造方法及图纸

技术编号：18525955 阅读：24 留言：0更新日期：2018-07-25 12:46

本发明专利技术提供一种信息处理方法，包括：接收待处理文本信息，获取所述待处理文本信息对应的第一文本摘要；获取标准敏感文本摘要，所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到；计算所述第一文本摘要与标准敏感文本摘要之间的相似度；根据所述相似度确定所述待处理文本信息的敏感检测结果。通过文本摘要计算相似度，检测待处理文本信息的敏感性，能够解决文本局部变形造成的干扰，提高抗干扰能力。还提供一种信息处理装置、存储介质和计算机设备。

全部详细技术资料下载

【技术实现步骤摘要】
信息处理方法、装置、存储介质和计算机设备
本专利技术涉及计算机
，特别是涉及一种信息处理方法、装置、存储介质和计算机设备。
技术介绍
在社交场景中，经常出现谣言消息，并且谣言消息通过改变时间地点等方式不断变形，带来不容忽视的安全隐患和舆论风险。传统技术中，通常采用预设目标关键词的方式检测接收到的消息，在检测到消息包括预设目标关键词时，进行对用户发送提醒消息等操作。由于关键词需要人为预先设置，因此，采用关键词对消息进行检测，运营成本较高且抗干扰能力较差。
技术实现思路
基于此，有必要针对上述问题，提供一种信息处理方法、装置、存储介质和计算机设备，能够获取文本摘要，降低运营成本且根据文本摘要对信息内容进行检测，有效解决文本局部变形造成的干扰，提高了抗干扰能力。一种信息处理方法，所述方法包括：接收待处理文本信息，获取所述待处理文本信息对应的第一文本摘要；获取标准敏感文本摘要，所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到；计算所述第一文本摘要与标准敏感文本摘要之间的相似度；根据所述相似度确定所述待处理文本信息的敏感检测结果。一种信息处理装置，所述装置包括：第一获取模块，用于接收待处理文本信息，获取所述待处理文本信息对应的第一文本摘要；第二获取模块，用于获取标准敏感文本摘要，所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到；相似度计算模块，用于计算所述第一文本摘要与标准敏感文本摘要之间的相似度；结果确定模块，用于根据所述相似度确定所述待处理文本信息的敏感检测结果。一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可执行指令，所述计算机可执...

【技术保护点】
1.一种信息处理方法，所述方法包括：接收待处理文本信息，获取所述待处理文本信息对应的第一文本摘要；获取标准敏感文本摘要，所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到；计算所述第一文本摘要与标准敏感文本摘要之间的相似度；根据所述相似度确定所述待处理文本信息的敏感检测结果。

【技术特征摘要】
1.一种信息处理方法，所述方法包括：接收待处理文本信息，获取所述待处理文本信息对应的第一文本摘要；获取标准敏感文本摘要，所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到；计算所述第一文本摘要与标准敏感文本摘要之间的相似度；根据所述相似度确定所述待处理文本信息的敏感检测结果。2.根据权利要求1所述的方法，其特征在于，所述获取所述待处理文本信息对应的第一文本摘要的步骤包括：根据分词切分算法得到所述待处理文本信息对应的分词；计算所述分词对应的词频；利用语料库计算各个分词对应的逆文档频率，分别将各个分词对应的词频与逆文档频率相乘得到对应的权重值；将所述权重值排序，并按照权重值从高到低的顺序获取预设数目的分词构成所述待处理文本信息对应的第一文本摘要。3.根据权利要求1所述的方法，其特征在于，所述获取所述待处理文本信息对应的第一文本摘要的步骤包括：根据分词切分算法得到所述待处理文本信息对应的分词；对所述分词进行词性标注，去除所述分词中的停用词得到候选关键词集合；根据预设的窗体长度截取所述候选关键词集合，得到各个窗体对应的目标候选关键词集合；将每个所述候选关键词作为一个节点，构造各个目标候选关键词集合中任意两个节点之间的边，构建所述候选关键词集合对应的候选关键词图；预设各个节点的初始化权重，利用网页排名迭代算法循环迭代所述候选关键词图，得到各个节点对应的节点权重值；按照所述节点权重值由高到低的顺序获取预设数目的候选关键词构成所述待处理文本信息对应的第一文本摘要。4.根据权利要求1所述的方法，其特征在于，所述计算所述第一文本摘要与标准敏感文本摘要之间的相似度的步骤包括：获取所述第一文本摘要与目标标准敏感文本摘要中相同关键词的数目；获取所述目标标准敏感文本摘要对应的关键词数目得到第一特征值；获取所述第一文本摘要对应的关键词数目得到第二特征值；获取所述第一特征值与所述第二特征值中的较大特征值作为目标特征值；计算所述相同关键词的数目与所述目标特征值的比值得到所述相似度。5.根据权利要求4述的方法，其特征在于，所述获取所述第一文本摘要与目标标准敏感文本摘要中相同关键词的数目的步骤包括：获取倒排索引文档，所述倒排索引文档记录了标准敏感文本库中各个标准关键词和所述标准关键词对应的标准敏感文本编号组合的关联关系；获取所述第一文本摘要中包括的待测关键词，依次获取各个待测关键词在所述倒排索引文档中相同的标准关键词，根据相同的标准关键词获取各个待测关键词对应的标准敏感文本编号组合；统计所有待测关键词对应的标准敏感文本编号，将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本；将所述目标标准敏感文本对应的重复次数作为所述相同关键词的数目。6.根据权利要求5所述的方法，其特征在于，所述获取倒排索引文档的步骤之前，还包括：以所述标准敏感文本摘要库中的各个标准关键词建立索引；将第一标准关键词作为当前处理关键词，获取所述标准敏感文本库中存在所述当前处理关键词的标准敏感文本对应的编号，将获取的各个标准敏感文本编号组成标准敏感文本编号组合，建立当前处理关键词与对应的标准敏感文本编号组合的关联关系；获取下一个标准关键词作为当前处理关键词，进入获取所述标准敏感文本库中存在所述当前处理关键词的标准敏感文本对应的编号的步骤，直至所有标准关键词建立与对应的标准敏感文本编号组合的关联关系；将所述各个标准关键词和所述标准关键词对应的标准敏感文本编号组合的关联关系形成所述倒排索引文档。7.根据权利要求1所述的方法，其特征在于，所述接收待处理文本信息的步骤之前，还包括：根据权威机构或用户举报获取敏感文本信息；获取所述敏感文本信息对应的...

【专利技术属性】
技术研发人员：赵自翔，吴昊，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人