对话文本主题的自动提取方法技术

技术编号:3828652 阅读:267 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种对话文本主题的自动提取方法,包括:对对话文本进行数据预处理,对预处理后的对话文本进行问答对探测;对所述对话文本进行主题切分,并对主题切分后的语块组进行聚类,从聚类后的语块组中抽取出主题句。采用本发明专利技术方法提取的对话文本主题更为准确,用户可以从提取出来的主题句中检索或发现感兴趣的对话记录,提高用户的体验。

【技术实现步骤摘要】

本专利技术涉及计算机及通信
,尤其涉及一种对话文本主题的 自动提取方法。
技术介绍
网络通讯如今已成为了人们日常沟通的重要方式,为人们的交流提 供了巨大的便利。同时,即时通信软件、网络留言板、电子邮件、网络 会议等交流方式生成了大量的网络信息数据,这些数据与网页类型的数 据有着本质的区别,它们以对话模式存在,其内容中蕴含着两个或多个 参与者的观点和态度。因此网络对话数据中含有丰富的信息,能够给人 们的工作和学习带来很大的帮助。例如,可以用于协助警察侦查疑犯的 想法和行动,帮助心理医生了解病人的思考方式和辅助人类学家探究人 类的行为模式等。但在海量数据中寻找有用数据需要相当大量的人力和 时间,研究者希望结合计算机人工智能领域的一些方法,在海量对话数 据中高效准确地获取重要的信息,因此基于对话文本的主题提取成为了 近年来关注的热点。对话文本作为一种全新的信息资源,属于自然语言处理范畴。早期渡而来。然而由于其在语言上的特点,用在普通文本的主题提取方法对 对话文本发挥不了较好的效果。普通文本一般由一个作者编写,是具有 逻辑合理、思维缜密、措辞得当、语句通顺、上下文联系紧密和主题脉络清晰等特点的书面语;对话一般由两个或多个参与者共同完成,是具 有指代不明、语句缺省、大量问答句式存在和主题脉络混乱特点的口语。 对于两种语言特点差异很大的语料,不能将普通文本的主题提取方法直接应用于对话文本的主题提取。目前,国内外针对对话文本的主题提取方法包括1、 基于机器学习的主题提取方法。机器学习的方法对选取特征集、 训练集大小等都有一定的要求,需要多次测试比较,选择合适的模型、 特征集、训练样本等。2、 基于语义理解的主题提取方法。先提取出对话文本的句子中的名 词或动词,依赖于WordNet知识库,找出它们在知识库里对应的相克念集, 计算句子间的语义相似度,在此基础上对对话文本中的句子进行排序, 从而将排名靠前的句子视为主题句。该方法依赖于WordNet有一定的局 限性,WordNet中的词语毕竟也是有限的。特别是针对对话文本,其中 包含的大部分是口语词汇,WordNeU艮难全部嚢括。3、 融合语义和机器学习的主题提取方法。选取一些语义特征、词网、 语料结构特征和词频等作为特征,从训练集中提取这些特征放入模型进 4亍训练。4、 基于统计的主题提取方法。将用于书面语文本的主题提取方法 tf4df统计方法做一些扩展,用于对话文本的主题提取。对对话文本中的 词汇进行统计,从而对词进4亍评分,提取代表主题的词。这种简单的统 计方法适合处理实时对话信息,其处理的速度较快。5、 基于知识理解的主题提取方法。基于一个限定领域的知识理解系 统对文本的语义进行"理解",从而生成主题句。其应用于对话文本的 主题提取的不足之处在于有领域限制,而网络上的对话文本是开放领域 的,需要人工编制大量的知识理解系统,可^f亍性不高。但由于网络通讯对话文本的特点,对话中语句之间的词语相似度比 较低,口语词汇很多,主题交织且组织结构混乱,导致应用以上几种方 法提取出的主题词准确度不高。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种对话文本主题的自动提取方 法,用于在对话文本中实现对话主题的自动提取。本专利技术的实施例提供了一种,包括 对对话文本进行数据预处理,对预处理后的对话文本进行问答对探测;对所述对话文本进行主题切分,并对主题切分后的语块组进行聚类, 从聚类后的语块组中抽取出主题句。本专利技术实施例对对话文本,特别是针对网络通讯的对话文本,首先 进行切词、词性标注等一系列数据预处理后,再从对话文本中找出所有 的问答对,并将问句与相应的答句合并为同一句话;然后对对话文本进 行主题切分,将属于不同主题且相邻的对话语句切分为不同的语块;最 后对相邻且属于不同主题的语块组进行聚类,针对每个不同的主题从聚 类后的语块组中抽取出主题句,使得提取出的主题具有较高的准确性。附图说明图1是本实施例提供的对话文本主题自动提取的方法流程图2是本专利技术实施例中问句探测的原理图3是本专利技术实施例中问句探测方法的流程图4是本专利技术实施例中答句探测的原理图5是本专利技术实施例中答句探测方法的流程图6是本专利技术实施例中对对话文本进行主题切分的原理图7是本专利技术实施例中相邻句子间相似性计算的示意图8是本专利技术实施例中主题切分的可能结果示意图9是本专利技术实施例中构建的主题树示意图。8具体实施例方式本专利技术实施例着重针对网络聊天对话形式的对话文本,总结出其有别于书面语文本的三个显著特点对话文本中含有大量的问-答句式,不 同主题的对话之间边界模糊,主题交织且组织结构混乱。针对这三个特 点,本专利技术实施例对对话文本进行切词、词性标注等一系列数据预处理 后,再从对话文本中找出所有的问答对,并将问句与相应的答句合并为 同一句话;然后对对话文本进行主题切分,将属于不同主题且相邻的对 话语句切分为不同的语块;最后对相邻且属于不同主题的语块组进行聚 类,针对每个不同的主题从聚类后的语块组中抽取出主题句,使得提取 出的主题具有较高的准确性。为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本 专利技术作进一步的详细描述。图1是本实施例提供的对话文本主题自动提取的方法流程图,该流 程包括以下步骤步骤101、对对话文本进行数据预处理。该数据预处理是指对聊天 对话文本进行切词、词性标注、二次切分处理以及停用词处理的一系列 工作。该对话文本是指用户双方的一次聊天对话内容,即用户从打开聊 天窗口开始聊天到本次聊天结束关闭聊天窗口 。. (1 )对对话文本进行切词处理与词性标注。在切词处理中,对中文和英文的切词有4艮大的区别,英文切词可以 直接通过空格完成,而中文是紧凑排列的,需要通过专门的切词器进行 切分。本实施例实现中文切词与词性标注功能采用的是中科院计算所研 发的汉语词法分析系统ICTCLAS。(2)对对话文本的二次切分处理。经过中文切词与词性标注后,句子^^皮切分成了一个词集,由许多不同词性的词组成。如短语"自然语言理解"就会被切分为"自然/语言/ 理解"这三个词,但是这个短语所表达的意思与被切分为三个词后表达 的意思是不一样的。按照VSM (vector-space model,向量空间模型)理论,句子可以表 示成n维空间向量,n维表示的是对话语句的词条项数目,用tPidf来计 算对话语句在向量空间各个维度上的权重。如果将短语"自然语言理解" 划分为"自然/语言/理解"三个词,就要用向量空间的3个维度表示, 若一个句子中同时出现短语"自然语言理解"和"理解" 一词的时候,词条"理解"的权重就明显变高,但事实上"理解,,这个词在该句子中 的权重应该与短语"自然语言理解,,等同。为了避免上述情况的发生,采取的方法是在进行完切词处理后,再 对句子进行二次切分处理。采用的方法是基于统计的方法,选取对话记 录方面的语料库,统计两个词连续出现的共现概率,选取共现概率较高 的词存入共存词集。在切词结束后,扫描一次共存词集,有匹配的词将 其划归为短-i吾。针对网络对话记录,会经常出现一些比较流行的短语。定期更新已 有的共存词集,添加一些新出现的短语,可以使句子的切分达到更好的 效果。(3)停用词处理。本实施例中所谓的停用词,指的是没有实意本文档来自技高网
...

【技术保护点】
一种对话文本主题的自动提取方法,其特征在于,包括: 对对话文本进行数据预处理,对预处理后的对话文本进行问答对探测; 对所述对话文本进行主题切分,并对主题切分后的语块组进行聚类,从聚类后的语块组中抽取出主题句。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄本雄黄毅青胡广温杰
申请(专利权)人:华中科技大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1