口语化语句提取的方法及装置制造方法及图纸

技术编号:15895424 阅读:38 留言:0更新日期:2017-07-28 19:52
本发明专利技术实施例公开了一种口语化语句提取的方法及装置,所述方法包括:分别统计电影语料库与混合语料库中词语的词频,并对所述电影语料库与混合语料库中的词语根据所述词频进行排序;根据所述词语的词频和排序的信息计算所述词语在所述电影语料库和混合语料库中的差异度,并根据所述差异度确认口语语料库;基于所述口语语料库提取所述混合语料库中的口语化语句。本发明专利技术实施例通过分别统计电影语料库与混合语料库中词语的词频与排序的信息确认口语语料库,再使用口语语料库提取混合语料库中的口语化语句,解决了现有技术中用户自定义口语语料库费时费力的问题,有效提高口语化语句提取的效率,完善了整个语料库体系。

Method and device for extracting colloquial sentences

The embodiment of the invention discloses a method and a device with a colloquial sentence extraction, the method comprises the following steps: word statistics were mixed in the movie corpus and corpus word frequency, and the film mixed with the words in the corpus corpus according to the frequency sorted; according to the word frequency and ordering information the calculation of the words in the movie in the corpus corpus and the difference in mixed degree, and according to the difference of confirmation of spoken corpus; extracting the spoken English corpus of the mixed oral statement based on corpus. The embodiment of the invention by the frequency and sort of statistic information of words in the corpus corpus and mixed films confirm spoken corpus, and then extract oral statements mixed in the corpus using a spoken corpus, difficult to solve a user-defined spoken corpus fee in the prior art, effectively improve the efficiency of oral statement extraction, improve the entire corpus system.

【技术实现步骤摘要】
口语化语句提取的方法及装置
本专利技术实施例涉及信息
,尤其涉及一种口语化语句提取的方法及装置。
技术介绍
随着科技的进步,计算机存储容量大的特点被运用在了语言的存储上,由此语料库得以发展。口语语料库也是以电子计算机为载体承载语言知识的基础资源,完整的口语语料库用于语言模型构建、词典编纂以及文本分类等,但是在现有技术中基于口语语料库的资源少之又少,即使有,也是用户逐个词去提取的口语化语句构建的口语语料库。用户自定义口语语料库的方式费时费力,并且带有个人因素,缺乏权威性,导致成体系的口语语料库的缺失不利于完善整个语料库体系。
技术实现思路
本专利技术实施例提供一种口语化语句提取的方法及装置,能够避免用户自定义口语语料库的费时费力方式,以提高口语化语句提取的效率和信度。第一方面,本专利技术实施例提供了一种口语化语句提取的方法,包括:分别统计电影语料库与混合语料库中词语的词频,并对所述电影语料库与混合语料库中的词语根据所述词频进行排序;根据所述词语的词频和排序的信息计算所述词语在所述电影语料库和混合语料库中的差异度,并根据所述差异度确认口语语料库;基于所述口语语料库提取所述混合语料库中的本文档来自技高网...
口语化语句提取的方法及装置

【技术保护点】
一种口语化语句提取的方法,其特征在于,包括:分别统计电影语料库与混合语料库中词语的词频,并对所述电影语料库与混合语料库中的词语根据所述词频进行排序;根据所述词语的词频和排序的信息计算所述词语在所述电影语料库和混合语料库中的差异度,并根据所述差异度确认口语语料库;基于所述口语语料库提取所述混合语料库中的口语化语句。

【技术特征摘要】
1.一种口语化语句提取的方法,其特征在于,包括:分别统计电影语料库与混合语料库中词语的词频,并对所述电影语料库与混合语料库中的词语根据所述词频进行排序;根据所述词语的词频和排序的信息计算所述词语在所述电影语料库和混合语料库中的差异度,并根据所述差异度确认口语语料库;基于所述口语语料库提取所述混合语料库中的口语化语句。2.根据权利要求1所述的方法,其特征在于,所述分别统计电影语料库与混合语料库中词语的词频,并对所述电影语料库和混合语料库中的词语根据所述词频进行排序,包括:根据参考词库和jieba分词组件分别对所述电影语料库与混合语料库中的语句进行分词操作,得到所述电影语料库与混合语料库中的词语;分别统计所述电影语料库与混合语料库中的词语的词频;分别对所述电影语料库与混合语料库中的词语根据所述词语的词频由高到低进行排序。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述词语的词频和排序的信息计算所述词语在所述电影语料库和混合语料库中的差异度,并根据所述差异度确认口语语料库,包括:获取所述电影语料库和混合语料库中词频的排序在预设范围内的多个备选词语;根据当前词语序号、词语最大序号以及当前词语词频百分比,计算所述备选词语在所述电影语料库和混合语料库中的差异度,其中差异度的计算公式如下:D=Sm/Smmax-Sf/Sfmax+(Pf-Pm)其中,D为差异度;Sm为混合语料库中当前词语序号;Smmax为混合语料库中词语最大序号;Sf为电影语料库中当前词语序号;Sfmax为电影语料库中词语序号最大序号;Pf为电影语料库中当前词语词频百分比;Pm为混合语料库中当前词语词频百分比;将所述差异度满足预设阈值的所述词语作为所述口语语料库。4.根据权利要求1所述的方法,其特征在于,所述基于所述口语语料库提取所述混合语料库中的口语化语句,包括:根据当前语句中出现所述口语语料库中的所述词语的个数以及当前语句中词语的总数,计算所述混合语料库中当前语句的口语化率,所述口语化率公式计算如下:k=n/l其中,k为口语化率,n为当前语句中出现所述口语语料库中的所述词语的个数,l为当前语句中词语的总数;将所述口语化率满足预设阈值的所述当前语句作为所述口语化语句进行提取。5.根据权利要求4所述的方法,其特征在于,将所述口语化率满足预设阈值的所述当前语句作为所述口语化语句进行提取包括:将所述口语化率大于0.5的所述当前语句作为所述口语...

【专利技术属性】
技术研发人员:李贤
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1