温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明提供了一种语料筛选方法和装置,其中方法包括以下步骤:对原始语料数据进行数据清洗,得到候选语料数据,对候选语料数据中的语句进行分词,得到若干个词单元,计算语句对应的词单元列表长度和词单元集合长度的比例,判断语句是否符合预设条件,将符合预...该专利属于北京捷通华声科技股份有限公司所有,仅供学习研究参考,未经过北京捷通华声科技股份有限公司授权不得商用。
温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明提供了一种语料筛选方法和装置,其中方法包括以下步骤:对原始语料数据进行数据清洗,得到候选语料数据,对候选语料数据中的语句进行分词,得到若干个词单元,计算语句对应的词单元列表长度和词单元集合长度的比例,判断语句是否符合预设条件,将符合预...