驰声从2007年开始专注语音评测至今,平均每年都要推出一些足以领跑业界的新技术。2008年,推出了业内第一评估中文声调、评价中文发音能力的SDK,2009年推出了业内第一个基于网页的无插件英文发音评估SDK,2015年推出业界第一个支持微信语音的发音评估等等。
驰声从2007年开始专注语音评测至今,平均每年都要推出一些足以领跑业界的新技术。2008年,推出了业内第一评估中文声调、评价中文发音能力的SDK,2009年推出了业内第一个基于网页的无插件英文发音评估SDK,2015年推出业界第一个支持微信语音的发音评估等等。
目前驰声服务的客户有132个国家和地区,每年语音云平台上有500万以上小时的录音数据,800万台的PC、手机等终端的离线评测激活。客户涉及在线教育、培训行业、出版行业,还有互联网智能设备、智能软件以及政府机构。驰声一直在思考智能语音技术如何能更好的服务K12的教学场景,为此定义了三个场景:(1)正式考试环境下根据人工定标数据的标准进行自动评分,驰声提供了一个AMS,目前已经服务了多个地区的英语听说考试。(2)考辅分为备考和模考的环境,驰声可提供CESE平台,辅助校园听说日常测评和阶段性考试。(3)在课外,驰声也可以为学生自学提供一些口语的发音能力评估。
两项开创性技术引领口语评测产业升级
今年11月14日,精于创新的驰声又发布两项开创性技术:第一项技术是诊断纠错内核。目前市场上有些产品可以实现错读检测,多读和漏读支持较弱,因此驰声构建了一个扩展网络的形式,可以支持任意单词的音素级插入、删除和替换错误。该内核的评分性能已达到一流水准。
以match这个单词为例,如果[mætʃ]读成[mʌtʃ],就会有相应的错误发音提示,以及正确的发音指导。从效果来看,驰声诊断评分内核以扩展网络的形式,音素级发音诊断,评分准确性远超同类竞品;诊断也更细致,可直观呈现学习者实际发音的音素序列,帮助学习者快速找到失分点;指导更有效,内核可配合专家发音指导意见推送详细文字及视频教程;报告更直观,自动整理推送的纠音报告可构成教与学的闭环,让每次练习都具有“疗效”。
第二项技术是开放题型多维度评估,该技术是行业首创,结合了词嵌入技术、句法解析、GOP算法等技术,可支持口语作文、看图说话、翻译题等开放题型。
驰声在正式考试系统和校园版的考辅系统里面评分时发现,以前都是通过定标数据进行黑盒评分,用一个逻辑回归的方式或者是SVR的方式拟合一个分数,但是并不清楚分数整个拟合的过程,于是,驰声从开放题型的总分里分出了4个维度,包含内容得分、发音得分、语法得分、流利度得分。比如,内容得分将对主题、关键词等进行相似度计算,会根据发音的特征,再经过一个拟合的公式,得到它的发音得分。得到这4个维度以后,直接用现象级的方式拟合,用(勒贝格)的方式进行公式化的拟合,让拟合方式更加透明。
经测试,开放题型多维度评估的评分性能远远高于以前的基于特征直接拟合总分的情况。新技术的好处是不仅性能提升了,还为后期打下了一个伏笔——未来,驰声将在这四个维度上继续往下做,对应诊断和反馈,比如学习者的语法错在什么位置,应该纠正成什么。该内核最出色的性能特点在于自适应评分标准,不同的地区对这四个维度有不同的侧重点,驰声可以根据定标数据学习到该地区在每个维度上的特征和权重,拟合出一个最为适合该地区的评分标准,所以整个拟合过程会更加透明。
声学模型将有四大改进
首先是声学模型新框架的改进,主要是为了识别更加准确,这里面使用了深度学习的架构,包括DNN、TDNN、传感识网络、LSTM、GRU等等,增加了一些机制、注意力网络等等,去提升评分性能,这是一个长期要做的工作。
第二是迁移学习的应用,在一个新的地区,在不同的应用环境下如何能够快速的做当地基于少量标注数据的声学模型的自适应呢?就用迁移学习的方式完成,用权重迁移和模型迁移,可以很快速的在一个新地区完成语音识别的部署。
第三是数据声学的筛选,以前需要标数据,现在不需要标数据了,它的文本都不再标了,采用数据筛选的方式进行处理,这里会基于基于置信度和解码网络的方式筛选数据,前期在某地区有3000小时的考试数据,通过这个网络选择了900小时高质量的数据就可以完成该地区声学模型的自训练,可以快速的匹配驰声的产品。
第四是音标和音素的自动生成,有些产品会需要根据考生的文本自动的生成对应的音素序列,还有出版社希望所有的单词给出它的音标序列,目前采用的是G2P的模型,给出一个文本就可以自动生成音标和音素。
AI+K12语言教育的未来发展计划
一是通用识别会扩展到智能问答,在各种环境下驰声希望做一种智能问答的场景,这里面就涉及到通用识别的情况;还有评分答案的自动生成、自动扩展提高评分性能。
二是语音的自动分类,基于不同的地区、不同的人群自适应一个评分标准,大中小城市之间的评分标准还是略有差异的,驰声期望能达到本地区的同地区标准的评分、评测、能力的评估。
三是将启动“虚拟教师”的开发,启用一对一的教学环境,在对话的过程中为学习者提供发音、语法、流利度等方面的指导和反馈,让学生进行自由交互。特别是基于图像、语音、自然语言等三种方式,像作业帮手一样,帮助学生进行课外辅导和智能问答。
四是扩展自适应学习的架构,目前基于知识图谱做各个年级学生在词汇、语法、听力、阅读和写作等5个维度上所具有的能力,然后进行横向和纵向的扩展。
驰声科技首席科学家沈来信表示, 在智能语音、口语评测的发展路径分为三步,第一步是建立标准,第二步是个性诊断,第三步是反馈指导。智能技术在教育领域要向前深入一个阶段,就要强迫自己深入到教育行业。当你要深入这个行业本身,你要去汲取这个行业里面的内容,这是很难的,更难的是放弃自己原来的立场,深入融合教育的知识和理论。