让世界“聆听”中国声音
6月24日上午,北京人民大会堂。科大讯飞股份有限公司董事长刘庆峰站在国家科学技术奖励大会领奖台上,捧回了2023年度国家科学技术进步奖一等奖的奖励证书。获奖的项目是“多语种智能语音关键技术及产业化”。
多语种智能语音技术,指的是包含多语种语音识别、多语种语音合成、多语种翻译技术等为一体的综合技术。多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义,是当前国际科技竞争核心焦点之一。为推动中国多语种智能语音技术走在世界前沿,科大讯飞股份有限公司牵头,联合中国科学技术大学、清华大学、华为终端有限公司、中移(杭州)信息技术有限公司等高校及行业领军企业,持续攻关十余年,在“多语种智能语音关键技术及产业化”项目上取得丰硕成果,实现了让世界“聆听”中国声音的梦想。
让机器能听会说 能理解会思考
1999年,刘庆峰带领创始团队在合肥开始了创业之路。创业之初,就定下公司使命:“让机器能听会说,实现人类和人机信息沟通无障碍。”2014年,科大讯飞又提出,下一个发展阶段是从“智能语音”到“认知智能”,“让机器能听会说,能理解会思考”。
25年来,科大讯飞凭借其在语音识别、语音合成、自然语言处理等领域的突破性技术,不断推动着智能语音和人工智能的发展,研发出一个又一个人工智能发展史上具有里程碑意义的成果:2008年,语音合成首次超过普通人说话水平;2012年,语音评测首次超过人类专家水平;2022年常识推理OpenBookQA知识推理挑战赛,单模型超过人类平均水平;2023年,星火认知大模型建设首个万卡全国产算力平台“飞星一号”,并发布全链条自主可控的“讯飞星火认知大模型”。
一直以来,智能语音面临三大关键技术挑战:一是如何突破复杂场景语音技术大规模实用门槛?二是如何实现语音技术的多语种覆盖,突破“卡脖子”难题?三是如何基于自主可控的平台、实现国产软硬件的语音产业链自主可控?
围绕上述挑战,科大讯飞股份有限公司联合各单位、企业持续攻关十余年,取得了一系列技术突破:复杂场景下语音识别准确率和语音合成表现力得到重大突破,语音转写准确率首次超过专业速记员水平;实现多语种语音技术打破国外垄断……
该项目技术多次获得国际权威竞赛的冠军,达到国际领先水平:在语音合成技术上,从2006年到2019年,连续14年获得Blizzard Challenge 国际语音合成大赛冠军;在语音识别技术上,2016年至2023年,连续获得国际多通道语音分离和识别大赛CHiME四连冠,2021年在国际低资源多语种语音识别竞赛OpenASR中获得所有15个语种受限赛道和7个语种非受限赛道的冠军;在与谷歌、微软等国际厂商的盲测对比中,实现了60个语种整体并跑,其中14个重点语种领跑。
赋能千行百业 打造多语种产业生态
在2024北京国际汽车展览会上,中国汽车出海的强劲势头再次成为焦点。中国汽车出海的成功,得益于在新能源汽车和智能化领域的前瞻布局。在智能语音技术方面,科大讯飞作为人工智能技术的领军企业,其多语种技术满足了60余种语言的智能语音需求,为中国汽车出海十强企业中的八家提供了强有力的技术支持。
科大讯飞的智能语音技术和大模型技术为海外车主提供了快速响应、准确回答的语音交互体验。目前,讯飞智能车载语音系统已覆盖23个主要语种,搭载车型销往亚洲、欧洲、中东、南美等60多个国家与地区,为海外用户提供了卓越的智能用车服务。
科大讯飞的技术实力得到了国际车企的广泛认可。本田、福特、日产、沃尔沃等国际知名车企均与科大讯飞保持了良好的合作关系。
除汽车外,科大讯飞智能语音技术还构建了手机、翻译机等多个自主可控的多语种产业生态:
AI翻译机等智能硬件品类,覆盖全球200多个国家和地区,能够解决用户全球旅游、商务等跨语言沟通问题,在北京冬奥会、进博会、博鳌论坛、国家安全、海关等重大活动和场景中获广泛应用。从2017年开始“方言保护计划”,方言库收集近170万条方言,并从2019年开始“推普脱贫攻坚”,助力云南、四川、西藏、新疆、青海、甘肃等地的少数民族地区推广普通话。
大模型+语音技术 推动万物互联时代加速到来
今年初,科大讯飞率先推出了超拟人语音合成技术,并搭载在讯飞星火App中开放给全民体验。其拟人度超过83%,MOS分达到4.5分(满分5分,分数越高表示语音质量越好),体验下来它的声音流畅自然,表达已非常接近人类的真实声音。
万物互联时代,语音正在成为人机交互的主要入口。超拟人合成技术不仅能够提供更加自然流畅的交互体验,还能够通过模拟人类的情感和行为,为用户提供更加个性化和富有同理心的服务,正在变革我们的人机交互体验。
“有了智能语音技术的加持,大模型正在走进我们每个人的生活。”刘庆峰表示,在去年亚运会上,工作人员借助讯飞星火与中国移动开发的5G新通话助手,刚挂完电话待办事项就已自动生成;在星火iFlyCode帮助下,平台迁移原本需要3个月的开发工作1个月就能完成……
以“能听会说”为前端,以“能理解会思考”为后端,将极大推动万物互联时代进程。“大模型时代的语音技术本质上是一次推动万物互联和原有人机交互场景重构的巨大产业机会,我们一定能够抓住最好的核心技术和应用的红利。”刘庆峰介绍,今年1月至5月科大讯飞AI学习机销量增长153%,用户净推荐值持续行业第一;星火大模型赋能的智慧黑板,已形成代差级领先;中国汽车出口的多语种技术几乎全部由科大讯飞提供;以智医助理的能力延伸出来的家庭医生随访和慢病管理已经覆盖了中国1.3亿的居民。(记者 汪永安)