阿里通義百聆再升級 3秒錄音能無縫切換語種、方言與情緒
阿里(09988.HK)旗下通義大模型公布,通義百聆再升級,只需3秒錄音,就能讓你的聲音無縫切換語種、方言與情緒——中、粵、日、英、開心、憤怒,並包含9種通用語言及18種方言。一段嘈雜環境下的會議錄音,AI也能毫秒級輸出文字,繞口令、RAP、背景音樂干擾。
當中,Fun-CosyVoice3模型升級,首包延遲降低50%,中英混字準確率翻倍,支援9語種18方言口音;Fun-CosyVoice3 (0.5B)正式開源,提供zero-shot音色克隆能力,支援本地部署與二次開發;Fun-ASR模型能力增強,噪聲場景準確率93%、支援歌詞與說唱識別、31語種自由混說、方言口音覆蓋,並將流式識別模型的首字降低到160ms;Fun-ASR-Nano (0.8B)開源,Fun-ASR的輕量化版本,推理成本更低,模型開源,支援本地部署與定制化微調。(jl/a)~
阿思達克財經新聞
網址: www.aastocks.com
相關股票: 09988,89988