我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
IT之家 3 月 2 日消息,阿里通義實(shí)驗室語(yǔ)音團隊今日發(fā)布了兩款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 與 Fun-AudioGen-VD。
官方宣稱(chēng),無(wú)論是精細控制聲音表達,還是從零設計音色與場(chǎng)景,都可以通過(guò)自然語(yǔ)言指令直接生成。兩款模型均支持通過(guò)自然語(yǔ)言指令控制語(yǔ)音生成,但應用方向不同:
Fun-CosyVoice3.5:多語(yǔ)種復刻 + 精細化表達控制
Fun-AudioGen-VD:聲音設計 + 場(chǎng)景化音頻生成
Fun-CosyVoice3.5
該模型支持 FreeStyle 指令控制,CosyVoice3.5 在 Instruct-TTS 方向實(shí)現能力升級,支持 FreeStyle 指令控制生成效果,一句話(huà)自由生成語(yǔ)音。
用戶(hù)可以直接用自然語(yǔ)言描述表達方式,例如:“語(yǔ)氣堅定一點(diǎn)”、“稍微壓低音調,語(yǔ)速慢一點(diǎn)”、“帶一點(diǎn)情緒起伏”...... 模型即可理解并生成相應表達。
Fun-CosyVoice3.5 新增支持泰語(yǔ)、印尼語(yǔ)、葡萄牙語(yǔ)、越南語(yǔ)。同時(shí)在 13 種語(yǔ)言的 WER 和 SpkSim 客觀(guān)指標上保持“業(yè)內領(lǐng)先”。
針對生僻字、復雜語(yǔ)句等容易讀錯的場(chǎng)景專(zhuān)項優(yōu)化,Fun-CosyVoice3.5 生僻字讀錯率從 15.2% 降至 5.3%,復雜文本表現更加穩定,長(cháng)文本朗讀也更穩定流暢。



此外,Fun-CosyVoice3.5 通過(guò)強化學(xué)習技術(shù)專(zhuān)項調優(yōu),雙重提升聽(tīng)感,使整體聽(tīng)感更加自然,表達更有層次。性能方面,Fun-CosyVoice3.5 的 Tokenizer 幀率減半,首包延遲降低 35%,在實(shí)時(shí)交互場(chǎng)景下響應更快,體驗更流暢。
Fun-AudioGen-VD
Fun-AudioGen-VD 支持根據自然語(yǔ)言描述,生成目標音色、情緒表達和完整聽(tīng)覺(jué)場(chǎng)景,實(shí)現“人物 + 場(chǎng)景”的一體化聲音生成。
基礎屬性:性別、年齡、口音、音高、語(yǔ)速
音質(zhì)特征:沙啞、清亮、低沉、磁性......
情緒表達:憤怒、悲傷、興奮、堅定......
角色模擬:客服、老兵、孩童、AI、播音員......
復雜心理:支持細膩狀態(tài)表達(如“表面鎮定但內心顫抖”)

Fun-AudioGen-VD 不僅能生成聲音,還能生成聲音所處的“世界”,打造沉浸式聽(tīng)覺(jué)場(chǎng)景。
背景環(huán)境音:疊加城市喧囂、咖啡館背景、戰場(chǎng)轟鳴等環(huán)境音;
空間混響效果:模擬大教堂、金屬牢房、水下等空間回聲;
設備聽(tīng)感濾鏡:還原老式廣播、對講機、呼吸面罩等特殊音質(zhì);
動(dòng)態(tài)環(huán)境互動(dòng):支持風(fēng)噪斷續、回聲變化、嘶啞效果等實(shí)時(shí)互動(dòng)。

一句話(huà)即可自由生成,阿里通義語(yǔ)音雙模型發(fā)布 11:23:00
Windows 11 將迎來(lái)音頻功能升級 共享設備時(shí)體驗進(jìn)一步完善 11:18:59
華為、微軟、亞馬遜等八家公司為創(chuàng )始成員,React 進(jìn)入基金會(huì )時(shí)代 10:53:35
全球首個(gè)全尺寸重載雙輪足機器人開(kāi)源平臺RW-02OP發(fā)布 10:37:12
三星MX:目標全線(xiàn)Galaxy產(chǎn)品用上自研Exynos處理器 10:35:04
聯(lián)想展示AI伴侶產(chǎn)品:“大眼睛”能投影,還可掃描文檔并轉成PPT 10:32:05