您當(dāng)前的位置：安徽科技網(wǎng) > 江淮科技

中安在線 2025-06-30 17:07:20 來(lái)源：中安在線作者：編輯：劉潤(rùn)宇

　　6月26日，科大訊飛語(yǔ)音合成技術(shù)全新升級(jí)，一句話聲音復(fù)刻與超擬人合成兩大核心能力實(shí)現(xiàn)突破。據(jù)專業(yè)測(cè)評(píng)顯示，科大訊飛一句話聲音復(fù)刻技術(shù)在相似度、準(zhǔn)確度等維度行業(yè)領(lǐng)先。

　　??訊飛星火APP的“一句話聲音復(fù)刻”功能自2024年4月上線以來(lái)，備受用戶和行業(yè)認(rèn)可。在智能語(yǔ)音領(lǐng)域，聲音復(fù)刻效果的核心指標(biāo)始終圍繞相似度與準(zhǔn)確度兩大維度展開(kāi)。相似度決定“第一耳印象”，包含音色特質(zhì)及風(fēng)格韻味；準(zhǔn)確度則關(guān)乎聲音復(fù)刻是否好用，確保發(fā)音標(biāo)準(zhǔn)、停頓自然、語(yǔ)氣連貫。

　　??此次訊飛技術(shù)突破的關(guān)鍵，除了星火語(yǔ)音大模型底座的基礎(chǔ)和持續(xù)迭代，還構(gòu)建了一套三階段層次化語(yǔ)音建?？蚣?。首先，通過(guò)星火底座大模型精確捕捉發(fā)音規(guī)律和韻律特征。其次，在音色恢復(fù)階段解耦并重構(gòu)聲學(xué)特征。最后，通過(guò)高精度聲碼器恢復(fù)高保真波形。

　　??這套語(yǔ)音建?？蚣芡黄屏苏Z(yǔ)義表征，采用mel?VQ-AE模型結(jié)合語(yǔ)音自監(jiān)督預(yù)訓(xùn)練編碼器，并引入音色最小互信息約束，成功解耦出音色無(wú)關(guān)的離散語(yǔ)義token。這種結(jié)構(gòu)實(shí)現(xiàn)了發(fā)音內(nèi)容與音色特征的可控分離，也顯著提升了語(yǔ)義LLM的建模穩(wěn)定性。

　　??在音色解耦表征能力的基礎(chǔ)上，科大訊飛在聲音復(fù)刻場(chǎng)景針對(duì)性進(jìn)行兩項(xiàng)關(guān)鍵技術(shù)的嘗試與突破：音色編碼增強(qiáng)——在聲學(xué)模型中創(chuàng)新性地融合全局聲紋嵌入與局部幀級(jí)音色編碼，提取細(xì)粒度音色特征，并構(gòu)建聲紋空間語(yǔ)義一致性損失函數(shù)，顯著提升音色恢復(fù)的相似度。強(qiáng)化學(xué)習(xí)——通過(guò)語(yǔ)音魯棒性評(píng)價(jià)模型和人工標(biāo)注構(gòu)建偏好數(shù)據(jù)集，采用基于DPO的強(qiáng)化學(xué)習(xí)策略，大幅提升合成語(yǔ)音的穩(wěn)定性和自然流暢度。只需一句話錄音，AI就能完整捕捉用戶喉腔共鳴、口音特點(diǎn)、氣息流轉(zhuǎn)等發(fā)音特征，精準(zhǔn)還原用戶的停頓習(xí)慣、情感起伏和呼吸節(jié)奏，達(dá)到真人難以區(qū)分的復(fù)刻效果。

　　??從曾經(jīng)要錄上數(shù)十個(gè)小時(shí)的語(yǔ)音素材，到錄入幾段話，再到現(xiàn)在僅用一句話就能復(fù)刻聲音，語(yǔ)音合成技術(shù)一直在向更快、更好、更易用的方向奔跑。一句話復(fù)刻技術(shù)的進(jìn)階，代表著能用更少的資源、更快的速度帶來(lái)驚艷且實(shí)用的效果，顯著降低了應(yīng)用門(mén)檻，在AI賦能千行百業(yè)的大背景下，讓更多的場(chǎng)景和行業(yè)衍生出更多的個(gè)性化需求，突破并得到實(shí)現(xiàn)。

　　??在需要深入交流的場(chǎng)景里，僅有相似音色并不足夠。訊飛的超擬人合成技術(shù)此次進(jìn)階的重點(diǎn)是賦予AI聲音以“上下文情商”。面對(duì)多輪對(duì)話的復(fù)雜度，科大訊飛開(kāi)發(fā)了上下文感知的語(yǔ)音生成系統(tǒng)。該系統(tǒng)融合歷史文本及對(duì)應(yīng)音頻特征，通過(guò)跨模態(tài)編碼器分析上下文，讓AI聲音能像真人一般敏銳響應(yīng)情緒轉(zhuǎn)變和話題轉(zhuǎn)換。在真人與AI聲音的對(duì)話測(cè)試中，隨著話題和情緒變化，合成聲音的語(yǔ)氣會(huì)實(shí)時(shí)調(diào)整，給出恰如其分的情感回應(yīng)，整體自然度接近真人水平。

　　??AI語(yǔ)音技術(shù)落地最顯著的領(lǐng)域當(dāng)屬智能汽車(chē)座艙。今年初，蔚來(lái)在“Banyan?榕?3.1.0版本”中為NOMI助手引入的超擬人情感音色，正源于訊飛的深度賦能。搭載該技術(shù)的蔚來(lái)新車(chē)型（如ET9、新ES6/EC6/ET5系列等），成為行業(yè)首款應(yīng)用AI生成式語(yǔ)音合成框架的車(chē)型。除蔚來(lái)外，奇瑞、廣汽、長(zhǎng)城、日產(chǎn)、本田等主流車(chē)企同樣選擇了訊飛超擬人技術(shù)，重塑車(chē)內(nèi)智能交流體驗(yàn)。

　　??訊飛語(yǔ)音技術(shù)的輻射范圍遠(yuǎn)不止車(chē)載場(chǎng)景。在教育領(lǐng)域，星火大模型賦能的AI學(xué)習(xí)機(jī)已能像真人教師般開(kāi)展多輪對(duì)話診斷學(xué)情，為學(xué)生定制個(gè)性化學(xué)習(xí)路徑。2025年暑期升級(jí)中，學(xué)習(xí)機(jī)新增的“AI?1對(duì)1互動(dòng)式問(wèn)診規(guī)劃”功能，通過(guò)幾輪對(duì)話即可分析知識(shí)掌握情況，結(jié)合學(xué)生能力層級(jí)生成精準(zhǔn)學(xué)習(xí)方案。

　　??在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域，訊飛智作平臺(tái)的超擬人數(shù)字人技術(shù)實(shí)現(xiàn)“一張照片+一句話錄音”定制專屬虛擬人，其唇形同步率高達(dá)98%。該技術(shù)已幫助天津大學(xué)教師打造慕課個(gè)人IP，簡(jiǎn)化教學(xué)視頻制作流程。醫(yī)療場(chǎng)景中，搭載情感合成技術(shù)的導(dǎo)診機(jī)器人使用方言與老年患者交流時(shí)，對(duì)話自然度提升200%。隨著星火語(yǔ)音大模型在教育、醫(yī)療、金融等領(lǐng)域的深度滲透，其技術(shù)底座已服務(wù)全國(guó)5萬(wàn)余所學(xué)校、600家醫(yī)院及眾多金融機(jī)構(gòu)。

　　??科大訊飛研究院院長(zhǎng)劉聰表示：“我們希望聲音不止于工具，更成為承載情感與個(gè)性的新維度，賦能更多場(chǎng)景行業(yè)、催生更多可能?！睂儆贏I聲音的多元化、情感化時(shí)代，正加速駛?cè)氍F(xiàn)實(shí)。

24小時(shí)新聞排行

1 安徽2025上半年經(jīng)濟(jì)“成績(jī)單”出爐

2 阜淮鐵路蒙城站正式開(kāi)工建設(shè)

3 雙線貫通！安徽這條高速公路有...

4 安徽六安發(fā)現(xiàn)老虎？警方通報(bào)

5 國(guó)家下達(dá)5.83億元資金，用于安...

6 王清憲與鐘志華舉行工作會(huì)談

7 以自我革命精神扎實(shí)開(kāi)展學(xué)習(xí)教...

8 總投資3億！安徽將新建一通用機(jī)場(chǎng)

9 安徽財(cái)經(jīng)大學(xué)發(fā)布嚴(yán)正聲明

10 省政協(xié)召開(kāi)黨組專題會(huì)議

熱點(diǎn)圖片

抗高溫保豐收	“飛”出新質(zhì)生產(chǎn)力
夏日田園織新卷	覓書(shū)香享清涼

亚洲娇小被黑人巨大填充撑爆-国产不卡一区-HD免费看片,欧美性猛交乱大交3,看全色黄大色黄大片大学生 ,色婷婷av一区二区三区之一色屋

24小時(shí)新聞排行

熱點(diǎn)圖片