階躍星辰發(fā)布千億參數(shù)語(yǔ)音大模型Step-1o，實(shí)現(xiàn)端到端語(yǔ)音交互新突破

發(fā)布時(shí)間：2024-12-14 18:11 來(lái)源：ITBEAR 作者：陸辰風(fēng)

近日，國(guó)內(nèi)AI領(lǐng)域迎來(lái)了一項(xiàng)重大突破，階躍星辰公司在其官方公眾號(hào)上正式揭曉了其傾力打造的Step-1o千億參數(shù)端到端語(yǔ)音大模型。這一創(chuàng)新成果被譽(yù)為國(guó)內(nèi)首個(gè)達(dá)到千億參數(shù)級(jí)別的端到端語(yǔ)音模型，標(biāo)志著我國(guó)在語(yǔ)音技術(shù)領(lǐng)域邁出了堅(jiān)實(shí)的一步。

傳統(tǒng)語(yǔ)音模型往往采用級(jí)聯(lián)處理方案，這一過(guò)程中，用戶的語(yǔ)音信息首先需要被轉(zhuǎn)化為文本，然后再經(jīng)過(guò)二次處理轉(zhuǎn)化為語(yǔ)音輸出。這種處理方式不僅效率低下，而且在信息轉(zhuǎn)換過(guò)程中容易丟失包括情感在內(nèi)的諸多關(guān)鍵信息，從而導(dǎo)致模型反應(yīng)遲鈍、回答質(zhì)量欠佳、智能水平有限以及情感表達(dá)刻板等問(wèn)題。相比之下，Step-1o所采用的端到端語(yǔ)音方案則實(shí)現(xiàn)了語(yǔ)音理解和生成的一體化，極大地提升了模型的智商和情商。

Step-1o支持混合形式的輸入和輸出，無(wú)論是語(yǔ)音還是文本，都能輕松應(yīng)對(duì)。其快速反應(yīng)和隨時(shí)打斷的特性，使得用戶體驗(yàn)更加流暢。更重要的是，Step-1o能夠深度理解和模仿各種聲音特征，包括音色、韻律、方言以及個(gè)性化的口語(yǔ)表達(dá)習(xí)慣等，為用戶帶來(lái)更加自然和真實(shí)的交互體驗(yàn)。

除了具備出色的理解和模仿能力外，Step-1o還通過(guò)自學(xué)和模仿不斷提升回復(fù)質(zhì)量。它既能提供解決問(wèn)題的專業(yè)建議，也能作為高情緒價(jià)值的陪伴者，滿足用戶多樣化的需求。Step-1o還繼承了階躍星辰語(yǔ)言大模型的創(chuàng)作能力，進(jìn)一步豐富了其應(yīng)用場(chǎng)景和可能性。

據(jù)階躍星辰透露，Step-1o即將接入躍問(wèn)App端，為用戶提供實(shí)時(shí)語(yǔ)音通話服務(wù)。這一舉措無(wú)疑將進(jìn)一步提升躍問(wèn)App的用戶體驗(yàn)，同時(shí)也為Step-1o的應(yīng)用推廣打開(kāi)了新的窗口。

更多>同類內(nèi)容