隨著通用大模型性能的迅猛提升和推理算力成本的急劇下降,垂直領(lǐng)域的大模型正迎來前所未有的發(fā)展機遇。其中,代碼大模型尤為引人矚目,不僅吸引了市場的廣泛關(guān)注,還激發(fā)了資本的濃厚興趣。
據(jù)Gartner在《2024年全球IT支出預(yù)測》中的分析,全球軟件開發(fā)人力成本年均增長率約為7-9%,預(yù)計到2024年,全球軟件相關(guān)支出(涵蓋開發(fā)和運維)將達到1.2萬億美元,其中人力成本占比高達50%,即6000億美元。在中國,互聯(lián)網(wǎng)巨頭們面臨的軟件開發(fā)人力成本壓力更為顯著,部分公司的薪酬及相關(guān)支出年增幅已接近15%。
然而,與高企的軟件開發(fā)需求相比,全球軟件工程師的缺口卻在持續(xù)擴大。數(shù)據(jù)顯示,未來十年這一缺口可能達到數(shù)千萬,成為制約各行各業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵因素。在此背景下,代碼大模型憑借其獨特的優(yōu)勢,成為了少數(shù)具備明確商業(yè)化條件和付費意愿的垂直行業(yè)大模型之一。
以Cursor為例,該產(chǎn)品僅用21個月便實現(xiàn)了1億美元的ARR(年度重復(fù)收入),成為歷史上增長最快的SaaS產(chǎn)品之一,估值高達100億美元。Gartner還預(yù)測,到2026年,AI將自動化全球30%的編碼任務(wù),這意味著代碼大模型市場潛力巨大,是一個可見的千億美元級市場。
海外市場上,GitHub Copilot、Cursor、Codeium等AI編程產(chǎn)品已經(jīng)取得了顯著的成功。而在國內(nèi),通用大模型廠商也紛紛涉足代碼大模型領(lǐng)域,如阿里的通義靈碼、騰訊的騰訊云AI代碼助手、華為的Code Arts、字節(jié)跳動的豆包Mars Code以及百度的文心快碼等。京東、訊飛、昆侖萬維、DeepSeek、智譜等多家通用大模型廠商也在積極布局。
在這些眾多玩家中,孵化于北大軟件工程研究所的aiXcoder憑借其深厚的積淀和卓越的模型性能脫穎而出。依托北大軟件工程研究所60余年的積累,aiXcoder團隊從多篇頂會論文奠基,到發(fā)布全球首個十億級和百億級參數(shù)的國產(chǎn)代碼大模型,再到在國內(nèi)諸多大廠頭部客戶中實踐落地,實現(xiàn)了從實驗室理論到產(chǎn)業(yè)價值的閉環(huán)突破。
2024年4月,aiXcoder發(fā)布了aiXcoder-7B模型,并開源。該模型在多個評測集的評測結(jié)果中超越了同級別參數(shù)規(guī)模的眾多開源模型。與Qwen2.5-Coder-7B、DeepSeekCoder-7B、CodeLlama-7B等模型相比,aiXcoder-7B在代碼生成與補全效果上均達到了SOTA(當前最佳)水平。
今年年初,aiXcoder(北京硅心科技有限公司)完成了A++輪融資,由中關(guān)村發(fā)展集團旗下中關(guān)村資本和中關(guān)村協(xié)同創(chuàng)新基金共同參投。截至目前,該公司已獲得4輪融資,吸引了伽利略資本、高瓴創(chuàng)投、彬復(fù)資本、清流資本、三七互娛等多家頂級風險投資機構(gòu)的持續(xù)注資。
近日,aiXcoder的商業(yè)合伙人兼總裁劉德欣接受了鈦媒體創(chuàng)投家的獨家訪談。他深入探討了當前代碼大模型行業(yè)面臨的技術(shù)瓶頸和未來趨勢,并分享了aiXcoder在這一前沿領(lǐng)域的獨到見解與實踐路徑。
劉德欣表示,通用大模型無法取代代碼大模型的原因在于,通用大模型的構(gòu)建和訓(xùn)練方式基于自然語言,而代碼具有更強的結(jié)構(gòu)性和上下文依賴性。通用大模型主要利用互聯(lián)網(wǎng)上公開的數(shù)據(jù)進行訓(xùn)練,無法涵蓋特殊行業(yè)或企業(yè)的私有數(shù)據(jù)。因此,通用大模型在支持通用領(lǐng)域的軟件開發(fā)任務(wù)時尚可,但在處理企業(yè)內(nèi)的軟件開發(fā)需求時則力不從心。
關(guān)于aiXcoder-7B的獨特技術(shù)優(yōu)勢,劉德欣指出,團隊在ICSE 2025(國際軟件工程大會)上發(fā)表的最新論文中提出了三大貢獻。首先,采用結(jié)構(gòu)化Span的形式構(gòu)建模型,并創(chuàng)新性地提出了“結(jié)構(gòu)化填充中間目標(SFIM)”的訓(xùn)練方法。其次,提供了跨文件上下文理解的系統(tǒng)性優(yōu)化方案。最后,創(chuàng)新性地發(fā)布了FIM-eval評測集,基于真實開發(fā)場景的數(shù)據(jù)進行測評,顯示aiXcoder-7B在代碼生成與補全方面效果最好,且生成的代碼更加簡潔。
在談到企業(yè)在私域大模型落地過程中關(guān)注的要素時,劉德欣總結(jié)了四大原則:掌握模型自治權(quán)、實現(xiàn)模型層的高解耦、建立可復(fù)用的數(shù)據(jù)框架以及始終關(guān)注業(yè)務(wù)。他建議企業(yè)不要綁定任何單一的大模型廠商,也不要依賴于某個特定的開源或閉源模型,而是要保持接口的標準化和底層算力的適配性,以便隨時集成業(yè)界最SOTA的大模型。
面對大廠在代碼大模型領(lǐng)域的激烈競爭,劉德欣表示,aiXcoder將憑借在軟件工程領(lǐng)域十余年的工具和方法積累,形成技術(shù)和產(chǎn)品壁壘。同時,aiXcoder更注重深入了解客戶的復(fù)雜及私域需求,提供定制化和個性化的解決方案。aiXcoder也在積極與大廠開展合作,共同解決企業(yè)私域落地問題。
對于代碼大模型的終極形態(tài)和人類程序員的角色定位,劉德欣認為,終極形態(tài)將實現(xiàn)完全的智能化、自動化的軟件開發(fā)過程。然而,無論是短期還是長期,人類程序員都具有不可替代性。他們擁有深厚的業(yè)務(wù)知識和豐富的實踐經(jīng)驗,能夠進行復(fù)雜的系統(tǒng)架構(gòu)設(shè)計與業(yè)務(wù)流程優(yōu)化,并具備創(chuàng)新思維和創(chuàng)造力。因此,在未來,人類程序員可能不再需要手動編寫大量代碼,但仍需將更多精力投入到需求分析、算法和系統(tǒng)架構(gòu)設(shè)計以及對AI生成結(jié)果的審核和業(yè)務(wù)創(chuàng)新上。
最后,劉德欣透露,aiXcoder已完成產(chǎn)品升級,創(chuàng)新推出內(nèi)置MCP功能的軟件開發(fā)Agent。該產(chǎn)品正在內(nèi)測中,將為企業(yè)和開發(fā)者帶來更好的操作體驗和開發(fā)價值。無論是私有化部署的安全可靠性、研發(fā)周期的大幅縮短、企業(yè)私有化工具的無縫集成還是成本的精細化控制,aiXcoder Agent都展現(xiàn)出了顯著的優(yōu)勢。