分類: 每日頭條

整個行業屏息凝視 華為大模型套殼疑抄襲

最新開源的盤古(Pangu)AI大模型,正深陷一場技術與倫理的風暴中心。

一場關於其核心技術是否「套殼抄襲」通義千問(Qwen)模型的指控,已迅速從開發者社區的竊竊私語演變為行業矚目的公開事件。華為於2025年7月5日發布官方聲明,堅決否認了增量訓練或抄襲的說法,並強調其行為嚴格遵循開源許可。但這起爭議的意義已遠超個案本身,它如同一面稜鏡,折射出當前全球領域在「開源」旗幟下的模糊邊界、信任困境與秩序重構的迫切需求。

一場由「指紋」引發的「血統」追問爭議的導火索是一份於7月4日發布在代碼託管平台上的技術分析報告。該報告的作者——一位自稱為大學的韓國學生——採用了一種名為「LLM-Fingerprint」(大語言模型指紋)的技術,對華為盤古Pro MoE模型(總參數720億)與阿里巴巴通義千問Qwen-2.5 14B模型進行了深度比對。

該技術的核心邏輯是,通過提取和分析模型中每個Transformer層的注意力參數(QKVO)的標準差,為每個模型生成一個獨特的「指紋」向量。報告指出,盤古Pro MoE模型與通義千問模型在這一「指紋」上的相似度達到了驚人的0.927(理論最大值為1.0,代表完全一致)。這一數值遠超不同獨立訓練模型間應有的正常差異範圍,因此報告作者斷定,這強烈指向了「非獨立開發」的可能性。

為指控增添「實證」的,是研究者在盤古開源的代碼文件中,發現了明確指向阿里巴巴的版權聲明——「Copyright 2024 The Qwen team, Alibaba Group」。在許多開發者看來,這無異於一個「忘記擦除的腳印」,似乎坐實了盤古模型與通義千問之間存在直接的代碼繼承關係。儘管這份引發軒然大波的GitHub報告在發布后不久即被刪除,但其提出的技術疑點和代碼證據已在行業內迅速發酵,將華為推上了輿論的風口浪尖。

華為的辯護:創新、參考與開源精神面對洶湧的輿論,華為負責盤古大模型研發的核心團隊——實驗室,在事發次日(7月5日)午後迅速做出回應。這份聲明的核心,可以概括為三點:獨立創新的堅定立場、對開源實踐的合規遵循,以及對社區共建的開放態度。

首先,華為方面明確切割了盤古模型與「基於其他廠商模型增量訓練」的關聯。聲明強調,盤古Pro MoE是一個「基於昇騰(Ascend)硬體平台開發、訓練的基礎大模型」。華為特別指出了其關鍵創新——全球首個面向昇騰硬體設計的「分組混合專家模型(MoGE)」架構。據稱,該架構有效解決了大規模分散式訓練中的負載均衡難題,是其核心技術壁壘的體現,而非對他人的簡單復刻。

其次,針對代碼中出現的阿里版權聲明,華為並未迴避,而是將其定義為對業界開源實踐的參考與尊重。盤古團隊承認,「部分基礎組件的代碼實現參考了業界開源實踐,涉及其他開源大模型的部分開源代碼」。他們認為,嚴格遵循開源許可證的要求,在代碼中清晰標註原始版權聲明,「不僅是開源社區的通行做法,也符合業界倡導的開源協作精神」。這番解釋試圖將一個看似「抄襲」的證據,重塑為一次合規、透明的開源協作行為。

最後,華為重申了其對開放創新和的尊重,並歡迎開發者在官方社區就技術細節進行深入、專業的交流。這份回應措辭嚴謹,試圖從技術原創性、行為合規性和開源理念三個層面,全面化解外界的質疑。

超越個案:AI開源的「模糊地帶」與信任危機華為盤古與阿里通義千問的這場風波,絕非孤例。它深刻地揭示了在人工智慧大模型時代,傳統軟體領域的「開源」概念正面臨前所未有的挑戰。近年來,從零一萬物(01.AI)的Yi系列模型被指架構與Meta的Llama高度相似,到大學團隊的Llama3-V項目被證實「套殼」了中國面壁智能的MiniCPM模型,類似的爭議已屢見不鮮。

這些事件共同指向了一個核心問題:在AI大模型領域,開源的邊界究竟在哪裡?

傳統的軟體開源,主要涉及代碼的開放。其許可證(如Apache, MIT, GPL)對代碼的複製、修改、分發和商業使用有相對明確的規定。然而,一個AI大模型的核心價值,不僅在於其實現代碼,更在於經過海量數據和巨大算力「煉」出的模型權重(即參數)。這些權重構成了模型的「智能」本身。目前,行業對於模型權重的開源、借鑒乃至「化用」,缺乏統一、清晰的法律和道德準繩。

使用一個開源模型的架構進行重新訓練、參考部分實現代碼、還是直接使用或微調他人訓練好的模型權重,這三者之間存在著巨大的灰色地帶。加之訓練一個世界級大模型的成本動輒數億甚至數十億美元,這使得「站在巨人的肩膀上」成為一種普遍的技術發展路徑和商業誘惑。正如DeepSeek等優秀開源底座模型的風靡所顯示的,完全從零開始的自研已成為少數巨頭的特權。

此次爭議中,儘管有技術專家指出,僅憑「模型指紋」的標準差相似度來判定「抄襲」可能並不完全科學,但它無疑觸動了行業最敏感的神經——信任。在一個依賴協作與共享精神的開源社區,任何關於「血統」純潔性的疑慮,都可能侵蝕其賴以生存的根基。

截至目前,事件的另一方,阿里巴巴通義千問團隊尚未對此事發表公開回應。然而,整個行業都在屏息凝視。這起事件的最終走向,無論結果如何,都將成為一個標誌性的案例。它迫使所有參与者——從科技巨頭到初創公司,再到每一位開發者——重新思考和定義AI時代的開源規則。如何在鼓勵創新、加速技術迭代的同時,有效保護知識產權,建立一個公平、透明、可持續的開源新秩序,已成為全球人工智慧行業亟待解決的重要課題。

來源:人工智慧學家

喜歡、支持,請轉發分享↓
贊助商鏈接