作者:張鈸 來源: 發布時間:2024-9-10 0:8:17
大模型:一條通往通用人工智能的道路


  人工智能(AI)有今天的蓬勃發展,要追溯到人工神經網絡的誕生。

  人工神經網絡誕生于20世紀40年代,當時主要作為鑒別器(分類)、生成器來使用,但遇到了很大的困難。直到2014年,這個問題才在一定程度上得到解決。特別是2017年Transformer被提出來后,生成式人工智能就像打開了閘門,發展迅猛。

  關于大模型和生成式人工智能,我有三方面思考。

  第一,如何從大模型走向通用人工智能?這條路應該怎么走,會走到什么地方?

  第二,大模型發展下去,會對產業和人類職業產生什么影響?

  第三,人工智能產業未來將走向何方?

 

人工智能向通用人工智能邁進一步

 

  為什么要下大力氣發展生成式人工智能?理查德•費曼有一句名言:“如果我們不能創造它,就不可能理解它。”我們認為通過生成式人工智能,有機會打開理解(智能)世界的大門。

  如何理解生成式模型?我們可以從生成式模型的特征來分析,其具有“三大一缺點”。“三大”是指強大的生成能力、強大的遷移或推廣能力、強大的交互能力,“一缺點”是指“幻覺”。

  具體來說,強大的生成能力是指語言模型能夠在開放領域生成多樣化、連貫且類似人類的文本。這種能力超出了人們的預期,被認為是模型達到一定規模后出現的“涌現”現象。

  強大的遷移能力是指模型能夠在給定少量樣本的情況下,將知識遷移到不同領域,完成新的任務。這種能力也需要在模型達到一定規模后才會出現。

  強大的交互能力是指模型能夠與人類進行自然語言對話,這在過去是難以實現的。但現在,這種對話不受領域限制,使得人機交互更加流暢。

  “幻覺”是大模型的一個主要缺點,指模型可能會生成看似合理但實際上并不真實或無意義的輸出。

  那么,通過預訓練、推理和對齊三個步驟得到的ChatGPT,是怎么做到具有強大的生成能力和遷移能力的?主要有三個原因。

  第一,它使用了巨大的人工神經網絡。這個神經網絡大到什么程度?有四個維度。首先,它的層數很多(或很深),有96層;其次,它的輸入寬度很廣,GPT-3的寬度達到了2048個tokens(標記),GPT-4 Turbo達到12.8萬個tokens并支持同時輸入300多頁的文本;再次,參數規模巨大,GPT-3.5有1750億個參數;最后,所需算力巨大。

  第二,它擁有巨大的訓練文本。據報道,OpenAI訓練GPT-3文本量有45TB,谷歌則達到50TB。

  第三,自監督學習。“下一個標記預測”(Next token prediction)機制可以讓模型從未標記的數據中學習。

  靠這三項技術,ChatGPT擁有了三大能力。實際上,OpenAI利用大模型和人工智能對齊構造了一個連續向量的語義空間,這造就了ChatGPT的強大生成能力。它的這種工作流程,改變了傳統的自然語言處理方式,使機器能像人類一樣“思考”。

  ChatGPT邁出的這一步,取得了兩個重大突破。一個是能夠生成人類水平的文本,“會說人話”;另一個是實現了人機自然語言流暢對話,且對話不受領域限制。我認為這兩大突破很重要,推動人工智能技術向著通用人工智能邁進了一步。

 

構造與數字世界交互的智能體

 

  以前的人工智能都受限于三個“特定”:只能在特定的領域內工作、受限于特定算法、完成特定的預設任務。這三個“特定”使其受限于某一應用領域。

  生成式模型完全改變了這種情況。它使用通用的轉換器模型,在開放領域內生成和完成多種任務,且不受領域限制。這表明人工智能正在向第三代人工智能發展,也證明了行為主義道路是可行的。

  我們目前正在進行的第二步工作,是在GPT-4基礎上構造一個智能體,使其能夠與數字世界交互。

  為此必須實現兩件事。一是要使它能夠接受多模態,把感知部分加進去,變成多模態生成。通過多模態的生成,可以解決感知問題,形成“感知—思考—行動—環境—感知”的閉環。

  OpenAI研發的CLIP模型實現了圖像和文本的對比學習。大模型解決了文本的語義處理問題,如果把圖像和文本關聯起來,機器也能處理圖像內容。CLIP模型已經展示了非常好的效果,無論是在圖像分割還是識別上,都實現了重大突破。

  過去機器只能對圖像進行分類,很難實現真正的感知。大模型把圖像和文本關聯后,這一問題得到很好地解決,現在機器可以真正識別物體。

  二是要增加交互能力。大模型可以與環境尤其是數字環境進行交互。通過結合這兩點,我們可以實現構建智能體的目標。也就是說,機器可以與外部工具和環境結合,發揮問題求解能力。它不僅可以回答問題,還可以幫助解決問題,解釋和執行復雜指令,制訂計劃來達成預定目標。

  與數字環境結合后,機器還可以通過反饋學習,判斷自己的行動正確或錯誤——這是ChatGPT等第一代模型無法做到的。我們期望GPT-4可以達到這個目標,類似ReAct和CogVLM也在朝這個方向發展,不僅可以推理,還可以采取行動。

  僅具備推理能力或行動能力都無法完全解決問題,必須是推理和行動能力的結合。對于較復雜的推理問題,GPT-4可以很好地處理。比如,讓GPT-4計算一個腦筋急轉彎題目:小李有10只碗,為開派對向小張借5只、向小趙借5只,派對后小李把碗還給他們,那么小李還剩多少碗?GPT-4起初誤解為0只,后來推理出還剩10只。這類復雜推理只有GPT-4能完成。針對復雜問題求解,如雞兔同籠題,它也能很好解決。

  不過,目前GPT-4最多只能與數字世界交互,我們最終必須使其能與物理世界交互。要與世界溝通和采取行動,需要一個關鍵環節——機器人。因此,“具身智能”(Embodied AI)的出現很關鍵,它可以構建一個完整的智能體:既有感知能力,又有像人類一樣的思考和行動能力。如果能實現這一步,其結果將是難以想象的。因此,現在就必須將機器人技術納入進來。

  因此,埃隆•馬斯克做了人形機器人。我認為,機器人不一定要做成人形,因為很多地方只是使用了手或腳的功能,不必把硬件搞得非常復雜。所以我主張,只要有一定的硬件作為基礎,就能進行進一步的“強化學習”研究。強化學習是今后人工智能的方向,如果強化學習再進步,我們就有機會將智能機器做到從外部驅動走向內部驅動——這就非常接近人類智能了。

 

人工智能難以替代人類

 

  人工智能繼續發展下去,會給人類社會帶來什么影響?

  《高盛全球投資研究》中有一張圖,展示了人工智能發展帶來的各種變化以及對各行業的影響。其中一點可以看出,人工智能發展下去,一定會推動經濟的發展。

  高盛的分析顯示,人工智能每年可帶來1.3%的全球經濟增長,發達國家可能達到1.5%,中國大約0.9%。這組數字或許不夠準確,但人工智能促進經濟發展的趨勢是確定的。因此,中國要發展經濟,就必須推動人工智能技術發展。

  那么,人工智能究竟會對我們的產業、各個行業產生什么影響?

  有人擔心人工智能會代替人類工作。但高盛的這份報告通過對各行各業的分析,得出的結論是,人工智能對大多數行業有利。因為大部分工作將是人機互補或協同,結果是工作質量和效率的提升。

  為什么大模型難以完全替代人類?因為當前人工智能模型存在天花板。

  現在的大模型所有工作都要依靠外部提示,并不能主動作為。而且它在外部的提示下,僅能用概率預測的辦法完成任務。人類則完全相反,所有工作基本上都是在內部意圖的驅動控制下(或意識的控制下)完成的。

  從這點不同可以發現大模型的三個天花板。第一,質量不可控,大模型的質量無法人為控制,輸出質量不穩定;第二,生成結果可能正確,但也存在錯誤,因而不可信;第三,不夠“魯棒”,輸出很依賴輸入提示詞,相同的內容在不同提示詞下可能會產生不同解,給出不同回答。

  我認為,當前大模型存在的三大問題是根本性的缺陷,隨著模型規模的增加也難以解決。

  2007年圖靈獎得主Joseph Sifakis也有類似的觀點。他認為智能化有三個層次,目前來講,智能機器大多數情況下只能作為輔助;接下來第二步是走向自動化,把部分監控任務交給機器;最后是實現自主化,把所有控制、監控都交給機器。他認為自主化很難,最主要的原因就是剛才談到的機器“不可信”。

  總體而言,人工智能研究最主要的方向,就是把機器作為人類最好的助手。當然,可能會有相當一部分工作被它代替,但并不是所有領域都是如此。

 

大模型為通用人工智能創造可能

 

  早在2015年,我們就提出發展第三代人工智能的思想,其中最主要有三點。第一,必須建立具有可解釋性與魯棒性(穩。┑娜斯ぶ悄芾碚撆c方法;第二,發展安全、可控、可信、可靠和可擴展的人工智能技術;第三,推動人工智能的創新應用與產業化。綜合來看,這與上述我們的分析和結論比較相似。

  迄今為止,具有可解釋性與魯棒性(穩。┑娜斯ぶ悄芾碚撆c方法還沒有完全建立起來,這也是人工智能發展緩慢和曲折的原因。現在,大模型技術的發展讓我們有了建立這一理論和方法的可能。另外,在人工智能創新應用和產業化方面,我們特別強調人類知識這一要素的作用。

  人工智能發展可以分為三個階段。第一代人工智能試圖通過建立語義符號系統來模擬人類思考,包括推理、決策、診斷、設計、規劃和創作等能力。這體現了符號主義和行為主義的主張,即構建一個語言和符號的理想空間,在這個空間內模擬人類思考。但是這種模型存在一個重大缺陷,即“符號接地”問題。系統都是人為定義的,若無法與物理世界聯系,自然就與外部環境脫節。

  第二代人工智能試圖通過構建特征向量的連續空間來實現感知,可以利用大量數據進行訓練。但其最大問題是與認知層面脫節,僅能對物體進行區分,無法真正理解和認知。

  為克服第一代和第二代人工智能的局限,我們在第三代人工智能中提出構建“準語義向量連續空間”,也就是大模型構建的空間。打通了這幾種空間,才可能建立一個真正的智能體,實現思考、感知和行動的統一。大模型的出現使這一目標看起來可能實現,但仍有很多問題有待解決,需要做大量工作。

  總之,大模型為實現真正的通用人工智能提供了可能性,但距離最終目標還有一定差距。

  最后,就人工智能的發展,我再談一些思考。

  盡管人工智能目前正處于穩步發展甚至可以說是快速發展階段,對各行各業產生著巨大影響,但也要認清,我們還面臨許多不確定性——人工智能的發展往往是不可預測和不可控的。例如,目前對某些現象的解釋仍停留在“涌現”這一概念上,這實際上意味著我們尚未完全理解其背后的機制。

  我認為,中小型企業要打開視野,將人工智能科學研究、技術創新與產業發展緊密結合。智譜AI在這方面做得相當出色。產學研結合的模式有助于產業的健康發展,特別是在中國。

  現在是抓住機遇發展人工智能產業的關鍵時期。過去,人工智能產業受到特定領域和任務的限制,難以實現大規模發展,F在,我們有機會開發通用的硬件和軟件?偟膩碚f,通向通用人工智能的道路是很艱難的,但無論如何,大模型指出了一條寬廣的道路!

  (作者系中國科學院院士、清華大學人工智能研究院名譽院長,記者趙廣立根據其在智譜AI 2024年度技術開放日上的演講整理)

 
《科學新聞》 (科學新聞2024年4月刊 封面)
發E-mail給:      
| 打印 | 評論 |
99久久精品国产精品久久