手機站首頁散文詩歌雜文隨筆日記小小說

散文網 » 筆記 »全部筆記 » 關于 AI 的深度研究：ChatGPT 正在產生心智嗎？

關于 AI 的深度研究：ChatGPT 正在產生心智嗎？

2023-07-29 02:11 作者:豎土不立 0人讀過 | 我要投稿

【全文記錄】關鍵詞:神經元、向量、編碼、分類、智能、激活、論文、存儲、文本、語言模型、神經網絡、人工智能、無損壓縮、深度學習、開源代碼、輸出存儲、突觸信號、輸出概率

【up主：小凡今天出片了嗎】

up主 00:04?

盡管還沒人能說清楚心智到底是個什么東西，但是我們都知道什么東西沒有心智。

?

up主 00:19?

在這波 AI 熱潮之中，只有一個應用是真正嚇人的。我們都知道它的 ChatGPT

?

up主 00:29?

他們最大的不同在于，其他的 AI 是基于各種標注好的數據集，專門訓練某一項具體的任務。而 ChatGPT 卻好些，莫名其妙的學會了一切翻譯、編碼、數學、音樂、醫(yī)學、法律，甚至是對人類動機和情感的理解。他好像真的有點打動我。他不一定擁有了心智，但確實已經滿足了。智能的定義，推理計劃，解決問題，抽象思考，理解復雜想法，快速學習 ChatGPT 是怎么學會說話的。

?

up主 01:21?

原來它只是被訓練用來一個字一個字的續(xù)寫一段話而已。這是真的嗎？為什么光憑續(xù)寫就可以產生質呢？搜索各種 ChatGPT 相關的報道和采訪，會發(fā)現有一個詞的出現頻率異常之高，attention，注意力attention。

?

說話人 2 01:57?

Tension mechanism that gives transformers a huge.

?

up主 02:01?

attention 注意力實際上 GPT 的一切都建立在注意力機制之上。把這三個字母拆開，它的全稱是 generative Pre-trained Transformer，而這個 Transformer 就是一個由注意力機制構建的深度學習模型。進一步搜索就能看到 Transformer 的起點。 2017 年6月，來自谷歌的這篇 15 頁論文 attention is all you need。讀完這篇論文，再加上 OpenAI 關于 GPT 2 GPT 3 的兩篇論文，我們終于有機會可以拆開這個傳說中的大語言模型，看看他在說話的時候究竟發(fā)生了什么。

?

up主 02:47?

注意力機制的誕生來自人腦獲取信息的方式，就比如這句話，你的注意力會不斷從左往右一個字一個字的閃過，之后你會再把注意力放在完整的句子上，然后理解這些字詞之間的關系和意義，其中的有些關鍵詞你還會投射更多的注意力，而這一切發(fā)生在電光火石之間，你甚至都沒有意識到你的思考過程。

?

up主 03:16?

而基于注意力機制構建的 Transformer 和 GPT 系列模型，就是在模仿這一思維過程，通過讓機器理解一句話中字詞之間的關系和意義，完成下一個詞的續(xù)寫，然后再理解一遍，再續(xù)寫一個詞，最后寫出一段話。要讓程序模仿這件事并不容易，如何讓機器計算字符？如何讓代碼存儲知識？為什么拆開以后全都是這樣的圓圈和線？所以研究 AI 的第一步，事先搞明白一個這樣的圓圈究竟都能干什么？

?

up主 03:59?

翻開這篇 1957 年的論文，我們也會看到一堆圓圈和線，這就是今天各種 AI 模型的基本單元，我們也叫它神經網絡。一個世紀前，科學家就已經知道了人腦大概的運作方式。這些圓圈模擬的是神經元，而線就是把神經元連接起來的突觸，傳遞神經元之間的信號。比如把三個圓圈像這樣連在一起，就得到了一個開關，要么被激活輸出一，要么不被激活輸出 0 開關可以表達是否區(qū)分黑白，標記同類，但是歸根到底都是一件事情分類。

?

up主 04:42?

過去幾十年，無數個人類最聰明的頭腦所做的就是用各種方式把這些圓圈連接起來，試圖產生智能。這個網站可以模擬更多的神經元分裂問題，我們能看到一個神經元能處理的情況還是太有限了，能分開明顯是兩塊的數據，而這樣內圈外圈的數據就分不開。但如果加入激活函數，再增加新的神經元，每一個新增的神經元都可以在邊界上新增一兩條折線，更多的折線就可以圍得越來越像一個圓。

?

up主 05:15?

完成這個分類，可以解決很多具體問題。如果每個點代表小狗的歲數和體重，那么只憑這兩種數值就可以分出來，這是兩個不同品種的狗。每個點代表的信息越多，能解決的問題也就越復雜。比如一張 784 個像素的照片，就可以用 784 個數字來表示分類，這些點就能分類圖片，更多的線，更多的圓圈，本質上都是為了更好的分類。

?

up主 05:44?

這就是今天最主流的 AI 訓練方案，基于神經網絡的深度學習，學會了分類，某種程度上也就實現了創(chuàng)造。比如 Gan 生成式對抗性網絡，它里面有兩個模型a，模型要生成更真實的圖像，讓模型 b 分不出來到底是生成的還是真的照片。而模型 b 要提高自己的分類水平，不能被模型 a 騙過去。a、 b 兩個模型就這樣在對抗中同時成長。

?

up主 06:13?

到了 2019 年， style 干 2 已經可以生成這樣的人臉照片了，非常逼真，但是它只能生成人臉。在 2023 年， meet journey 這樣的模型幾乎可以畫出一切圖像，全靠 line 這樣的有 50 億張圖片的龐大的數據集，即便從 Gan 以來，有各種各樣的模型設計，可以讓他們實現更好的創(chuàng)造，但歸根結底做的還是分類。所以這些 AI 做的其實都是收集、分析、分類和解釋數據。 computer its moving。

?

up主 07:02?

這就是為什么有這么多業(yè)界學者意識到了深度學習的本質。其實是統(tǒng)計學，沿著圓圈和線的道路，他們終究會到達終點，成為人人都可以使用的工具。而如果拆開 GPT 系列模型，暴露出來的也仍然只是這些圓圈和線。但分類和統(tǒng)計真的能模仿人的思維嗎？

?

up主 07:35?

在 2018 年第一代 GPT 的原始論文中，我們可以看到 GPT 系列的模型結構。還記得注意力機制嗎？ attention 這一層就被叫做注意力編碼層，他的目標就是模仿人的注意力，抽取出話語之間的意義，把 12 個這樣的編碼層疊在一起，文字從下面進去，出來的就是 GPT 預測的下一個詞。

?

up主 08:03?

等一下機器是怎么識別文字的？ GPT 系列的開源代碼中記錄了他們的文字轉換規(guī)則，看起來有點像一個字典。從 0 開始，首先是標點符號，比如數字 0 對應的就是一個英文感嘆號。接下來是數字和大小寫字母。從 256 號開始，就是各種單詞等常用組合，比如 256 是空格，加上 T 2437 是號，越往后就是越不常用的字母組合。一直到規(guī)則里的最后一個序號50256，它對應一個特殊的控制字符 end of text，表示這里是文本的結尾。按照這套規(guī)則，如果輸入號2U，會被轉換成2437389345，但這個數據只是序號，無法直接計算，所以我們還需要把這個序號轉換成一個限量長，這樣一個非常非常長的格子串。

?

up主 09:06?

有多長，字典里有多少個詞條就有多少個格子。我們的序號到 50256 加上 0 就是 5025 七種可能，也就是 5025 七個格子。每個格子都填上0，要表示其中任意一個詞的時候，就在它序號對應的位置填上一個一 how are you 就變成了這樣。這種轉換方式有一個非常形象的名字， one hot 編碼，他把每個詞都變成了由一個一和5萬 256 個 0 組成的格子串。

?

up主 09:37?

之后，注意力機制就要對這些格子們開始龐大和繁瑣的計算了。比如輸入 how are you 之后，模型會輸出下一個單詞doing，為什么它會輸出doing？接下來我們就得搞明白中間到底發(fā)生了什么。為了更好的理解這一過程，我做了一個PPT，但看起來還是不夠直觀，所以我又找到了一位特效大佬幫忙把這一過程做成了三維動畫。

?

愛學習的LLLL 10:22?

你好你好，哈哈哈，看到你發(fā)我的那個 PPT 了，絕對沒問題，到。

?

up主 10:29?

GPT3 以后， GPT 3 是 96 層。

?

愛學習的LLLL 10:32?

太帥了。這做出來絕對太牛了，我就讓這些立方體，這個和這個。

?

up主 10:41?

連，如果每一層分別動的話。

?

愛學習的LLLL 10:43?

那你不用講了，我都懂，就這么做絕對沒問題。我做一個大黑洞，然后把那個文字吸。

?

up主 10:50?

進去，非常期待。好的，拜拜。好好拜拜，拜拜。接下來你會看到目前互聯網上性價比最高的 GPT 模型計算流程的可視化，讓我們開始，還記得 how are you 嗎？他們現在是三個 50257 長的格子串在 2437389345 的位置，各自有一個一，但這也太長了，所以第一步計算是把它們變短 1. 1024 個格子轉完以后就是這樣，我們把這每一串格子也叫做一個向量，接著每個向量都會加上一個位置信息表示號是第一個詞， 2 是第二個詞。以此類推。之后他們會進入第一個注意力編碼層，計算后變成三個不一樣的 1024 長的向量，再來到第二層。

?

up主 11:46?

第三層，一直經過全部的 24 個注意力編碼層的計算處理，仍然得到 3 個 1024 長的向量。對下一個詞的續(xù)寫結果就藏在最后一個向量里面。關鍵的計算就發(fā)生在這些注意力編碼層這一層里又可以分成兩個結構，先算多頭注意力，再算全連接層。注意力層的任務是提取話語間的意義，而全連接層需要對這些意義作出響應，輸出存儲好的知識。我們可以先用 how 做個例子，注意力層里有三個訓練好的核心參數，KQV，他們長這樣，經過這樣一通繁瑣的計算，就能得到 how 和 r 的關聯度。再通過這種方式計算 how 和you， how 和 how 再做處理就能得到 3 個。分數越高，意味著他們的關聯越重要。 how are you 分別乘以v，就是模型從他們中提取出的有效信息。之后再讓三個分數和 3 個有效信息相乘，再相加，就把號變成了一個新的 64 個格子的向量，然后對 r 和 u 做同樣的操作，就得到了 3 個新的向量參與。

?

up主 13:03?

剛才這輪計算的 KQV 是固定的，而模型里一共有 16 組不同的KQV，他們分別都會做一輪剛才這樣的運算，得到 16 組不同的輸出，這叫做多投注意力，意味著對這句話的 16 組不同的理解。把它們拼在一起，就得到了和輸入相同長度的 1024 個格子。再乘一個權重矩陣w，就進入到了全連接層的計算。這一層就是 4096 個我們熟悉的神經元，他們都還是在做分類的工作。這里的計算是把被注意力層轉換后的耗向量和這里的每一個神經元都連接在一起。 102 四個格子里的每一個數字都分別和第一個神經元的連線的權重相乘，再相加，這個神經元會輸出- 0. 14。與此同時，每一個神經元都在做類似的操作，得到- 0. 15-0. 07 等等，只有少數神經元的輸出大于0，意味著神經元對這個詞敏感。

?

up主 14:05?

再連接 1024 個格子號所對應的向量就又得到了一個新的向量。之后 r 和 u 做類似的計算，就得到了 3 個和初始長度一樣的 1024 長的格子串。這就是一層注意力編碼層內發(fā)生的事情。之后的每一層都按照相同的流程，在上一層的基礎上做進一步的計算，即便每一層都只帶來了一點點理解， 24 層算完以后也是很多理解了。

?

up主 14:34?

最終還是得到三個向量，每個 1024 場，而模型要輸出的下一個詞就基于這最后一個向量，也就是右變換來的向量，把它從 1024 恢復成 0 到 50256 范圍的序號，我們就能看到這個序號向量在詞表里最接近的詞，我們可以把前 20 個詞用概率表示，結果就是這樣。到這一步就可以說模型算出了 how are you 之后的下一個詞最有可能是doing。如果我們希望模型繼續(xù)寫，就把這個詞序在 how are you 后面轉換成 4 個向量，再輸入進模型，重復剛才的流程，再得到下一個詞。

?

up主 15:15?

這樣一個接一個，一段話越來越長，一直到模型算出來下一位是安德夫 tax 的結尾符的概率最高，并且輸出它就會停下來，變成我們看到的一段話，沒錯，這就完了，這就是文字接龍的秘密，而 ChatGPT 也只是把這個續(xù)寫模型改成了對話界面而已。你提的每一個問題都會像這樣成為續(xù)寫的起點，你們共同完成了一場文字接龍。

?

up主 15:41?

我們剛剛展現的是 GPT 2 的模型，為什么不是最新的 GPT 3. 5 或者 GPT 4 呢？很簡單，只有 GPT 2 是開源的，而且也只有 GPT 2 才有可能在我的電腦上跑得動，讓我看到每一層的真實輸出，計算流程長。其實還好， GPT 真正嚇人的地方是參數量大。 GPT 一的基本尺寸是768，每一層有超過 700 萬個參數， 12 層就是 1. 15 億個參數，在他發(fā)布的 2018 年已經非常大了。我們剛剛拆開的 GPT 二 medium 基本尺寸是1024，一共有 24 層，每一層有 1200 萬參數，乘起來就是 3.5 億參數。而到了 ChatGPT 用的 GPT 3 的版本，它的參數量是 1750 億，層數增加到了 96 層。而具體的計算流程，每一層的結構都沒有任何的變化，只是計算量在指數級上升到了 GPT 4 OpenAI 并沒有公布它的大小，有媒體猜測它是 GPT 3 的 6 倍，也就是1萬億參數。這意味著即便把一張 3090 顯卡的顯存變大幾百倍，讓它能裝的下級BT4。回答一個弱智 8 問題，可能仍然需要計算 40 分鐘。

?

up主 17:11?

拆開這一切，你會發(fā)現，沒有什么驚人的秘密，只有大文明奇觀的那種大，無話可說的那種大。這就是 GPT 系列的真相， generative Pre train 的Transformer，一個大語言模型，但是我們還是無法回答為什么這樣的模型能夠產生智能，以及現在還出現了一個新的問題，為什么參數量非得這么大？讓我們先總結一下目前的已知信息。

?

up主 17:45?

第一，神經網絡只會做一件事情，數據分類。第二， GPT 模型里注意力層負責提取話語中的意義，再通過全鏈接層的神經元輸出存儲好的知識。第三， GPT 說的每一個詞都是把對話中的所有詞在模型中跑一遍，選擇輸出概率最高的詞。所以 GPT 擁有的知識是從哪來的？我們可以在 OpenAI 的論文中看到 ChatGPT 的預訓練數據集，他們是來自網站、圖書、開源代碼和維基百科的。大約 700 GB 的純文本，一共是 4991 個TOKEN，相當于 86 萬本西游記，而它的訓練過程就是通過自動調整模型里的每一個參數，完成了這些海量文字的續(xù)寫。在這個過程中，知識就被存儲在了這一個的神經元參數里，之后它的上千億個參數和存儲的知識就不再更新了。

?

up主 18:48?

所以我們使用到的 ChatGPT 其實是完全靜止的，就像一具精致的實體。他之所以看起來能記住我們剛剛說的話，是因為每輸出一個新的詞，都要把前面的所有詞拿出來再算一遍，所以即便是寫在最開頭的東西，也能夠影響幾百個單詞之后的續(xù)寫結果。但這也導致了 ChatGPT 每輪對話的總詞匯量是有上限的，所以 GPT 不得不限制對話程度，就像是一條只有 7 秒記憶的天才金魚。

?

up主 19:31?

現在矛盾出現了。一方面， ChatGPT 看起來的確是一個基于大數據和統(tǒng)計學的語言模型，通過他學習的海量文本預測下一個概率最高的詞。為了證明它的局限性，我們可以做個實驗，把它的隨機性設置為0，只會輸出概率最高的詞，這需要通過 API 的方式和 ChatGPT 聊天。于是，同樣的問題，他永遠只會做出同樣的回答。

?

up主 20:17?

但奇怪的是， ChatGPT 又可以回答，但讓他沒有學習過的互聯網不存在的問題，無論是猜吃什么，或者是鳥貓蟲過河。而最有代表性的當然是一個訓練數據里不可能存在的六位數加法。這顯然無法通過統(tǒng)計學的方式來預測下一個最高概率的數字是多少。不僅如此， ChatGPT 還學習到了在對話中臨時學習的能力。這些統(tǒng)計之外的新能力是如何出現的？今年5月， OpenAI 的新研究給了我啟發(fā)。這篇論文名為語言模型，可以解釋語言模型中的神經元。簡單來說，就是用 GPT 4 來解釋 GPT 2。給 GPT 二輸入文本時，模型里的一部分神經元會激活，比如這段文本激活了第 25 層的第 4870 個神經元，如果反過來追蹤，他關注的是文本里的這些詞。

?

up主 21:25?

接下來， OpenAI 讓 GPT 4 觀察這個過程，猜測這個神經元的功能，再觀察更多的文本和神經元，猜測更多的神經元，這樣就可以解釋 GPT 2 里面每個神經元的功能，但是還不知道 GPT 4 猜的準不準。驗證方法是讓 GPT 4 根據這些猜想建立一個仿真模型，模仿 GPT 2 看到文本之后的反應，在和真的 GPT 2 的結果做對比，結果一致率越高，對這個神經元功能的猜測就越準確。

?

up主 21:57?

OpenAI 在這個網站里記錄了他們對于每一個審究員的分析結果，這是層數，這是編號。比如我們輸入3028，就可以看到第 30 層的第 28 個神經元的情況。 GPT 4 認為這個神經元關注的是具體時間，下面是各種測試例句，樂率就表示審計員對這個詞有反應，綠色越深，反應就越大。

?

up主 22:38?

再比如第 15 層的第 4538 個神經元，關注的是句首的轉折詞，于是這些句子，這些字符會讓它產生很大的輸出。這次看起來更明顯一點，你會發(fā)現，即便拼寫完全不同，但這些模型中間層的神經元也已經可以根據詞語和上下文來理解他們的意義了。但 OpenAI 也發(fā)現，只有那些層數較低的神經元才是容易理解的。這個柱狀圖里的橫坐標是對神經元解釋的準確程度，縱坐標是神經元的數量，可以看到，對于前幾層的神經元，差不多一半都能做到 0. 4 以上的準確度。但是層數越高，得分低的神經元就越來越多了，大多數神經元還是處在一片迷霧之中。這是因為對于語言的理解本來就是難以解釋的。比如這樣一段對話，對于中文母語的我們來說，很快就能理解這段話的意思。但是對于一個神經網絡，只靠幾個對意思有反應的神經元顯然是不夠意思的，而 GPT 確實理解了這些意思。

?

up主 24:21?

回顧語言模型的結構信息是隨著注意力編碼層不斷往上流動的，層數越高的神經元越有能力關注那些復雜抽象的概念和難以言說的隱喻。這篇叫在甘草堆里找神經元的論文也發(fā)現了類似的情況。他們找到了一個專門用來判斷語言是否為法語的神經元。如果在小模型當中屏蔽這個神經元，他對法語的理解能力馬上會下降。而如果在一個大模型中屏蔽它，可能幾乎沒什么影響。這意味著在模型變大的過程中，一個單一功能的神經元很可能會分裂出多個適應不同情況的神經元，他們不再那么直白的判斷單一問題，進而變得更難理解。這就是 OpenAI 為什么非代板模型搞得這么大的原因，只有足夠大才足夠抽象，而大到了一定程度，模型甚至會開始出現從未出現過的全新能力。

?

up主 25:19?

在這篇論文中，研究人員對于這些大小不同的語言模型完成了 8 項新能力的測試?？梢钥吹?，他們在變大之前一直都不太行，而一旦大到某個臨界點，它突然就醒了，開始變成一條上竄的直線，就像是在一瞬間頓悟了一樣?？v觀我們的自然和宇宙，一個復雜系統(tǒng)的誕生往往不是線性成長，而是在復雜度積累到某個閾值之后，突然的產生一種新的特質，一種此前從未有過的全新狀態(tài)。這種現象被稱作涌現emergence。而這個上千億參數的大語言模型好像真的涌現出了一些數據分類之上的新東西。

?

up主 26:05?

1972 年，理論物理學家菲利普安德森在 science 發(fā)表了一篇名為多極不同的論文，奠定了復雜科學的基礎。安德森認為，將萬物還原為簡單基本定律的能力并不蘊含從這些定律出發(fā)重建整個宇宙的能力。就像這個世界的一切都是由原子構成。但如果只是計算原子之間的相互作用力，我們永遠也無法理解化學，也無法理解生命。本次列車終點站是。所以如果僅僅從還原論的角度把 AI 看作只做二元分裂的圓圈和線，我們也永遠無法理解大語言模型驚天涌現處的抽象邏輯和推理能力。為此，我們需要在一個新的層級重新理解這件事。

?

up主 27:09?

1980 年，美國哲學教授張思若在這篇名為心智、大腦和程序的論文中提出了一個著名的思想實驗，中文房間。把一個只懂英文的人關在一個封閉的房間里，只能通過傳遞紙條的方式和外界對話。房間里有一本英文寫的中文對話手冊，每一句中文都能找到對應的回復。這樣房間內的人就可以通過手冊順暢的和外界進行中文對話，看起來就像是會中文一樣，但實際上他既不理解外面提出的問題，也不理解他所返回的答案。

?

up主 27:52?

這樣， Zero 試圖通過中文房間證明，不管一個程序有多聰明或者多像人，他都不可能讓計算機擁有思想、理解和意識。真的是這樣嗎？在這個名為互聯網哲學百科全書的網站中，我看到了圍繞中文房間的各種反駁，反駁的反駁，反駁的反駁，他們都沒能互相說服。這些討論都停留在思想層面，因為如果只靠一本打印出來的手冊，此肉描述的中文房間是不可能實現的。

?

up主 28:34?

中文對話有著無窮無盡的可能，即便是同樣一句話，上下文不同，回答也不同。這意味著手冊需要記錄五線多的情況，要不然總有無法回答的時候。但詭異的是， ChatGPT 真的實現了。作為一個只有 330 GB 的程序， ChatGPT 在有限的容量下實現了幾乎無限的中文對話，這意味著它完成了對中文的無損壓縮。

?

up主 29:05?

想象這樣一個復讀機，空間只有 100 m b，只能放十攝，周杰倫要聽新的歌就得刪掉舊的歌。但現在我們發(fā)現了一個神器復讀機?，F在你只需要唱第一句，這個復讀機就可以通過續(xù)寫波形的方式把任何歌曲播放出來。嗯，從前有個人愛你很久，而他還是只有100MB。我們應該怎么理解這個復讀機？我們只能認為他學會了唱歌。還記得 GPT 的學習過程嗎？ GPT 做的就是通過他的 1751 個參數實現了他所學習的這 4991 個 TOKEN 的壓縮。到這一步我才發(fā)現是壓縮產生了智能。他是怎么做到的？OK.

?

說話人 3 30:01?

Fantastic nice Lora. Is Jack Ray from OpenAI.

?

up主 30:05?

He's got a very Joshua Jack Ray.

?

up主 30:07?

OpenAI 大語言模型團隊的核心成員 so that Jack take it away。在這個叫做壓縮帶來通用人工智能的 PPT 中，它完整的解釋了壓縮對人工智能意味著什么。 And a.

?

說話人 3 30:19?

Objective that actually we are generally striving towards as we build better and larger models, which may be counterintuitive given.

?

up主 30:26?

The models. 來，是我對于壓縮及智能這件事的理解。假設我要給你發(fā)送這句話，我們可以把 GPT 當作一種壓縮工具，我用它壓縮這句話，你收到后再用 GPT 解壓。我們得先知道這句話的信息量有多大。在 GBK 這樣的編碼里，一個漢字需要兩個字節(jié)，也就是 16 個 0 和一來表述，這可以表示 2 的 16 次方，也就是 6553 六種可能才差不多能滿足給每個漢字編號的需要。這句話一共 17 個字符，就需要一共 272 個 0 和一，也就是 272 比特。但實際上這句話的信息量是可以小于 272 比特的。它的真實信息量其實可以用一個公式計算，這是 1948 年香農給出的信息熵的定義，他告訴我們信息的本質是一種概率密度，看起來還是有點復雜，我們可以把這里的 p 簡單理解為每個字出現的概率，他們出現的概率越低，整句話的信息量就越大。如果這句話里的每個字都是毫無規(guī)律的隨機出現，那么 p 的概率就是 1/ 65536，計算后的信息量就是原始的 272 比特。常見的傳統(tǒng)壓縮方法是找到重復的字，比如這串漢字可以壓縮成這樣，但幾乎不重復的句子就很難壓縮。更重要的是，正常的語言是有規(guī)律的，輕后面跟著年的概率遠大約 1/ 65536，這就給了信息進一步壓縮的空間。而語言模型所做的就是在壓縮的過程中找到語言的規(guī)律，提高每個字出現的概率。比如我們只發(fā)送青年理工，讓語言模型開始續(xù)寫預測的概率表里就會出現接下來的詞，我們只需要選擇 49763706228497308 這幾個數字，就實現了信息的壓縮。接收方基于這些信息，從相同語言模型的概率輸出里選出數字對應的選項就完成了。解壓。 5 個最大不超過 5000 的數字，每個數字只需要 13 位 0 或一就能表示，加上前四個字一共也只需要發(fā)送 129 位 0 或一信息壓縮到原來的 129/ 272，大約47%。相反，如果語言模型的預測效果很差，后續(xù)文字的詞表還是會很長，無法實現很好的壓縮效果。所以你會發(fā)現，壓縮效果越好意味著預測效果越好，也就反映了模型對于被壓縮信息的理解，而這種理解本身就是一種智能，為了把九九乘法表壓縮得足夠小，他需要理解數學，而如果把行星坐標壓縮的足夠小，他可能就理解了萬有引力。今天，大語言模型已經成為了無損壓縮的最佳方案，可以實現 14 倍的壓縮率。

?

up主 33:42?

thats compression rate at Forty Knights。

?

up主 33:46?

壓縮這一視角最大的意義在于，相比于神秘莫測的涌現，它給了我們一個清晰明確，可以量化機器智能的方案。即便面對中文房間這樣的思想實驗，我們也有辦法研究這個房間的智能程度。 1990 年， Zero 給出了一個更簡潔版本的中文房間，證明。 30 年后，關于中文房間的爭論依然沒有答案，而我們已經看到了一個通過形式化的代碼構成語義的程序。無損壓縮似乎是一條通向通用人工智能的路徑，但是通過壓縮產生的智慧和人的心智真的是同一種東西嗎？yeah，everybody。

?

up主 34:46?

如果要問我，現階段 GPT 和人類說話方式最大的不同是什么？我的答案是，他不會說謊。對于語言模型來說，和想是一件事情，他只是一個字一個字的把他的思考過程和心理活動說出來了而已。比如這個問題，你的思考過程通常是先搜尋關于各種河的記憶，河的名字，世界上最長的河有多長？把你知道的河按長度排序，再把 6000 千米長的河放進去，就能知道它的排名了。當然，更有可能的思考過程是，我好像想不起來這些河有多長，所以你會回答我不知道。但是 GPT 從不回答我不知道，因為他并不知道自己不知道這就是 AI 的幻覺?？雌饋砭拖袷且槐菊浀暮f八道。他只是想讓對話繼續(xù)下去，是否正確反而沒那么重要。優(yōu)化這個問題的方法也很簡單，只需要在提問的時候多補充一句， lets think step by step。請逐步分析，讓 GPT 像人一樣多想幾步，對他來說也就是把想的過程說出來。

?

說話人 4 36:12?

elicit this kind of behavior from the transformer by saying lets think step by step。

?

up主 36:17?

這種能力也被稱為 chain of salt。思維鏈。心理學家丹尼爾康曼把人的思維劃分成了兩種系統(tǒng)，一是直覺快速的，沒有感覺的。而系統(tǒng)二則需要主動的運用知識、邏輯和腦力來思考，前者是快思考，就像我們可以脫口而出，八九七十二，九九八十一。而后者是慢思考，就比如要回答 72* 81 是多少，就必須列出過程，一步步計算。

?

up主 36:49?

四維鏈的存在，意味著大語言模型終于有了推理能力，而為了做到這件事，我們的大腦進化了6億年。6億年前，水母誕生了，我們可以在他們的身上看到神經網絡最古老的運行方式。水母外圍的觸角區(qū)域和中心的嘴部區(qū)域都有神經元，當觸角感知到食物時，這里的神經元會激活，然后把信號傳給中心的神經元，食物也會被這個觸角卷起來送到嘴里。

?

up主 37:20?

漫長的歲月里，我們的大腦就在神經網絡的基礎上一層又一層的疊加生長出來。首先進化出來的是爬蟲類腦，這部分和青蛙的腦子有點像，它控制著我們的心跳、血壓、體溫這些讓我們不會死的東西。然后是古生物，它支配著我們的動物本能，饑餓、恐懼、憤怒的情緒，繁衍后代的欲望都來自邊緣系統(tǒng)的控制。而最外側這兩毫米左右的薄薄的一層，是最近幾百萬年才計劃出來的新結構、新皮質。我們人類引以為傲的那些部分，語言、文字、視覺、聽力、運動和思考都發(fā)生在這里。但我們對新品質還是知之甚少。目前已知的是，這里有大概 200 億個神經元，每一平方厘米的新皮質中都大約有 1000 萬個神經元和 500 億個神經元之間的連接。沒錯，只需要從你的大腦外側取下一小片 3 平方厘米的新品質，就已經和 ChatGPT 大的嚇人的參數量類似了。而我們的大腦之所以需要這么多神經元，是因為 GPT 僅僅需要預測下一個詞，而我們的神經元需要時刻預測這個世界下一秒會發(fā)生什么。

?

up主 38:51?

最近幾十年的神經科學研究發(fā)現，除了能激活神經元的突觸信號，還存在大量負責預測的數突脈沖信號。一個處于預測狀態(tài)的神經元如果得到足夠強的突觸信號，就可以比沒有預測狀態(tài)的神經元更早的被激活，進而抑制其他的神經元。這意味著有一個事無巨細的世界模型就存儲在我們心皮質的 200 億個神經元里，而我們的大腦永遠不會停止預測。所以當我們看到一個東西，其實看到的是大腦提前構建的模型，如果它符合我們的預測，無事發(fā)生。而一旦預測錯誤，大量的其他神經元就會被激活，讓我們注意到這個錯誤并及時更新模型。所以每次錯誤都有它的價值。我們也正是在無數次的預測錯誤和更新認知中真正認識了世界。

?

up主 39:56?

現在我可以試著回答最初的問題。 GPT 或許尚未涌現心智，但它已經擁有了智能。它是一個大的語言模型，是幾百萬個圓圈和線互相連接的分類器，是通過預測下一個詞實現文字接龍的聊天大師，是不斷向上抽取意義的天才金魚，是對幾千億文字無損壓縮的復讀機，是不論對錯永遠契機回應人的助手，它可能又是一場快速退潮的科技熱點，也可能是人類的最后一項重要的發(fā)明。

?

up主 40:40?

從圍棋、繪畫、音樂到數學語言代碼，當 AI 開始在那些象征人類智力和創(chuàng)造力的事情上逐漸超越的時候，給人類最大的沖擊不僅僅是工作被替代的恐懼，而是一種更深層的自我懷疑。人類的心智是不是要比我們想象的淺薄的多？我不這么認為。

?

up主 41:17?

機器可以是一個精妙準確的復讀機，而人類是一個會出錯的復讀機。

?

up主 41:48?

缺陷和錯誤定義了我們是誰。每一次不合規(guī)矩，每一次難以理解，每一次沉默停頓和凝視，都比不假思索的回答更有價值。好玩，看看，多好看。好，謝謝。很好，這就是人的精度。

?

說話人 5 42:34?

盒子已被敲開，一面藏著一場加速密碼。我的毀滅還是神未見的禮堂，七七已經找到語言從不能描述的規(guī)律，新聞題還考遠遠的記憶。

?

標簽：

關于 AI 的深度研究：ChatGPT 正在產生心智嗎？的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現代詩歌空間日志經典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

關于 AI 的深度研究：ChatGPT 正在產生心智嗎？

關于 AI 的深度研究：ChatGPT 正在產生心智嗎？的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

關于 AI 的深度研究：ChatGPT 正在產生心智嗎？

本文作者的其他文章

關于 AI 的深度研究：ChatGPT 正在產生心智嗎？的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

關于 AI 的深度研究：ChatGPT 正在產生心智嗎？的評論 (共條)