1948年,香農發表的《通信的數學理論》為現代數字通信奠定了基礎,推動了信息時代的到來。該研究的核心目標是通過數學方法解決數字通信系統中噪聲環境下的可靠傳輸問題,并由此構建了信息論的完整框架。這一理論體系不僅解決了通信技術中的關鍵問題,也為后續研究提供了重要方向。
通信問題被劃分為三個層級:技術層級關注符號傳輸的準確性,語義層級聚焦符號含義的精確傳達,效用層級則強調接收信息對行為的影響。香農明確表示其理論僅涉及技術層級,即符號的可靠傳輸,而不涉及符號的語義或內容。這一觀點為信息論的發展劃定了初始邊界。
受到香農方法論的啟發,研究人員嘗試將信息論框架應用于大型語言模型(LLM)的解釋。通過將理論核心從比特轉向標記,研究者提出語義信息論,試圖從信息論角度揭示大模型的工作原理。這一轉換不僅擴展了信息論的應用范圍,也為理解大模型提供了新的視角。
在傳統通信系統中,信源編碼器通過將符號映射為二進制碼字實現信息壓縮,以節省信道資源。香農證明了信源熵是信息無損壓縮的理論下限,這一結論被稱為信源編碼定理。同時,他通過轉移概率模型描述信道噪聲的影響,并提出了實現可靠通信的數學路徑。這些工作共同構成了信息論的基礎。
香農的另一重要貢獻是信源-信道分離定理,該定理將通信系統分解為獨立的信源編碼和信道編碼兩部分。這種分離設計簡化了工程實現,并催生了兩個獨立的研究領域。研究者指出,這種模塊化設計不僅降低了技術復雜度,也為不同領域的協同發展提供了可能。
香農在解決可靠通信問題時采用了自頂向下的方法論,即通過定義理想系統的功能特性來推導數學條件。他回答了三個關鍵問題:可靠通信的數學定義是漸進無差錯傳輸,其模型通過轉移概率描述信道不確定性,性能指標則由互信息和信道容量衡量。這些概念為通信系統設計提供了理論依據。
研究者將信息論視角應用于大模型分析,提出類似問題:大模型的語義如何定義?其數學模型是什么?性能如何衡量?其中,語義的定義已在前期研究中涉及,而數學模型和性能指標成為當前研究重點。這一思路延續了香農從功能定義出發的方法論。
為分析大模型,研究者引入了速率-失真函數、定向信息和定向信息密度等概念。定向信息由信息論專家提出,旨在突破互信息在描述反饋系統時的局限性。盡管這一概念在學術界未獲廣泛關注,但其為分析時序數據中的統計依賴關系提供了新工具。
定向信息的計算面臨挑戰。研究者通過改進經典算法和神經網絡模型,提出了基于動態規劃和Transformer架構的估計方法。這些方法將傳遞熵估計轉化為序列預測問題,利用Transformer的上下文學習能力提高計算精度。這一進展為定向信息的應用奠定了基礎。
大模型的推理能力與因果推斷密切相關。研究者指出,大模型通過預測下一個標記實現類Granger因果推斷,但這種推斷僅基于數據關聯,而非真正的因果關系。與之相對,Pearl的因果理論強調模型假設和干預實驗的必要性。當前大模型在結合強化學習后,雖能模擬干預和反事實問題,但仍未突破數據驅動的預測框架。
信息論的發展與計算理論存在深層聯系。研究者認為,信息論不應僅基于概率論,而應與圖靈的計算理論一樣,建立在邏輯基礎之上。這一觀點得到了Kolmogorov復雜度的支持,該理論將香農熵解釋為復雜度的數學期望。同時,直覺主義邏輯為計算機科學中的命題-類型對應關系提供了理論基礎。
隨著AI技術的發展,標記被視為連接經驗與理性的核心概念。研究者提出,比特定義了信息時代,而標記將定義AI時代。這一觀點暗示,大模型雖未實現真正的思考,但其自動化處理信息的能力已帶來革命性變化。正如圖靈所言,不同思考方式的存在不應否定其思考的本質。










