国产成人一区二区三区影院播放,国产精品秘入口18禁精东,网红精品福利一区二区

解析 AI 在生產環境中的部署成本，助力用戶實現性能優化和盈利能力。

隨著AI模型的持續演進與應用普及，企業需要在價值最大化的目標下進行精心權衡。

這是因為推理（將數據輸入模型并獲取輸出的運算過程）面臨與模型訓練截然不同的計算挑戰。

預訓練模型（數據導入、token化分解及模式識別的過程）本質上是單次的成本投入。但在推理過程中，模型的每個提示詞 (prompt)都會生成token，而每個token都會產生成本。

這意味著，隨著AI模型性能提升和應用規模擴大，token的生成量及其相關計算成本也會增加。對于希望構建AI能力的企業來說，關鍵在于控制計算成本的同時，以最快的速度、最高的準確性和服務質量生成盡可能多的token。

為此，AI生態系統持續推動推理效率優化與成本壓縮。得益于模型優化技術的重大突破，過去一年中推理成本持續呈下降趨勢，催生了日益先進、高能效的加速計算基礎架構和全棧解決方案。

根據斯坦福大學“以人為本人工智能研究所 (HAI)”發布的《2025年人工智能指數報告》，“2022年11月至2024年10月期間，達到GPT-3.5水平系統的推理成本降幅超280倍。硬件層面的成本年降幅30%，而能效年提升率達40%。開放權重模型也在縮小與閉源模型的差距，部分基準測試中，性能差距在一年內就從8%縮小到僅1.7%。多重趨勢共同作用下先進AI的門檻正在迅速降低?！?/p>

隨著模型持續演進引發需求及token量級增加，企業必須擴展其加速計算資源，以提供下一代AI邏輯推理工具，否則將面臨成本和能耗增加的風險。

以下是推理經濟學概念的入門指南，幫助企業可以建立戰略定位，實現高效、高性價比且可盈利的大規模AI解決方案。

AI 推理經濟學的關鍵術語

了解推理經濟學的關鍵術語是理解其重要性的基礎。

詞元 (Token)是AI模型中的基本數據單位，源自訓練過程中的文本、圖像、音頻片段和視頻等數據。通過token化 (tokenization)過程，原始數據被解構成最小語義單元。在訓練過程中，模型會學習標記token之間的關系，從而執行推理并生成準確、相關的輸出。

吞吐量 (Throughput)指的是模型在單位時間內輸出的token量，其本身是運行模型基礎架構的一個函數。吞吐量通常以token/每秒為單位，吞吐量越高，意味著基礎架構的回報越高。

延遲(Latency)是指從輸入提示到模型開始響應所需的時間。較低的延遲意味著更快的響應。衡量延遲的兩種主要方法包括：

首 token 時延 (Time to First Token, TTFT)：用戶輸入提示后，模型生成第一個輸出 token 所需的時間。

首 token 后，每個輸出 token 的時延 (Time per Output Token, TPOT)：連續 token 之間的平均輸出時間，也可以理解為，模型為每個用戶的查詢請求生成一個完整輸出 token 所需要的時間。它也被稱為“token 間延遲”或“token 到 token 延遲”。

TTFT和TPOT固然是重要的基準參數，但它們只是眾多計算公式中的兩個部分，只關注這兩項指標仍可能導致性能衰減或成本超支。

為了考慮其他相互依賴的因素，IT領導者開始衡量“有效吞吐量(goodput)”，即在維持目標TTFT和TPOT水平的前提下，系統實際達成的有效吞吐量。這一指標使企業能夠以更全面的方式評估性能，保持吞吐量、延遲和成本的最優配置，確保運營效率和優秀的用戶體驗。

能效是衡量 AI 系統將電能轉化為計算輸出效率的指標，以每瓦特性能來表示。通過使用加速計算平臺，組織可以在降低能耗的同時，最大化每瓦特的 token 處理量。

擴展定律 (Scaling Law) 如何應用于推理成本

理解推理經濟學的核心在于掌握 AI 的三大擴展定律：

-預訓練擴展 (Pretraining scaling)：最初的擴展定律表明，通過提升訓練數據集規模、模型參數數量以及增加計算資源，能夠實現模型智能水平和準確率的可預測性提升。

-后訓練 (Post-training)：對模型的準確性和領域專業性進行微調，以便將其用于應用開發。可以使用檢索增強生成 (RAG) 等技術從企業數據庫返回更相關的答案。

-測試時擴展 (Test-time scaling，又稱“長思考”或“邏輯推理”)：在推理過程中，模型會分配額外的計算資源，以評估多種可能的結果，然后得出最佳答案。

雖然AI在不斷發展，后訓練和測試時擴展技術也在持續迭代，但這并不意味著預訓練即將消失，它仍然是擴展模型的重要方法。要支持后訓練和測試時擴展，仍需要進行預訓練。

可盈利的 AI 需要全棧方案

相較于只經過預訓練和后訓練的模型推理，采用測試時擴展的模型會生成多個token來解決復雜問題。這雖然可以顯著提升準確性和模型輸出的相關性，但計算成本也會更高。

更智能的 AI 意味著生成更多 token 來解決問題，而優質的用戶體驗意味著盡可能快地生成這些 token。AI 模型越智能、越快速，對公司和客戶的實用性就越大。

企業需要擴展其加速計算資源，構建能支持復雜問題求解、代碼生成和多步驟規劃的下一代 AI 邏輯推理工具，同時避免成本激增。

這需要先進的硬件和全面優化的軟件棧。NVIDIA AI 工廠產品路線圖旨在滿足計算需求，幫助解決復雜的推理問題，同時實現更高的效率。

AI 工廠集成了高性能 AI 基礎設施、高速網絡和經優化的軟件，可大規模生產智能。這些組件設計靈活、可編程，使企業能夠優先關注對其模型或推理需求更關鍵的領域。

為了進一步簡化在部署大規模 AI 邏輯推理模型時的操作，AI 工廠在高性能、低延遲的推理管理系統上運行，確保以盡可能低的成本滿足 AI 邏輯推理所需的速度和吞吐量，從而最大化提升 token 收入。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5592

瀏覽量
109711
AI

AI

+關注

關注
91

文章
39755

瀏覽量
301349
模型

模型

+關注

關注
1

文章
3751

瀏覽量
52097

原文標題：推理經濟學如何驅動 AI 價值最大化

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

搜索歷史

AI推理經濟學的關鍵術語

評論