所有語言
分享
作者:J1N,Techub News
Kuzco 是一個專門服務 LLM 大語言模型算力挖礦網絡,今年入選 a16z 於 9 月 9 日在紐約啟動的 Crypto Startup Accelerator(CSX)秋季加速器計劃,被該計劃選中的項目會能獲得 a16z 至少 50 萬美元的投資,並會得到 a16z 運營團隊的指導和支持。目前該加速器計劃已結束。
11 月 16 日, Kuzco 宣布,第一期(Epoch One)激勵計劃將於 2024 年 11 月 18 日結束,所有操作將暫停,數據快照將永久存儲,最終積分排名會公布在新排行榜上。
官方披露,Epoch One 從 2024 年 3 月 6 日推出,峰值設備數量超過 8000 台,該網絡上運行 Meta 發布的 8B 規格的 Llama-3 AI 大語言模型,共計推理超過 1 萬億條 tokens。
並宣布在接下來的數周內公布融資信息和項目發展路線圖,以及第二期(Epoch Two)激勵計劃將於 12 月 9 日開啟, Epoch Two 將帶來一些新特性,如更高的 NVIDIA 硬件的吞吐量與可靠性;鼓勵用戶接入頂尖算力設備如 A100 和 H100;支持更多的圖像生成和多模態語言模型 VLM。
目前離 Epoch Two 開啟還有半個月的準備時間,本文將探討:
分享個人挖礦的實踐與成果,從單機到集群的轉變。
展示通過研究和實踐獲取融資,並搭建高規格機器的全過程。
探討硬件配置與項目需求的匹配性,並解答投資者常見疑問。
筆者的配置清單包括 RTX 系列顯卡 2060、2070S、3080、4060、4060Ti,以及 4 張 4070S 和 2 台蘋果 M2、M3 設備。這些設備分佈在幾台主機、筆記本電腦以及一台專用礦機上。
值得一提的是,這些顯卡原本就是筆者以往每年按遊戲需求購置的,並非專為挖礦購買。因此,計算成本時並未將硬件購置費用計入,僅統計礦機的實際電費成本。這裏拿第一篇《 a16z「門徒」Kuzco 實操指南:如何高效地進行 AI 算力挖礦?》組裝的礦機舉例。
該礦機配置:
主板:z490(後續換工業板)
CPU:10 代 I9
顯卡:2060、2070s、3080、4060ti、4070s
手搓礦機
下圖為該礦機 10 月和 11 月消耗的電量,一共是 564 度,獲得積分(KZO Point)約為 6 億分。所有的機器加起來約為 11 億分。具體的電費成本需要根據各位所在地的電費情況計算,這裏僅提供參考。
圖最右,共獲得 10 億積分
基於筆者在第一篇文章中的分享,以及親身參与設備組裝、調試和環境部署的豐富運維經驗,筆者成功爭取到一定資金支持,並將其全部投入用於組裝高性能礦機,以進一步提升算力規模和運營效率。
單兵手搓到集群部署
結合筆者在 Epoch One 中的實踐經驗,對主板、CPU、顯卡、電源、平台以及網絡配置進行了全面優化,選擇了更適配的硬件組合,不僅提升了整體運行的穩定性、安全性和效率,還在硬件選擇上更注重二手市場的流通性。這一策略能夠有效降低的實際投入成本,為後續參与者提供更高的性價比選擇。
筆者選擇工業主板而非主流的 B85,主要基於性能、穩定性和性價比的綜合考量。
性能方面,運行 Kuzco 的 Llama-3 模型需要啟動多個 Docker 進程,而并行運行這些進程會佔用大量 CPU 資源,對 CPU 的性能要求較高,而 B85 所兼容的 CPU 無法滿足這一需求。
此外,工業主板在長時間穩定運行、耐高溫性能以及廠家保修方面具備明顯優勢,同時在二手市場上的流通性更強,因此無疑是最優選擇。
筆者選擇使用 4070S 作為主力顯卡,主要基於以下幾點:
AI 運算性能的優勢:相較於 30 系顯卡,40 系顯卡在 AI 運算中的性能提升遠大於在遊戲性能上的提升。其核心原因在於 AI 算力主要依賴顯卡的 CUDA 核心數量,而 40 系顯卡的 CUDA 核心顯著多於 30 系顯卡。
能效比優勢:筆者對多款 GPU 進行了詳細測試,計算了每條 Tokens 的平均功耗
4060Ti(160W):0.125 Tokens/W
3080(330W):0.22 Tokens/W
4090(450W):0.26 Tokens/W
4070S(220W):0.38 Tokens/W
從測試結果來看,4070S 在性能與功耗的平衡上表現最佳,其更高的能效比直接降低了電費成本,使其成為性價比最高的選擇。
二手市場的價格和流動性:作為中高端顯卡,4070S 在二手市場具備較高的流動性和保值性,進一步降低了設備的持有成本,同時為後續的硬件升級提供了靈活性。
如前文所述,Kuzco 的 Llama-3 在運行時需要啟動多個 Docker,這對 CPU 資源的佔用極為顯著,尤其是在多卡運行的情況下,CPU 佔用率可能高達 80%-90%。因此,多核多線程的處理能力顯得尤為重要。高性能、多線程、穩定的 CPU 不僅能夠有效支持多任務運行,還能保證整個挖礦過程的穩定性和效率。
13 代 i5 滿載跑顯卡能去到 70%+ 佔用率
網絡環境
軟路由為圖中方塊盒子
網絡環境在挖礦中同樣至關重要,即使配置了高性能顯卡,如果網絡未優化,算力也會受到嚴重影響。根據筆者實測,網速不足可能導致算力下降至 30%,而低質量的網絡節點則可能直接導致無法連接至 Kuzco 網絡,這兩點對挖礦而言都是不可接受的。為了解決這些問題,筆者採用軟路由方案,這種方式不僅便於配置,而且在完成設置後幾乎無需人工干預即可高效運行,理論上還能夠支持無限台設備的接入。至於具體的操作方式,建議讀者根據需求自行查閱相關資料。
電源
經典長城 2000w 核彈電源
在選擇電源時需要特別注意峰值功耗的問題,這也是為什麼即使 7 張 4070S 的額定功耗僅為 1540W,筆者仍然選擇使用雙 2000W 電源,總功率達到 4000W。這並不是在浪費資源,而是出於對設備運行穩定性和安全性的考慮。
顯卡在運行中會出現峰值功耗,即在某些瞬間其實際功耗可能達到額定功耗的 1.5 倍甚至更多,隨後再回落到正常水平。如果電源功率不足以應對這種峰值,可能觸發電源的強制停機機制,甚至導致顯卡損壞。這對礦機的正常運行是致命的威脅。
4070s 運行功耗表現
以 4070S 為例,雖然其額定功耗為 220W,但峰值功耗可能超過 400W。7 張顯卡的峰值功耗合計可能達到 3000W 以上,因此配置雙 2000W 電源是為了保證機器的穩定運行。對於配置多張 4090 的用戶尤其需要注意,單張 4090 的額定功耗為 450W,而峰值功耗可能高達 770W。多卡情況下,僅靠兩個電源可能無法滿足需求,此時通常需要三台電源來確保系統穩定。
4090 運行功耗表現
補充
至於 BIOS 設置、硬件兼容性以及遠程管理等問題,筆者在此不作過多展開。這些內容在網上已有大量免費教程供參考,按照教程操作即可解決大多數問題。建議根據自己的硬件配置和需求進行針對性查閱和處理,簡單高效。
回答大家最關心的問題:每天能挖多少錢?坦率地說,這個問題沒有明確的答案,因為風險與收益始終是並存的。我可以分享一個明確的觀點:無論是幣圈還是傳統行業,任何一個項目如果能夠精確計算出每天的收益,那麼你進去很可能已經賺不到大錢了。除非你擁有某些垄斷性資源,例如極低的電費成本或非常便宜的礦機設備,這樣才能在收益上佔據優勢。然而,這樣的資源並非每個人都具備。
筆者選擇流動性好的設備,正是為了降低投資風險和成本壓力。以 Kuzco 挖礦為例,成本主要集中在硬件的折舊和電費上,因此你的最大虧損也僅限於這些固定成本。如果不是在低成本的前提下參与,那麼任何投資決策都失去了意義。需要強調的是,挖頭礦的特性決定了沒有明確的收益預期,但這也正是頭礦的潛力所在。
從主觀判斷來看,這個賽道有着巨大的市場前景:一方面,Kuzco 獲得了 a16z 的投資支持;另一方面,LLM 大型語言模型的需求正在快速擴大。想想看,幾乎沒有人會不用 LLM 吧?像 OpenAI 的 ChatGPT、Meta 的 Llama、以及馬斯克的 XAI,這些平台一輪接一輪的高額融資,清晰地表明了這個行業的增長潛力。
對於普通人來說,直接參与 AI 行業並非易事。一方面,AI 技術門檻高;另一方面,AI 模型的訓練需要耗費巨量的資源和經費,絕大多數人難以承受這樣的成本。而通過 Kuzco 加入 AI 算力網絡,普通人可以在成本可控的前提下,輕鬆參与這個高增長領域,為 AI 算力貢獻一份力,同時獲得收益。
另外,比特幣價格目前即將突破 10 萬美元,從 2022 年的 1.6 萬美元漲到如今的高點,其背後存在巨大的回撤風險。如果選擇直接購買 AI 項目的代幣,也會面臨類似的高波動風險。相比之下,參与 AI 算力網絡是一種更加穩健的選擇:不僅成本明確可控,還能以相對低的風險切入 AI 行業的高速增長軌道。這是當前環境下,普通人進入 AI 領域實際可行的方式之一。