<thead id="zopz9"><optgroup id="zopz9"></optgroup></thead>

    <label id="zopz9"><meter id="zopz9"></meter></label>

      <li id="zopz9"><meter id="zopz9"><th id="zopz9"></th></meter></li>

        您終于找到專注于電腦行業的管理軟件了

        由于貼近電腦行業 使用起來自然得心應手

        特斯拉披露百萬核心 Dojo 超算故障檢測技術,失誤一次可致數周 AI 訓練工作白費


        IT之家 6 月 7 日消息,特斯拉昨日發文,向用戶介紹了其百萬核心級 Dojo 超算系統的故障核心檢測技術。

        據介紹,該公司開發的 Stress 工具能夠在不停機的狀態下,跨處理器乃至跨集群檢測易引發靜默數據錯誤(SDC)的核心。

        特斯拉表示,Dojo 是當前全球唯二現存的最大處理器之一。這種晶圓級芯片采用整片 300mm 晶圓制成,單芯片尺寸已達物理極限。

        由于 Dojo 大芯片的超高復雜性,即使在制造過程中也難以 100% 檢測缺陷晶粒,而靜默數據錯誤的檢測更困難。

        雖然 SDC 在所有硬件上都難以避免,但 Dojo 處理器有著 8,850 個核心、18000A 電流及 15000W 的超高功耗,這會嚴重放大其影響,因此所有核心必須按設計運行,否則單個數據錯誤便可毀掉整個耗時數周才能完成 AI 訓練成果。

        特斯拉將晶圓級 Dojo 處理器稱為“訓練模塊”,每個模塊包含 25 個 645mm2 的 D1 Chip,采用臺積電 InFO_SoW 技術封裝,集成 354 個定制的 64 位 RISC-V 核心(含 1.25MB SRAM 用于存儲數據和指令),以 5×5 集群排列并通過機械網絡互聯,可提供 10TB/s 帶寬。每個 D1 還支持 4TB/s 片外帶寬,因此單個“訓練模塊”總共具備 8,850 核心,支持 8/16/32/64 位整數及多種數據格式。

        為應對核心故障風險,特斯拉最初采用差分模糊測試技術:生成隨機指令集并同步發送至所有核心,通過比對輸出結果識別差異。但因為主機與訓練模塊間通信開銷過大,該過程耗時明顯過長。

        為了提高效率,特斯拉想辦法改進了其檢測技術,這個過程主要通過三項創新來完成:

        • 為每個核心分配 0.5MB 隨機指令專屬負載,利用訓練模塊內部高帶寬通信(而非主機通信)實現核心間負載傳遞與順序執行,將指令測試量提升至 4.4GB 且大幅縮短時間

        • 使核心在不重置狀態下多次運行負載,增加執行環境隨機性以暴露潛在錯誤。公司稱執行次數增加帶來的速度損失遠低于檢測可靠性提升

        • 通過 XOR 操作周期性整合寄存器值至指定 SRAM 區域,使缺陷計算單元識別概率提升 10 倍(經缺陷核心實測),且性能損耗可控

        特斯拉表示,該技術不僅適用于訓練模塊層級或集成 12 個模塊的機柜層級,更可在集群層級運作,實現百萬級運行核心中的故障定位。

        特斯拉報告顯示,經優化配置的 Stress 監測系統在 Dojo 集群中檢出大量故障核心。檢測耗時分布呈現兩極分化:多數缺陷在執行 1GB-100GB 負載指令(數秒至數分鐘)時被發現;難檢測缺陷需執行 1000GB 以上指令(數小時)。

        需強調的是,Stress 工具測試負載輕量且核心自包含,支持后臺測試無需離線。最終僅故障核心會被禁用,且每個 D1 芯片可容忍數個核心失效而不影響整體功能。

        特斯拉透露,Stress 工具除檢測故障核心外,還能發現罕見設計級缺陷并通過軟件[IT江湖]調整修復。在監測系統廣泛部署期間,多個底層軟件[IT江湖]問題也被發現并修正。IT之家從官方獲悉,目前 Stress 工具已全面集成至運行中的 Dojo 集群,在 AI 訓練期間實施硬件健康監測。特斯拉表示,通過該監測觀察到的故障率與谷歌和 Meta 公布的數據相當,表明監測工具與硬件水準達到行業同等水平。

        來源:IT之家
        電腦行業專用管理系統:IT江湖    上一篇    下一篇

        Copyright ? 2004-2025 宇然軟件(m.asdqqf.com) 版權所有
        粵ICP備14024714號

        主站蜘蛛池模板: 亚洲欧洲尹人香蕉综合| a级特黄毛片免费观看| 久久午夜无码免费| 国产大片免费观看中文字幕| 亚洲乱码一二三四区麻豆| 免费看无码特级毛片| 亚洲成a人片在线观看无码| 黄页免费在线观看| 中文字幕在线观看亚洲| 99re在线这里只有精品免费| 亚洲综合久久综合激情久久| 1000部拍拍拍18勿入免费视频软件| 亚洲综合图片小说区热久久| 2019中文字幕在线电影免费| 亚洲一区二区三区久久| 在线视频免费观看www动漫| 亚洲αⅴ无码乱码在线观看性色| 国产一区在线观看免费| 精品一区二区三区高清免费观看| 国产午夜亚洲不卡| 无码免费一区二区三区免费播放 | 女人18毛片水真多免费播放| 亚洲精品精华液一区二区| 亚洲精品和日本精品| 久草免费福利视频| 亚洲欧洲另类春色校园小说| 免费高清在线爱做视频| 特黄aa级毛片免费视频播放| 国产亚洲成AV人片在线观黄桃 | 亚洲色大成WWW亚洲女子| 免费人成网站在线高清| 中文字幕看片在线a免费| 亚洲熟妇无码爱v在线观看| 天天天欲色欲色WWW免费| 成人免费乱码大片A毛片| 亚洲制服丝袜精品久久| 在线a亚洲v天堂网2018| 日韩精品无码专区免费播放| 亚洲AⅤ男人的天堂在线观看| 亚洲一区二区三区AV无码| 日本成年免费网站|