你的位置：首頁 > 電源管理 > 正文

24人團隊挑戰(zhàn)英偉達？Taalas HC1橫空出世：將大模型直接“刻”進硬件

發(fā)布時間：2026-02-25 來源：轉(zhuǎn)載責(zé)任編輯：lily

【導(dǎo)讀】由前AMD集成電路總監(jiān)、Tenstorrent創(chuàng)始人柳比薩·巴吉克（Ljubisa Bajic）領(lǐng)銜，Taalas于2026年2月正式浮出水面，宣布完成超2億美元融資并推出首款將模型權(quán)重直接固化于硬件的HC1平臺。這款僅由24人團隊耗時兩年打造的芯片，宣稱能將Meta Llama 3.1 8B模型的推理速度提升至每秒17000個token，成本僅為傳統(tǒng)GPU方案的幾十分之一，甚至有望讓大模型推理進入“亞毫秒級”時代。

一夜之間，Taalas的產(chǎn)品刷屏硅谷，社交平臺網(wǎng)友紛紛開啟實測，并稱其性能驚人、將給英偉達GPU帶來巨大挑戰(zhàn)。HC1采用臺積電6nm制程，芯片面積與英偉達H100芯片相當，為815平方毫米。HC1芯片可以將整個8B版本的Llama 3.1模型集成到單顆芯片上。Taalas還模擬了DeepSeek R1-671B的多芯片解決方案，其存儲整個671B模型采用了大約30顆定制芯片，模擬結(jié)果表明，DeepSeek R1-671B每用戶每秒可生成約12000個token；Llama 3.1單個用戶的生成速度可達17000 token/秒，速度接近Cerebras推理平臺的10倍，英偉達H200的73倍、B200的48倍，構(gòu)建成本為Cerebras現(xiàn)有方案的1/20、功耗僅為1/10。

Taalas創(chuàng)始人兼CEO柳比薩·巴吉克（Ljubisa Bajic）曾任職AMD集成電路設(shè)計與架構(gòu)總監(jiān)、英偉達高級架構(gòu)師。他2016年創(chuàng)立AI芯片公司Tenstorrent，2023年將其交接給吉姆·凱勒（Jim Keller）后，又創(chuàng)辦了Taalas。Taalas的另外兩位創(chuàng)始人是巴吉克的妻子、曾在AMD擔(dān)任系統(tǒng)工程高級經(jīng)理的萊拉·巴吉克（Lejla Bajic）以及曾在AMD擔(dān)任高級設(shè)計工程師、在Tenstorrent擔(dān)任工程師的德拉貢·伊格（Drago Ignjatovic）。不過在社交平臺上，有不少用戶吐槽：Taalas的產(chǎn)品確實快，但錯誤率過高。芯東西提問了“9.9和9.11比大小”以及經(jīng)典的雞兔同籠題目，該模型分別在0.001秒、0.017秒內(nèi)給出了錯誤答案。

巴吉克稱，Taalas的極端方案可能很適合某些特定應(yīng)用，本質(zhì)是找到追求經(jīng)濟效益和速度而犧牲靈活性的方法。

Taalas還透露了下一步計劃，他們將基于HC1為第二款中等規(guī)模的推理模型打造芯片，該模型預(yù)計于今年春季在實驗室完成流片，并很快集成至其推理服務(wù)中；隨后，該公司將基于第二代芯片平臺HC2推出新大語言模型，HC2將提供更高的算力密度與更快的執(zhí)行速度，計劃在今年冬季正式部署。

01.極致性價比30顆芯片模擬部署DeepSeek R1

2月20日，Taalas正式推出首款芯片平臺HC1，該平臺已集成Meta Llama 3.1 8B模型，用于聊天機器人演示與推理API服務(wù)。其官方博客提到，基于HC1，Llama 3.1單個用戶的生成速度可達17000個token/秒，速度接近Cerebras推理平臺的10倍，構(gòu)建成本為Cerebras現(xiàn)有方案的1/20，功耗為1/10。Taalas發(fā)布了HC1集成Llama 3.1 8B的免費試用鏈接。芯東西提出的需求是“請詳細提供1960年至1972年阿波羅計劃逐年的完整歷史，包括任務(wù)目標、技術(shù)挑戰(zhàn)、核心人員、飛行里程碑與科學(xué)發(fā)現(xiàn)。”Llama 3.1僅0.078秒就輸出了答案，每秒可輸出15694個token，其輸出內(nèi)容對關(guān)鍵分類進行了羅列。

根據(jù)Taalas發(fā)布的成本與延遲對比數(shù)據(jù)，基于Taalas的芯片方案，Llama 3.1 8B的推理查詢成本為每百萬token 0.75美分（約合人民幣0.052元），DeepSeek R1的成本為每百萬token 7.6美分（約合人民幣0.53元）。相比之下，Llama 3.1 8B在GPU吞吐量優(yōu)化方案上的成本為每百萬token 3.79美分（約合人民幣0.26元），DeepSeek R1為20.2美分（約合人民幣1.4元），延遲優(yōu)化方案中，Llama 3.1 8B的成本為28.61美分（約合人民幣2元），DeepSeek R1為49美分（約合人民幣3.37元）。

可以看出，Taalas在token生成成本、延遲上相較英偉達GPU效果都更好，尤其在參數(shù)規(guī)模更小的模型上更是實現(xiàn)了數(shù)量級的領(lǐng)先。該公司的第一代芯片平臺HC1采用了自定義的3位基礎(chǔ)數(shù)據(jù)類型，這是因為他們在進行研發(fā)設(shè)計時，低精度參數(shù)格式尚未形成標準。集成Llama時，Taalas還采用了激進的量化方案，混合使用3位與6位參數(shù)，相較于GPU基準測試，會帶來一定的精度損失。Taalas的收入來源將分為兩塊，推理即服務(wù)、HC硬件。在官宣博客中，Taalas將基于Llama 3.1 8B的HC1稱作測試版服務(wù)，其目的是讓開發(fā)者體驗大模型推理實現(xiàn)亞毫秒級速度、且成本近乎為零的同時，探索更多新應(yīng)用。這一服務(wù)預(yù)計不會產(chǎn)生顯著收入。

02.遵循三大原則2個月內(nèi)完成芯片定制

一般而言，對于更新的模型，Taalas能在不到兩個月內(nèi)完成芯片定制。巴吉克對此的解釋是，由于Taalas的芯片高度專業(yè)化，其設(shè)計比英偉達的同類產(chǎn)品更簡單，因此生產(chǎn)速度更快。例如一塊Taalas芯片就能容納一個完整的大語言模型，將模型及其權(quán)重硬編碼到HC1中，然后將整個模型嵌入到定制的專用芯片中，而無需像英偉達和其他公司那樣依賴外部高帶寬內(nèi)存。這一過程中，該公司遵循三個原則。第一是完全定制化（Total specialization）：其團隊認為，在計算機發(fā)展史上，深度專業(yè)化一直是讓關(guān)鍵工作負載以極高效率運行的最可靠途徑之一。因此，Taalas會為每個單獨的模型生產(chǎn)最佳芯片，也就是將特定的模型神經(jīng)網(wǎng)絡(luò)映射到芯片本身，從而針對每個模型優(yōu)化基礎(chǔ)設(shè)施。第二是實現(xiàn)存儲與計算融合：此前，AI推理芯片架構(gòu)設(shè)計中計算與存儲相互分離，且二者運行速度存在顯著差異，這直接導(dǎo)致當前AI推理硬件架構(gòu)日趨復(fù)雜。系統(tǒng)不僅需要依賴先進封裝、HBM堆棧與超高I/O帶寬，再加上單芯片功耗攀升，有時必須依靠液冷方案才能穩(wěn)定運行。其博客提到，Taalas的突破性就在于，將存儲和計算統(tǒng)一在單個芯片上，并達到DRAM級別的密度，以此來解決此前計算和內(nèi)存分家的痛點。第三是極致簡化（Radical simplification）：在融合存儲與計算，并針對每個模型定制芯片的基礎(chǔ)上，Taalas可以從根本上重新設(shè)計整個硬件堆棧。其最終得到的系統(tǒng)不依賴于復(fù)雜或特殊的技術(shù)，不需要HBM、先進封裝、3D堆疊、液冷等。HC在設(shè)計時還進一步降低了AI部署中的能耗和成本。HC系統(tǒng)每個機架的能耗為12-15千瓦，GPU每個機架的能耗則高達120-600千瓦。再加上Taalas的機架可采用風(fēng)冷散熱，從而進一步降低數(shù)據(jù)中心的改造成本。此外，Taalas HC1 PCIe卡幾乎可以安裝在任何服務(wù)器中，并支持英特爾和AMD的CPU。

03.業(yè)界好評與擔(dān)憂并存缺乏靈活性、機架壽命短引熱議

憑借HC1的性能和極低成本，Taalas近期獲得了不少關(guān)注，但業(yè)界仍提出了反對意見。其優(yōu)勢顯而易見。即便云服務(wù)商每次模型更新時都要更換數(shù)千顆加速芯片，在四年的可比使用周期內(nèi)，Taalas方案的資本支出（CAPEX）仍能比其他AI加速方案節(jié)省60%–75%，同時還能為用戶提供全球最快的AI推理服務(wù)。企業(yè)擔(dān)憂的關(guān)鍵之一在于，Taalas的方案缺乏靈活性。使用其方案的企業(yè)將不得不長期適配同一固化模型的多個迭代版本，同時還要部署不同的芯片版本來運行各異的模型。如此繁多的版本，會加重數(shù)據(jù)中心的運營復(fù)雜度。但《福布斯》認為，即便如此這套方案依然非常劃算。因為如果一家數(shù)據(jù)中心只有少數(shù)幾個模型，卻占用了生產(chǎn)環(huán)境中絕大部分AI推理算力，那用這種專用芯片的性價比會很高。企業(yè)擔(dān)心的另一個點是Taalas機架的使用壽命較短。目前，英偉達和AMD的更新周期都是以年為單位，但Taalas的模式就意味著，每個模型都要跟著更新。大模型基本1～1.5年就會迭代一次，而新一代芯片的研發(fā)通常需要2～3年。針對這一隱憂，Taalas的應(yīng)對策略是，通過對兩層金屬層進行改動來升級基礎(chǔ)邏輯層，無需徹底重新設(shè)計?！陡２妓埂饭烙嫞琓aalas很可能讓臺積電預(yù)先存儲未完成的晶圓，以便添加這兩層金屬互連層，從而實現(xiàn)在兩個月內(nèi)完成交付。

總結(jié)

Taalas的橫空出世無疑為AI基礎(chǔ)設(shè)施領(lǐng)域提供了一種極具顛覆性的新思路：通過“存儲計算融合”與“模型硬件固化”，它成功打破了傳統(tǒng)馮·諾依曼架構(gòu)中內(nèi)存墻的限制，在特定模型的推理速度與能效比上實現(xiàn)了對英偉達等通用GPU方案的代際超越。其提出的“兩個月定制芯片”模式及極致的成本控制，證明了在追求經(jīng)濟效益和極速響應(yīng)的垂直場景中，專用ASIC架構(gòu)擁有巨大的應(yīng)用潛力。

上一篇：從4nm到3nm：M31構(gòu)建完整UFS 4.1生態(tài)，助力客戶縮短SoC開發(fā)周期

下一篇：不僅是賣車，更是賣服務(wù)：揭秘中國車企出海的“最后一公里”難題

特別推薦

噪聲中提取真值！瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
10MHz高頻運行！氮矽科技發(fā)布集成驅(qū)動GaN芯片，助力電源能效再攀新高
失真度僅0.002%！力芯微推出超低內(nèi)阻、超低失真4PST模擬開關(guān)
一“芯”雙電！圣邦微電子發(fā)布雙輸出電源芯片，簡化AFE與音頻設(shè)計
一機適配萬端：金升陽推出1200W可編程電源，賦能高端裝備制造

技術(shù)文章更多>>

技術(shù)白皮書下載更多>>

熱門搜索

国产精品国精品国产免费,夜趣导航唯一官方网站,美国操逼福利,宅男视频在线播放日韩一级片在线观看_啪啪无遮挡_在车里做的三级_欧美日韩激情视频

24人團隊挑戰(zhàn)英偉達？Taalas HC1橫空出世：將大模型直接“刻”進硬件

友情鏈接(QQ：317243736)

国产精品国精品国产免费,夜趣导航唯一官方网站,美国操逼福利,宅男视频在线播放 日韩一级片在线观看_啪啪无遮挡_在车里做的三级_欧美日韩激情视频

24人團隊挑戰(zhàn)英偉達？Taalas HC1橫空出世：將大模型直接“刻”進硬件

友情鏈接(QQ：317243736)

国产精品国精品国产免费,夜趣导航唯一官方网站,美国操逼福利,宅男视频在线播放日韩一级片在线观看_啪啪无遮挡_在车里做的三级_欧美日韩激情视频

24人團隊挑戰(zhàn)英偉達？Taalas HC1橫空出世：將大模型直接“刻”進硬件