紅 帽 推 出 企 業 級 推 理 伺 服 器
為混合雲中的任何模型及加速器解鎖生成式 AI 潛力
【香港】— 紅帽於紅帽全球峰會(Red Hat Summit)宣布推出人工智能推理伺服器(Red Hat AI Inference Server),邁出生成式人工智能普及至混合雲的重要一步。作為紅帽 AI 的全新企業級推理伺服器,此解決方案不僅源自於強大的 vLLM 社群專案,並透過紅帽整合 Neural Magic 技術加以強化,提供更快的速度、更高的加速器效率與更佳的成本效益,幫助實現紅帽的願景,亦能於任何雲端環境、任何 AI 加速器上執行各種生成式 AI 模型。不論是獨立解決方案,或是作為紅帽企業Linux AI(RHEL AI)和紅帽OpenShift AI的集成功能,這一突破性平台讓企業能更有效地在生產環境中部署和擴展生成式AI。
AI推理伺服器結合vLLM與Neural Magic技術 為混合雲提供更快 更高效 更具成本效益的AI推理解決方案
推理(inferencing)是人工智能的關鍵部份,將預先訓練模型轉化為實際結果。推理作為使用者互動的樞紐,需要迅速且準確的回應。隨著生成式人工智能模型複雜性不斷增加,加上生產環境部署規模的擴增,推理這步驟可能成為一項挑戰,不僅會消耗大量硬體資源,更可能導致回應速度遲緩並加重營運成本。為了大規模釋放人工智能真正的潛力,並且更輕鬆地應對其潛在的複雜性,強大的推理伺服器已不再是奢侈品,而是一個必要條件。
紅帽直接針對這些挑戰推出了紅帽AI推理伺服器—一個為高性能而設計的開放推理解決方案,配備了先進的模型壓縮和優化工具。這一創新讓企業能夠充分發揮生成式AI的變革力量,提供極具響應性的用戶體驗,並在選擇AI加速器、模型和IT環境方面享有無與倫比的自由。
vLLM:擴展推理創新 -
紅帽人工智能推理伺服器以業界領先的 vLLM 方案為基礎。該方案由加州大學柏克萊分校於 2023 年啟動,可提供高傳輸量的生成式人工智能推理、支援大型內容輸入、多 GPU 模型加速並支援連續批次處理等功能。
vLLM 不僅廣泛支援公開可用的模型,更能從 Day 0 整合 DeepSeek、Gemma、Llama、Mistral、Phi 等領先模型,以及如Llama Nemotron的開源企業級推理模型,推動其成為未來人工智能推理創新的實質標準。領先模型的供應商正積極擁抱 vLLM,進一步鞏固 vLLM 在塑造人工智能未來的關鍵作用。
紅帽人工智能推理伺服器介紹 -
紅帽人工智能推理伺服器整合 vLLM 的頂尖創新技術,將其融入紅帽人工智能推理伺服器中的企業級功能中。該功能提供獨立的容器化版本,亦可作為 RHEL AI 及紅帽 OpenShift AI 的一部分。
紅帽人工智能推理伺服器可於跨環境中部署,為使用者提供穩固且受支援的 vLLM 發行版,同時具備以下亮點:
智能 LLM 壓縮工具:能大幅縮減基礎模型與微調 AI 模型的規模,最大限度地減少運算消耗,維持甚至可能提升模型的準確性。
優化的模型存放庫:該功能在 Hugging Face 的紅帽人工智能企業中,使用者可以即時存取經過驗證與優化的頂尖 AI 模型,在不影響模型準確性的前提下,將效率提升 2 至 4 倍。
紅帽的企業級支援:以及紅帽數十年來將社群方案引入生產環境所積累的專業知識。
第三方支援:提供更大的部署彈性,只要遵循紅帽的第三方支援政策,用戶就能將紅帽人工智能推理伺服器部署於非紅帽的 Linux 及 Kubernetes 平台。
紅帽的願景:任何模式、任何加速器、任何雲端,一致的用戶體驗
人工智能的未來由無限的機會所定義,而不受基礎設施的限制。對於未來,紅帽展望企業可以在任何雲端、任何加速器上部署任何模型,並在合理成本的前提下提供卓越且更一致的用戶體驗。為了解鎖生成式人工智能投資的真正潛力,企業需要一個通用的推理平台,這將成為當前及未來實現更無縫、高效能人工智能創新的標準。
正如紅帽透過將 Linux 轉型為現代 IT 的基石,從而開創了開源企業的先河一樣,如今紅帽也已準備好迎接人工智能推理的未來。vLLM 的潛力在於成為標準化人工智能推理的關鍵,而紅帽致力於壯大 vLLM 社區,也同時推動大規模分散式推理的 llm-d,共同打造蓬勃發展的生態系統。紅帽的願景非常明確,無論人工智能模型、基層加速器或部署環境如何,紅帽都打算將 vLLM 打造為跨混合雲推理的權威開放標準。
紅帽全球峰會 -
參與紅帽全球峰會主題演講,了解紅帽高層、客戶及合作夥伴最新技術動向與成果:
現代化基礎設施與企業級AI — 5月20日(星期二)上午8至10時(美國東部時間,YouTube)
混合雲技術進化 推動企業創新— 5月21日(星期三)上午8時至9時30分(美國東部時間,YouTube)
補充引述 -
紅帽公司人工智能業務部副總裁兼總經理 Joe Fernandes 表示:
「生成式人工智能的真正價值在於推理,當用戶提出請求時,系統能基於特定模型快速、準確地回應用戶,並兼顧效能與成本。紅帽人工智能推理伺服器正是為滿足大規模高效能推理需求而設計,在維持低資源消耗的同時,提供在任何模型、任何環境的任何加速器上都能運行的通用推理解決方案。」
AMD 人工智能事業部副總裁 Ramine Roane 表示:
「透過與紅帽的合作,AMD提供開箱即用的解決方案,協助企業高效應用生成式人工智能。AMD Instinct™ GPU 支援紅帽人工智能推理伺服器,為企業提供結合社區驅動的人工智能推理能力,並由經驗證的企業級硬體加速器提供支援。」
思科運算資深副總裁暨總經理 Jeremy Foster 表示:
「紅帽人工智能推理伺服器正是為了滿足人工智能工作負載所需的速度、一致性與彈性而設計。這項創新為思科與红帽創造更多合作機會,攜手開發更易於存取、高效率且具擴展性的 AI 部署方式,協助企業迎接未來挑戰。」
英特爾資料中心暨人工智能軟體解決方案與生態系副總裁 Bill Pearson 表示:
「英特爾很高興能與紅帽合作,整合紅帽人工智能推理伺服器與 Intel® Gaudi® 加速器。這項整合將為我們的客戶提供一套最佳化的解決方案,有助於簡化並擴展 AI 推理流程,為各種企業級 AI 應用提供卓越的效能與效率。」
NVIDIA 企業軟件副總裁 John Fanelli 表示:
「高效能推理不僅能讓模型與人工智能代理完成回應,更能即時進行推理與適應。透過具完整堆疊的開放英偉達加速運算平台與紅帽人工智能推理伺服器,開發人員可於跨混合雲環境中大規模運行高效率推理,並藉由全新英偉達企業人工智能認證設計與紅帽推理伺服器的組合,部署各類應用程式。」
( 內容由有關方面代表提供, 經編輯後刊登 )






