多くの研究機関がAI研究に取り組む中、AIトレーニングに必要な計算力を提供するGPUの普及が進んでいます。しかし、x86アーキテクチャと比べてGPUリソース管理ツールが不足し、資源配分の可視性が低いため、投資効果への疑問から資源拡張が停滞するケースもあります。これがAI発展の障害となることもあります。
この課題を解決するため、台湾国立高速網路および計算中心(TWGC)プロジェクトの経験を持つINFINITIXは、2018年にAI-Stackをリリースしました。このプラットフォームは、多ユーザーが共用できるAI計算プラットフォームとして、多GPUサーバーの管理を行い、研究機関の関係者が統計グラフでGPU資源の配分を簡単に把握し、リソース利用を最適化してAIプロジェクト成果を向上させます。
「AIを実現するには資源の効果的活用が必要です」とINFINITIXのCEOである WenYu Chen氏は述べています。AI-Stackは資源配分を強化し、内部費用の根拠を明確にするだけでなく、「自動供給」機能により1分以内で開発環境を構築し、GPUリソースをすぐに運用可能にします。
リソース配分の効率向上と費用分担の明確化
高性能GPUは高価であり、研究機関は最大の計算能力を求め、1台のサーバーに複数枚のGPUを搭載することが多く、投資コストは大きくなります。こうした中で、管理者はGPU性能を最大限活用したいと考えています。
AI-Stackを導入することで、各部門のGPU使用状況や支援するプロジェクトを明確に把握できます。これにより、各部門のコスト負担や貢献度も分かりやすくなります。さらに、AI-Stackは異なるGPUタイプ(Tesla、Quadro、GeForceを含む)の適切な割り当てをサポートし、リソースの効果的な活用とROIの向上が可能です。
一方で、研究者がプロジェクトに取り組む際、試行錯誤することは避けられません。異なるアルゴリズムを適用したり、実験環境を構築する過程で結果が期待通りでないと、再度環境を一から作り直す必要があります。この際、OS、GPU、ドライバー、コンテナ、ライブラリ、依存パッケージなどのインストールに半日以上かかることもあり、試行錯誤が進むほど開発が遅れ、GPUリソースが無駄に放置される時間も増えてしまいます。
これに対して、AI-Stackはリソースの準備をわずか1分から5分以内で完了させ、開発環境を迅速に整えることができます。AI-Stackは使いやすいGUIを提供しており、ユーザーはメニューから必要なハードウェアやソフトウェア(TensorFlow、PyTorch、Caffe2など)を選ぶだけで、すぐに開発環境を整えることができます。さらに、SSHキーやアカウント情報を設定することも可能で、SSHターミナルでコマンドを実行したり、ライブラリやパッケージを追加したりすることも簡単に行えます。また、Jupyter NotebookやJupyter Lab、TensorBoardなどの開発ツールも統合されており、システムが自動的に環境構築を行います。
AI学習のハードルを下げ、プロジェクトの進行を加速
前述の自動供装機能は、発者にとって迅速に実験環境を構築できるだけでなく、その環境を自分で管理できるメリットがあります。これにより、複雑な手続きが省かれ、AI学習のハードルが低くなり、開発作業に集中しやすくなります。
管理者にとっても、自動供装によって「ハードウェアの統合」と「最適なソフトウェアの組み合わせ」が保証されるため、システムの可用性を維持しやすく、運用管理の負担が軽減されます。さらに、開発者がTensorFlowなどの複雑な作業を求めることなく、自ら環境を整えることができ、システム管理者の負担が減少します。
AI-Stackは、計算リソースやストレージの横展開をサポートし、INFINITIXはストレージ機器メーカーと提携し、AI計算に必要なデータがスムーズにストレージに配置されるようにしています。また、各アカウントに関連付けられたストレージを個別の開発環境にマウントし、データの移動やダウンロードを避けられるようになります。
AI-Stackは、NFS、S3、CSIの3つのストレージプロトコルをサポートし、柔軟な選択肢を提供します。さらに、NVIDIA(計算分野)やNetApp(ストレージ分野)との製品統合にも成功しています。
AI-Stackは訓練だけでなく推論にも対応しており、ネットワーク接続やセキュリティが重要です。INFINITIXは、より多くのパートナーと協力し、強力なAIアプリケーションエコシステムを構築していくことを目指しています。
AI-Stackはリリース以来、台湾の多くの教育機関、半導体業界の企業に導入され、産学連携を通じて企業が必要とするAIソリューションを開発し、デジタルトランスフォーメーションの加速に貢献しています。
INFINITIXは、仮想化、コンテナ化、マイクロサービス、エッジコンピューティング、AIなどの課題を解決する企業向けソリューションを提供し、AI機械学習インフラ基盤「AI-Stack」を展開しています。學校能夠擴充計算資源與研發能量,一併幫助學生養成專業技能與經驗、找到職涯出路。最終校方提出研究成果,由企業透過技轉方式引入自家場域,加速落實數位轉型,前前後後串聯為強大的正向循環。