寺島: 近年のAIブームを受け、GPU(*4)への投資が増え、システム構築・運用されるケースが増えています。Zabbix Conference Japanでは、そうしたGPUクラスタ環境のモニタリングにZabbixを活用いただいたお客様の事例もご紹介いただきました。
髙波: カンファレンスに加え、CTCグループ最大のイベント「CTC DISCOVER 2025」でもZabbixによるGPUクラスタ監視環境の事例を紹介し、多くのお客様から監視に関する質問をいただきました。 この構築に際しては、Zabbix Japanにもご協力いただきました。GPU監視はZabbix 7.2以降で追加された機能ですが、お客様は7.0搭載のZabbixアプライアンスでの導入を希望されていました。相談の結果、テンプレートを改修していただき、無事にGPU監視を導入できました。 さらに、マルチベンダーを取り扱う我々の強みを活かし、ダッシュボードも組み合わせることで、お客様の要望にしっかりとお応えできたケースです。
寺島: 実は、GPUの状態や性能をインフラ監視と統合した形で可視化できるツールは他にあまりありません。これはZabbixのユニークな強みだと考えています。 この事例を発表いただけたことで、CTCグループの皆様やお客様に、「ZabbixはITインフラ監視ツールというイメージがあるが、実はこんなこともできる」と知っていただく良い機会になったと思っています。
髙波: AIプラットフォーム基盤を導入したいというお客様は増加しています。 一般的なITシステムではCPU負荷上昇を障害と判定しますが、GPUの場合は、障害ではない範囲でできるだけリソースを使い切りたいという要望があります。そのため、通常とは異なる監視設計が求められます。こうしたノウハウも含め、ZabbixでGPU監視の要望にお応えしたいと考えています。
アレクセイ: GPU監視の考え方は、Zabbixが古くからサポートしてきたHPC(ハイパフォーマンスコンピューティング)(*5)クラスタの監視と似た部分があると感じています。