アレクセイ: 多くの可能性があります。一つはアノーマリ(異常)検知です。ログやOpenTelemetry(*1)から抽出した情報をAIが分析し、異常発生のインサイトを提供してくれるでしょう。 ただ、AI、特にLLM(*2)は学習データに基づいた意思決定を行うため、新たなパターンに直面すると正確性が損なわれるリスクもあります。従来の監視がより正確な側面があることにも留意が必要です。別の側面として、人とテクノロジーの橋渡しが挙げられます。Zabbixが発見した問題について、「なぜこの問題が起きたのか、原因の可能性や修正方法」といった事柄を自然言語で問いかけ、回答を得られるようになるでしょう。これにより、運用監視の自動化をさらに進めることができます。
宮本: 我々のようなIT運用者側は、日々Zabbixから大量に出されるアラートの意味を読み解いています。 アラートは絶対数が多い上、同じ内容でも異なる事象から発生したり、逆に一つの事象から多数のアラートが発せられることもあります。もしZabbixがAIと連携し、適切な示唆や可能性まで提示してくれるようになれば、運用者としては非常に有用です。
アレクセイ: まさにそのとおりで、今、どのようにAIを活用して過検知や誤検知を減らすか、また大量のアラートを集約し、その中から根本原因を見つけ出せるかについて検討しています。
寺島: イベントやアラートが溜まりすぎるという相談はよくいただきます。 Zabbix 8.0では、Advanced Event Aggregation機能をさらに拡張する予定です。同機能では条件を設定し、同時に発生した多数のアラートを根本原因に基づくものと副次的なものに分け、同じ原因に起因するものを集約するなどして、アラート自体の数を減らし、運用をよりシンプルにできると期待しています。
廣田: AIが広がり、運用の自動化が進んでも、AIが提示する内容が正しいか、適切かを判断するには、いっそうの知見が求められます。 モニタリング自体は無人化できても、そのデータを読み解き、SRE(サイト信頼性エンジニアリング)全般の観点からシステムを最適化していくという意味で、運用者の役割はさらに進化していくと考えています。