本記事はAnnouncing New Relic AI General Availability: AIOps and Faster Incident Response for Busy DevOps and SRE teamsの意訳記事です。また来週4/21 12:10よりにWebinarを予定していますので、合わせてぜひご参加ください。

New Relic AI で実践する、インシデント対応高速化

ソフトウェア・システムが複雑化し、品質と信頼性に対する要求が高まるにつれ、DevOps、SRE、およびネットワーク・オペレーション・センター(NOC)のチームは、常に氾濫する情報に圧倒されていることに気づくでしょう。騒々しいアラート、複数のツールに分散したシグナル、そして何千もの「未知のものたち」の間では、インシデントの根本原因を迅速に特定して対処することはもちろん、問題を積極的に検出して対応することも困難です。トラブルシューティングとインシデント対応は、複数のツールからの大量のアラートの流入によってさらに複雑になり、チームの注意力が散漫になり、対応に疲労が生じる可能性があります。

私たちはこのような問題を目の当たりにし、複雑で大規模なシステムを維持することの難しさを知っています。そのため、オンコールチームがインシデントを迅速に検出、診断、対応できるように支援するAIOpsソリューションであるNew Relic Applied Intelligence(AI)の一般提供を発表しました。New Relic AIは、お客様のチームが反応的な「消火活動」モードから脱却し、創造的でやりがいのある、エキサイティングなソフトウェアの構築作業に戻れるように設計されています。

いち早く接続し、いち早く価値をもたらす:すでに使っているツールで使えます

DevOps、SRE、またはオンコールチームが複雑なインフラストラクチャの維持を担当している場合、インシデントを検出して対応するために多くのツールに頼ることがあります。テクノロジー・スタック全体のシステムを観察するための優れたツール、インシデントが発生したときに通知するツール、進行中のステータスやフォローアップ・アクションを追跡するツール、他のチーム・メンバーとコミュニケーションをとるためのツールなどがあります。解決までの平均時間(MTTR)を短縮することが求められているオンコールチームにとって、このように増え続けるツールのリストは問題を引き起こす可能性があります。インシデント、イベント、および運用データが断片化、サイロ化、または冗長化されているため、インシデントの診断と解決に必要な情報を見つけることが難しくなっています。

AIOpsプラットフォームは、インシデント情報の一元化されたインテリジェントなフィードによってこれらの問題を解決し、トラブルシューティングや問題への対応に必要なすべての情報を一枚のガラスの向こう側に表示します。しかし、この価値を引き出すには、多大な時間とワークフローのシフトが必要となり、統合、設定、トレーニング、導入作業に数百時間のコストがかかる可能性があります。

New Relic AIのアプローチは根本的に異なります。インテリジェントなシステムの価値と最小限の設定要件を組み合わせたものです。New Relic AIはソースやデータにとらわれず、PagerDutyNew Relic AlertsSplunkPrometheusGrafanaAmazon CloudWatchなどのデータソースとREST APIを介して統合します。New RelicのAIは、オンボードしてデータを学ぶために数週間を必要とせず、時間の経過とともに学習し、インシデントデータを自動的に集計、相関、優先順位付けして、チームがアラート疲労を軽減できるようにします。この合理化された強化された情報は、PagerDuty、ServiceNowOpsGenieVictorOpsなどのチームの既存のインシデント管理ツールで利用できるため、インシデントへの対応方法を再発明する必要はありません。

さらに、すでに使用している通知ツールやコラボレーション・ツールと統合し、自動異常検出などの重要な洞察をSlackチャネルやその他の選択した通知チャネルに提供します。オンコールのワークフローを変更する必要なく、生産システムに関する重要な情報にすぐにアクセスできるようになりました。

DevOpsサイクル全体を通じたインテリジェンスの向上

インシデント対応プロセスの特定の側面にアプローチを絞るのではなく、プロセスの各段階間の関係を強化し、より強力なソリューションを作成します。検出の迅速化、理解の迅速化、応答の迅速化、フォローアップの迅速化だけに焦点を当てるだけでは十分ではなく、システムの観点から最善のSREのように考えるツールが必要です。

プロアクティブな異常検知

インシデント対応プロセスの最初のステップは、潜在的な問題を検出することです。New Relic AIは、数回クリックするだけで数分で設定できる自動異常検知機能を提供します。

異常を監視したいアプリケーションやサービスをシステムに伝え、Slackのように通知を受けたいツールにリアルタイムの障害警告を簡単に送信できます。多くのオンコールチームがSlackを介して問題を共同で処理している場合、チームがすでに作業を行っているツール内の潜在的な問題に関する重要なコンテキストを表面化させることができます。またWebhookを設定して、New Relic AIのProactive Detectionからの障害警告を任意のカスタム通知チャネルに送信することもできます。

「New Relic AIのプロアクティブ検知機能は、セットアップや使用が非常に簡単でした。エージェントの設定変更や導入の必要はありませんでした。」とSignify HealthのSenior Site Reliability Engineer Jeffrey Hinesは述べてます。「具体的には、私のチームがスピードと敏捷性を達成し、運用の可視性を提供してくれたことで、最終的にはインシデントを減らし、機械学習と分析を運用に統合し、全体的な顧客体験を向上させることができました」

アラートノイズと疲労を軽減

オンコール・チームは、優先度の低い問題、無関係な問題、またはバタバタした問題によって引き起こされる騒々しいアラートに日々さらされています。これらはアラートの疲労や注意力散漫の原因となり、重要なシグナルに気づけない可能性を高めてしまいます。New Relic AIのインシデントインテリジェンスは、業界標準の知識をベースラインとして使用し、お客様のデータとチームのフィードバックから学習することで、過剰な設定やトレーニング、オンボードを行うことなく、気にしないアラートをインテリジェントに抑制し、関連するインシデントを関連付けることができます。すでにNew Relic AIを使用しているお客様からは、80%以上のノイズが自動的に減少し、より合理化された有用なアラートが表示されるようになったとの報告をいただいています。

「今日、IT運用チームが最も苦労している最大の問題は、膨大な量のイベントアラートのノイズを理解することであり、チームが完璧なソフトウェアの構築に集中する能力に影響を与えています。New RelicのAIを使えば、特定の問題がビジネスサービスにどのような影響を与えているかを明確に理解できるようになり、ビジネス上最も重要な問題を迅速に特定し、優先順位をつけることができるようになります。今回のリリースにより、ターゲットを絞ったインテリジェンスの力を活用し、最終的にコストを最適化できるようになることを楽しみにしています。」Morningstar, Inc. Global Head of Technology Operations, Peter Hammond

透明性、信頼、コントロール

あなたとあなたのチームは、相関関係が重要なシグナルを見逃していないことに信頼をおけないと不安になるでしょう。AIOpsツールはブラックボックスであるべきではないと私たちは考えています。そのため、New Relic AIは、問題がなぜ、どのように相関関係にあるのかを明確に示し、シグナルが見落とされていないことを信頼できるようにしています。AIと機械学習(ML)を使用したNew Relic AIは、過去のデータに基づいて関連性のある相関関係を提案します。

またNew Relic AIに、どのようなデータを比較し何を相関させるかを指示することで、独自の判断を行い相関エンジンに情報を提供することもできます。頻度や期間のしきい値を設定し、相関エンジンを微調整することができます。必要があれば用意されている類似性アルゴリズムを選択することもできます。

診断と対応の迅速化

問題が特定され、チームが呼び出されると、調査とトラブルシューティングのプロセスが開始されます。通常、問題が発生してから解決に至るまでの時間の大半は、根本的な原因に迫り、解決に向けたステップを決定することに費やされます。New Relic AIは、「4つのゴールデン・シグナル」(遅延、トラフィック、エラー、飽和状態)に基づく分類や、関連するコンポーネントの情報など、既存の問題に関する有用な情報を提供することで、このプロセスを加速させます。例えば、特定のアプリケーション名を持つすべてのインシデントを、New Relic AIのパスウェイ機能を使って、そのチーム専用のPagerDutyサービスにのみ通知するように設定することも簡単です。

新しいチームメンバーと同じように、New Relic AIはより賢くなり、データを研究しながらチームのインフラストラクチャに関するシステム固有の知識を蓄積していきます。お客様のチームは、問題の関連性、自動的に付加された情報、提案された回答者の質についてフィードバックを提供することができ、システムが調整を行い、時間の経過とともに、より焦点を絞った関連性の高い洞察を提供できるようになります。

既存のインシデント管理ワークフローに変更なし

New RelicのAIは既存のインシデント管理ワークフローやツールの中で相関性のある強化されたインシデントやコンテキストを提供します。お客様の状況に合わせて対応しますので、インシデントへの対応方法を変更する必要はありません。New Relicのガイド付き設定インターフェイスやREST API、ウェブフックを介して、既存のツールをデータソースや配信先として接続するだけで、あとはソリューションが処理してくれます。ツールチェーンからインシデントデータをインジェストし、コンテキストを用いてインシデントデータを強化し、スマートな提案やガイダンスを提供し、インシデントに関する関連するインサイトをお使いのツールに配信します。

より完璧なソフトウェアのためのよりスマートなツール

New Relicのミッションは、インターネットを計測、測定、改善し、お客様がより完璧なソフトウェア、体験、ビジネスを創造できるように支援することです。そのためには、接続や設定が簡単で、チームがすでに使用しているツールと連携し、観測プロセス全体を通して価値を創造し、データパターンやユーザーのフィードバックから学習し、時間の経過とともに賢くなっていくソリューションを採用することが重要だと考えています。New Relic AIは、この旅の次なるステップです。多忙なDevOps、SRE、NOCのチームにはすでに違いをもたらしています。

ソフトウェアエンジニア、インフラエンジニアなど自社開発や自社運用の現場で経験を積んだのち外資系ソフトウェアベンダーでのテクニカルサポートを経て現職。New Relicユーザーだった経験あり。コミュニティでの登壇活動も多く、Microsoft MVPを7年連続受賞中。Microsoft Certified Azure Solutions Architect Expert。得意分野はC#をはじめとするソフトウェア開発、Kubernetes関連技術およびパブリッククラウド。 View posts by .