私のデータは完璧

この記事は https://docs.evolveum.com/iam/myths/my-data-are-perfect/ の翻訳です。

私のデータは正しい。 Human リソース（HR）データベースはとてもよい状態にある。雇用と給与支払いに使われているのだから、どうして間違っているはずがあるだろうか。私の組織構造データは完璧だ。私のデータは完全に信頼できる。

私のデータの状態

あなたのデータは完璧ではありません。実際、あまりにも多くの HR データ集合はかなり悪い状態にあります。外国人名の誤った、または曖昧な translイテレーションのように、入力時点でデータが誤っていることもあります。しかし、ほとんどの問題は data decay、つまり時間とともにデータが古くなることによって引き起こされます。 Typo は修正されず、旧姓は適切に変更されず、職位や勤務地は本来あるべきように更新されません。データエントリが古いほど、それが正しい可能性は低くなります。

驚くほど自然なことに、これは完全に筋が通っています。 HR データを正確かつ最新に保つ motivation は何でしょうか。 HR データベースの私の名前に typo があることを誰が気にするでしょうか。旧姓が更新されていなかったり、勤務地が誤っていたりした場合、実際の問題は何でしょうか。すべては問題なく動き、給与も支払われます。 HR データを正確かつ最新に保つ motivation はほとんどないため、データは劣化しがちです。

ガベージイン、ガベージアウト

しかし、これはアイデンティティおよびアクセス管理（IAM）システムにとって大きな問題です。 IAM システムは HR データを主要な情報ソースの1つとして使います。 HR データベースは従業員に関する信頼できるデータを提供することが期待されています。アイデンティティガバナンスおよび管理（IGA）は、従業員名を使ってユーザー名やメールアドレスを生成したいと考えます。 Typo や誤った translイテレーションは問題を引き起こします。さらに悪いことに、効率を高め、より深い自動化を進めたいという全体的な業務 motivation があります。 IGA システムは、職位や勤務地に関するデータを使ってアクセス権限を自動的に割り当てたいと考えます。しかし、その情報が誤っていれば、誤ったアクセス権限が割り当てられ、それはセキュリティ課題になる可能性が高いです。その情報はアクセス権限を自動的に割り当て解除するためにも使われます。有効なアクセス権限が削除される可能性があり、それは通常、自動的かつ大規模に発生します。これは大きな問題になります。

HR データベースから得られる比較的信頼できる唯一の情報は、おそらく雇用の開始日や終了日などの日付です。それらは payroll に直接結びついているため、正しい可能性が高いです。その他のデータ項目の品質はさまざまで、通常はかなり低いということです。

組織構造データは、さらに悪いことがよくあります。 Top 管理のレベルでは、ある程度正しく保たれています。しかし、組織上の tree の下位レベルはあまりよく保守されていません。なぜ保守されるべきなのでしょうか。業務はいずれにせよ進みます。データがほどほどに正しく保たれている場合でも、多くの場合は1つの大きな spreadsheet で管理されています。 Machine 処理に適した形で利用できないことがあります。しかし、組織構造は IGA と自動化に不可欠です。組織構造は、IGA の最も慢性的な問題の1つです。

ほとんど誰もが、自分たちのデータは素晴らしい状態だと主張します。素朴な IGA 導入はそのデータに依存し、大きな問題に陥ることがあります。アイデンティティ管理プロジェクトには、遅く高価な取り組みという評判があります。その評判のかなりの部分は、入力データ品質に関する素朴な仮定に起因します。

何をすべきか

あなたは一人ではありません。誰もが自分たちのデータの品質を過大評価します。この問題を解決する最初の一歩は、問題があることを認めることです。自動的かつ継続的に検証されていないデータは、常に誤っています。 HR データや orgstruct データが検証されることは非常にまれです。IGA システムがデプロイされるまでは。したがって、データは誤っていると仮定しなければなりません。

入力データを盲目的に信頼してはいけません。 データの利用に完全に踏み切る前に、必ず検証してください。最も実用的な方法は、そのために IGA システムを使うことです。高度な IGA プラットフォームは、対象システムのデータを変更することなく、データを取り込み、処理し、現実と比較・相関できます。 IGA 導入が修復不能な大混乱を起こす前に、入力データの品質について把握できます。

コツは 反復的な方法 を使うことです。 2000年代のアイデンティティ管理初期には、あまりにも多くのプロジェクトが「big bang」方法を試み、ひどく失敗しました。技術はそこから成長し、方法を変え、より小さな手順で進むようになりました。

小さな探索フェーズから始めてください。計画を検証する目的に特化して IGA プラットフォームを設定します。 HR データを取り込み、IGA プラットフォームで変換し、現実と比較します。相関付けやデータ対応付け機能のような機能が不可欠です。まだどのシステムも変更しないでください。データを比較し、評価するだけにします。

探索を終え、HR データが実際に誤っていることを発見しました。次に何をすべきでしょうか。本来なら、HR 部門に通知し、データの修正を依頼するのが適切な方法です。しかし、それはしばしば非常に遅く面倒なプロセスです。優れた IGA システムは、データソースが修正されるまで、誤ったデータを一時的に override する方法を提供します。設定を調整し、ポリシーを fine-tune し、誤ったデータを回避してください。

適切な設定に到達するには、複数のイテレーションが必要になる可能性があります。 Evolveum では、反復的な IGA 導入の最初の手順を導くための方法論を開発しています。この方法論は誤った入力データを考慮し、それを回避します。

IGA システムがデプロイされたら、それをデータ品質の guardian として使ってください。同期機能は、多数のシステム間でデータの一貫性を保つために使えます。これによりデータ誤りはすぐに明らかになります。データを現実と照合することが、データ品質を維持する唯一の実用的で信頼できる方法です。

導入プロセスを大幅に改善できる機能は他にもあります。

シミュレーション機能は、新しい設定やデータがシステムに与える影響を、実際に適用する前に予測できます。どのシステムも変更される前にシミュレーション結果を確認し、どう進めるかを決められます。

しきい値は、大きな問題を避けるための safety 機構です。自動化は、多くの問題を素早く解決するための優れた機構です。しかし、非常に短時間で大量の問題を作り出す機構でもあります。しきい値は自動化プロセスに設定でき、不審な数の予期しない変更がある場合にプロセスを停止し、入力データ誤りの影響を制限します。

私のデータは完璧

私のデータの状態

ガベージイン、ガベージアウト

何をすべきか

関連項目