
タブの始まり
- 年金記録漏れだけではない、データの不整合による問題
- 企業の保有データの表記基準は厳密ではない
- 大手保険会社が直面した営業の非効率化と顧客満足度の低下
- 顧客データ品質の劣化がビジネスに影響
- 顧客データの住所表記は1200パターン
- 日本には「北区」が7カ所ある
- データの重複原因は3つ
- 60%ものお客様が自社のデータ品質に疑問を持っている
上記リンクをクリックすると、ページ内の該当箇所に移動します
年金記録漏れだけではない、データの不整合による問題
データの整合性の問題が大きな話題です。年金記録漏れのニュースが一時話題となりましたが、これに限らず、金融業界における企業の大規模な統合や合併、預金のペイオフ対応など、異なるシステム間でデータを移行したり統合したりする時、データ整合性の問題は避けて通ることはできません。例えばペイオフが解禁されて預金の保護範囲が限定されるとなると、預金の主体が誰なのかを明確にしなければ預金総額の算出ができません。この主体を確定させる作業は「名寄せ」と呼ばれます。
企業の保有データの表記基準は厳密ではない
年金問題やペイオフ対応のような例ばかりではありません。個人名、会社名、住所、電話番号、製品名など、企業の保有する膨大なデータには、表記基準が厳密に定められていない場合が多いうえ、さまざまな形式でシステム内に存在しています。保有データの品質に疑問があるために、業務が非効率になっていたり、データ精度が不明であるためにシステム対応負荷の算定が困難になっていたり、多くの企業がデータ品質に関するさまざまな課題を抱えているのです。
大手保険会社が直面した営業の非効率化と顧客満足度の低下
300以上の金融商品を持ち、グループ全体の顧客データが1,000万件を超えていた大手保険会社の例をご紹介します。複数の子会社と十数社の関連会社でビジネスを展開していたこの保険会社では、子会社や関連会社が独立した顧客管理を行っていたため、営業の非効率化と顧客満足度の低下が問題になっていました。同じお客さまに対し、同一商品の営業を行うというグループ会社同士による顧客の奪い合いが発生していたからです。
顧客データ品質の劣化がビジネスに影響
グループ内で顧客データが重複しているにもかかわらず、名寄せができないため、ダイレクトメールの送付を見合わせざるを得ないケースも起きていました。無駄なコスト発生を避けるためだけでなく、すでに契約しているお客さまに対して、契約されている商品の案内を送ってしまうことで信頼性を低下させてしまう可能性があるからです。顧客データ品質の劣化がビジネスに影響を及ぼしている典型的な状況でした。
顧客データの住所表記は1200パターン
グループの顧客データの名寄せを行うとともに、データの品質を徹底的に確認するために、IBMの「データクオリティ診断−DQA」という名の保有データの分析と傾向診断を導入された保険会社は、その結果に愕然とされたそうです。顧客データの16%の電話番号フィールドは空欄でしたし、25%のデータは契約番号が存在せず、「0000」であることがわかりました。郵便番号にいたっては80%が空欄でしたし、記入されている残り20%のデータ中15%は、1998年の7桁化に対応していませんでした。中でも、驚かされたのは、電話番号の表記パターンが33種類(左図)にも及んでいたことと、住所表記にいたっては、1200種類にまで達していたことでした。
日本には「北区」が7カ所ある
そこで再認識されたのは、日本には法律で定められた住所記入方法がないうえに、同一名の市町村が多く存在しているということです。例えば、日本には「北区」という区名が、東京都、京都市、大阪市、名古屋市などに計7つも存在しています。「中央区」は7カ所、「西区」は8カ所、南区も7カ所です。「石川郡」という地名は石川県と福島県に、「安芸郡」は広島県と高知県にあります。個々の組み合わせを人間が判断していては、データが汚れる可能性は高まることは一目瞭然です。
データの重複原因は3つ
「汚れたデータ」となるデータの重複原因は3つに大別できます。1つ目はミス入力により「マンション」を「マンシン」として保存されたケースに代表される、データ自体が間違っている「物理的エラー」のデータです。2つ目は、データ自体は間違っていないにもかかわらず、表記方法や組み合わせ方が間違っている「論理的エラー」のデータです。「東京都さいたま市」という入力ミスなどは、論理的な組み合わせの矛盾の代表例です。「埼玉県入間郡大井町亀久保」という住所の「入間郡」を入力せずに、「埼玉県大井町亀久保」と短縮してしまった場合、正確に入力されたデータとは別のデータとして保存されています。また論理エラーには「東京都港□□区□愛宕」のように意味のないブランクが挿入されている例などもあります。しかし最も問題になるのは3つ目の「表現方法の分散」です。これは、エラーではないのに、複数の表記方法が使われているケースや、慣習的に許容されているデータです。特に、明治期の合併によって消滅した江戸時代からの村の名が使われることが多い「大字」、「字」、「小字」の表記の有無が代表的な例ですが、金沢市などの「○○町い」と「○○町イ」や札幌市などの「北1条西1丁目」と「北1西1-」の表記の違いも、同一住所を別データとして保存しやすい例です。
60%ものお客様が自社のデータ品質に疑問を持っている
その後、この保険会社がすぐに顧客データの全面的なクレンジング(クリーニング)を実施されたことは、言うまでもありません。重要なのは、この保険会社が特殊なケースではないということです。IBMの調査によると「60%のお客様が自社のデータ品質に疑問を持っている」という結果がでています。データ精度を向上させることは、効率的なマーケティングの実施と売上・利益の増加に直接つながります。また、マスター・データの重複を解消するとコストが削減できることは、前述の例でも明らかでしょう。データを正確にクレンジングするだけで利益の構造が大きく変わるのです。
本ページ内の事例は特定のお客様での事例であり、すべてのお客様について同様の効果を実現することが可能なわけではありません。
本事例中に記載の肩書や数値、固有名詞等は初掲載当時のものであり、閲覧される時点では、変更されている可能性があることをご了承ください。
IBM, IBMロゴはInternational Business Machines Corporationの米国およびその他の国における商標。
他の会社名、製品名およびサービス名等はそれぞれ各社の商標。
