データ統合にまつわる規制と技術的側面 | NEWS

データ外販ビジネスとデータ統合の流れ

企業のデータ統合の動きが活発になってきました。企業がデータを経営に活かすにあたって、自社データだけでは十分なサービスを提供することが難しく、それを補完するため複数の会社でデータを統合し活用する動きが高まっています。用途として例を挙げると、顧客プロファイリング、新規顧客開拓、広告関連情報の統合・分析などさまざまで、その応用範囲はますます広がっています。

少し前までは、いわゆるプラットフォーマーと呼ばれる大きな会社が、大量に持て余したデータを活用するために、データそのものを外販する動きが起こりました。例を挙げると情報銀行と呼ばれる取り組みがありましたが、データをビジネスとして成立させるための明確な方向性を持っていなかったこと、そして、データを取り扱うにあたっての規範がなかったことが挙げられます。

しかし、現代ではそのようなルールも整備されてきて、データが持つ価値を正しく理解する人材も増え、利活用の土台が整い始め、こうしたビジネスを成立させるための土壌が整い始めました。本稿では市場の将来性と、それを支えるルールや技術について触れていきたいと思います。

データ市場規模と将来性

海外に目を向けると、データ統合は分野を問わずすでにさまざまな業種で進んでいます。AWS、Google Cloud、Azureといった3大クラウドをはじめ、Disneyのようなエンターテインメント業界、General Electricのような老舗製造業、Pfizerのような製薬会社、P&Gのような消費財の分野など利用用途は多岐に渡ります。日本では、電通や博報堂のような広告代理店を筆頭に、NTTデータ、KDDI、SoftBankなどの大手プラットフォーマーが大きくデータを取り扱っており、他には医療業界、物流業界、人流データで活用が広まってきています。

データ統合がどの業種でどの程度進んでいるか具体的に示した資料はまだ例に乏しく、世界的にもデータ統合の可能性についてはっきりと定まっていません。ここでは、世界でデータ統合にどの程度期待しているか推測できる資料の一つとして、リテールメディアの広告成長の例を取り上げたいと思います。世界のデジタル広告の20%がリテールメディア、つまりCookieなどを用いたサードパーティーデータに頼らず、自社で持つ顧客情報、つまりファーストパーティーデータを用いた広告にシフトしているという資料です^[1]。

Cookie情報とは、ユーザがWebを閲覧する際にWebを辿ってきたいわば足跡とでもいうような情報のことです。従来のWeb広告では、サードパーティーデータをもとに表示される意図しないWeb広告がついて回ることに、多くのユーザが煩わしさを感じていました。ですがこうした広告利用の効果を検証したところこの方式自体に期待した程の効果が認められないことがわかり、加えて、Webサイト利用者のデータを同意なく用いられているところから嫌悪感が広がり、Cookie規制の機運が高まってきました。

現在も引き続きCookie規制は段階的に進んでおり、世界的な潮流として広告にファーストパーティーデータを用いる流れとなっています。同時に広告事業者が自社のデータを広告に利用するために、統合と展開・それにまつわる制度を検証し続けています。

データ活用の課題

先にリテールメディアを例に取り上げましたが、データ統合にあたりそのデータを扱うルールの問題が必ずついてまわります。ここではデータ統合の課題を解決するためのルールについて見ていきます。

データ規制を語るときに、よく挙がるルールとしてGDPR（一般データ保護規則）と CCPA（カリフォルニア州消費者プライバシー法）があります。この二つは類似点が多く、世界の主要な地域で適用されているルールとして、データ規則を語るときにこの二つが取り上げられることが多いです。

ルールは適法性、公正性及び透明性、目的の限定、データの最小化、正確性、記録保存の制限、完全性及び機密性といった範囲に亘り、それぞれに細則が設けられています。このようなルールは日本であまり話題になりませんが、世界各国で規制の流れは進んでおり、それぞれの地域や時勢に則ったルールとして適用されています。そのため、地域によって規制の程度は異なりますが、個人情報保護法が施行された時と同様、いずれ日本でもこうした流れが訪れると考えておいた方が良いでしょう。

こうした制度設計はデータを取り扱う上での基本となるため、とても重要な役目を果たします。また、規制が単に活動を抑制するだけにとどまらず、データの提供者と互恵的な関係を構築できるように、現在世界各国でさまざまなアプローチで制度研究が進められています^[2]。未だ各国で正解を模索している状況であるため、引き続き動向を注目していきたいところです。

データ統合を支える匿名化技術

次に、データ統合を実現するための技術的な側面について触れていきます。複数の異なる会社のデータを統合し、かつプライバシーにも配慮してデータを取り扱う技術として、通称Data Clean Room(DCR)がよく取り上げられます。DCRとはプライバシーを保護しつつ、複数事業者のデータを掛け合わせることができる環境を指します。

多方面からデータを集めユーザの動向を調べるのは、その反面、特定の個人のプライバシーを詳らかにしてしまうおそれがあります。DCRでは、データ利用を個人の同定する用途としては使用できないようにし、あくまで統計的な利用や集計にとどめられます。具体的には、データを集計する際に特定の属性を持つ集団を絞ろうとすると、その検出結果が特定の閾値より少なくなると、一部の情報を自動的にマスクします。他にも、差分プライバシーと呼ばれる技術で、計算結果に数学的なノイズが混ざった結果を返すことで、統計的には正しい結果を返しますが個別の情報は推測を不可能にします。

また、データ統合にとどまらず、政策や民間自治体、医療の分野などで利用が期待される秘密計算という技術があります。秘密計算とは暗号化の技術の一つで、従来の暗号化ではデータの通信やデータ保管時にのみ暗号化を施すといったものが多く、システムの管理者やデータの解析者が処理中のデータのメモリを窃視したり、データの解析時に一時的にデータを復号できたりと、いわゆるゼロトラストと呼ばれる、社外だけでなく社内からのアタックにおいてもデータの侵害を防ぐ観点では脆弱性を残していました。

秘密計算とは、システム処理間においても暗号化したまま処理を継続することで、システムのどの段階でもデータの窃視を防ぐ技術です。加えて、最近では秘密分散という処理中の暗号化データを断片化して複数のサーバで処理する技術も登場しました。この技術を用いると、攻撃者が仮にデータを窃取し復号化に成功したとしても、そのデータは分散された断片であるため復号化しても意味が消失しているので、結果的に窃取を防ぎます。

このような技術は、最近ではiPhoneに搭載されたApple Private Cloud Computeで話題になりました。他にも、AIのデータ利用に関してプライバシー保護の声が高まっていますが、AI技術の根本となるGPUの計算に秘密計算が用いられるようになり、GoogleやNVIDIAといった最大手でも機械学習に採用され始めています。

データ統合によって変わるデータの価値

2020年代は業態コンバージェンスの時代と言われています。本稿ではデータ利用にまつわるプライバシー保護や技術的な障壁について触れてきました。データ統合で総じて取り扱われているのは、業界を隔てるコストや障壁を取り除くための工夫であり、ここで挙げた例だけでなく様々な分野で統合が進んでいます。

このようなあらゆるデータの統合が目指すのはさらなる抽象化、つまり統合されたデータの品質や種類、精度といった事業の本質に焦点を当てることです。それは逆に言うと、扱う人の方にも高いビジネスセンスと複数の分野に亘るドメイン知識を求めることに繋がります。システムに求められることは扱う人間にも同じことが求められ、統合的なビジネスセンスを持つ人が求められるでしょう。

脚注・参考文献

https://www.emarketer.com/content/worldwide-ecommerce-forecast-2023
世界の個人情報保護法を比べてみた！GDPR・CCPA・PDPAなど一挙紹介 https://acompany.tech/privacytechlab/global-personal-information-protection-law-gdpr-ccpa-pdpa