Google マップは、アプリケーションで使用するためにユーザーに関するいくつかのデータを収集します。では、アプリはどのようにして個人のプライバシーが侵害されないようにすることができるのでしょうか?差分機密性により、収集された情報に「ノイズ」が追加されます。仕組みは次のとおりです。

確かに、RATP と SNCF のストライキ中、Google マップは最良のナビゲーション アプリケーションであるとは証明されませんでした時間通りに目的地に安全に到着するために。ただし、この小さな間違いを除けば、この有名な地図サービスには、多くのユーザーにとってほぼ必須となっている機能が満載です。

例えば、Googleマップは、レストランのメニューの料理の人気や、特定の時間における場所 (美術館、映画館、ジムなど) の混雑状況を知ることができます。ただし、これを行うには Google はユーザーのデータを必要としますが、アメリカの巨人は個人情報が開示されないことを保証することで、プラットフォームを使用する人々を安心させたいとも考えています。ここで重要な概念が登場します。差分機密性

Google マップでは、場所の混雑状況やレストランでの人気の食事に関するデータの収集に差分機密性が使用されます。

私たちは、スイスの Google でプライバシー保護を専門とするエンジニアであり、チューリッヒのスイス連邦工科大学の博士課程の学生でもあるダミアン・デフォンテーヌ氏とこの問題について話し合う機会がありました。差分プライバシーの考え方は、関係する個人に関する情報を明らかにせずにデータを公開することです。

データ内のノイズ

概念は単純に見えますが、具体的なケースへの適用は見た目よりも複雑です。ただし、このメカニズムにより、第三者がどのレストランを訪れたか、何時にこのバーでビールを飲みに行ったかを推測されることを恐れることなく、非常に完全かつ正確な Google マップ アプリケーションを利用できるようになります。市内中心部。

別の言い方をすると、ダミアン・デフォンテーヌの言葉を借りれば、差分プライバシーにより、出力データからの入力データの推論を防止します。 Googleマップより:

  • 入力データ = その時間にその場所を訪れたユーザーの ID
  • 出力データ=その時のその場所の豊かさを示すグラフ

これを達成するために、差分機密性の原則は、Google マップで公開されているデータに「ノイズ」を追加して、Google が使用するデータと比較した場合に、個人を特定するようなわずかな一致も見つけられないようにすることです。

しかし、「ノイズを加える」とはどういう意味でしょうか?これは、出力データに少量のランダム性を追加することで構成されます。たとえば、Google マップで午後 12 時から午後 1 時までにクライミング ジムに 100 人がいたことが示され、次の 1 時間には 101 人になったとします。攻撃者は何らかの方法でこれら 2 つのデータ グループを比較し、追加の人物を隔離してその身元を明らかにする可能性があります。

しかし、差分機密性によって発生するノイズのおかげで、これは不可能になります。たとえば、Google マップでは、最初の 1 時間には 99 人がいたが、2 番目の時間帯には 103 人がいたことが実際に表示されます。

精度と機密性の間の適切な妥協点を見つける

最終的には、データの精度が低く、潜在的に期待できる精度が低くても、クライミング ジムが混雑しているなど、関心のある情報は得られます。同時に、表示されるデータが特定の人物に応じて変化しないため、ハッカーが特定の人物の身元を特定することは決してできません。

したがって、Google マップによって配信されるデータは、プライバシーをより適切に保護するために、意図的に少し曖昧になっています。この件に関して、ダミアン・デフォンテーヌ氏は、追加されるノイズは必然的に処理されるデータ量に依存するため、精度と機密性の間の適切な妥協点を常に見つけなければならないと説明しています。

言い換えれば、Google マップ上に表示される場所の混雑状況に関するデータは、そこにいた人の正確な数を転写するものではなく、自分のアカウントを見つけるのに十分現実に近い、そして十分に曖昧な傾向を与えるものです。全員のプライバシーが守られること。

なぜその方が良いのでしょうか?

データの匿名化は複雑な問題ではないと考えているため、まったく正当な質問をする人もいるかもしれません。「なぜこのような苦労をするのですか?」結局のところ、この問題に興味があるとき、最初に直感的に思うのは、ユーザーを識別するすべての要素 (姓、名、年齢など) をデータベースから削除すれば十分であると考えることです。金、 "それで十分だと信じるのは危険です» とダミアン・デフォンテーヌは反論する。

確かに、このような単純な方法では、悪意のあるハッカーにとって常に比較的簡単に攻撃が行われることを理解する必要があります。匿名化を解除する潜在的なターゲット。 Netflix は非常にわかりやすい例を提供しています。

2006 年、同社は 50 万人の加入者によって割り当てられた 1 億件を超える評価を公開しました。 Netflix は、このデータに基づいて、同社が設立した DVD 推奨システム(翌年作成する予定)を改善できる開発者に賞金を提供します。有名なSVoDプラットフォーム。このデータベースにはユーザーの名前と個人情報が明らかに消去されていました。

それで十分だと信じるのは危険だ

しかし、このような努力にもかかわらず、2人の研究者、アルビンド・ナラヤナンとヴィタリー・シュマチコフは、多数のNetflix顧客を特定することができました。。彼らは、同社のデータベースを非常に広範なサイト IMDb (インターネット ムービー データベース) のデータベースと比較しました。

プロファイルがさまざまな映画に評価を割り当てる方法は、特にトップ 10 の人気長編映画ではない場合、非常に独特です。 Netflix 上の匿名化されたプロフィールによって与えられた評価と、IMDb 上の匿名化されていないプロフィールによって与えられた評価との間の一致を見つけることによって、2 人の研究者は、人物の身元を非常に簡単に発見しました。

したがって、Netflix の努力は十分ではありませんでした。ダミアン・デフォンテーヌ氏は、この運用方法の欠陥が証明された他の例も挙げています。今回のように、その結​​果は非常に深刻になる可能性があります。米国ワシントン州の病院からの患者の医療データマスコミに掲載された記事から推測できます。

病院データベースは匿名化されているにもかかわらず、報道記事を通じて患者の身元を知ることができました (画像クレジット: Technology Science、Latanya Sweeney 博士)。

Damien Desfontanes 氏は、単純に集計することも可能であると説明しています。つまり、共通点で結ばれた人々のグループを作るということです。これにより、個人を特定できるその他すべての情報が保護されながら、1 つの個人情報が明らかになります。たとえば、午後 12 時のクライミング ジムには、フランス人 30 人、ベルギー人 12 人、ドイツ人 5 人がいると言えます。これらのグループを構成するメンバーは明らかにされません。

博士課程の学生は、これは良いスタートではあるが、解決策は完璧ではないと説明しています。実際、データベースが午後 1 時に 6 人のドイツ人がいることを示している場合、新しく到着したのはドイツ人であると推測することができます。したがって、後者はより識別可能になり、より暴露されやすくなります。

ダミアン・デフォンテーヌ氏は、場合によっては、100 個の異なるアカウントを集約すると、ハッカーが被害者を隔離し、どのデータが自分に対応するかを正確に知るためには、99 個の偽のアカウントを作成するだけで十分であると説明しています。

したがって、集約は興味深いソリューションですが、欠点もあります。たとえこれを悪用するのが難しいとしても、それは弱点です。

差分プライバシーの課題

逆に、特に Google マップに適用される差分プライバシーは、「正式な保証» 個人のアイデンティティの保護について、「補助データベースがあっても»、ダミアン・デフォンテーヌを擁護。研究者は、それを実践するのが簡単ではないことを認めています。

すでに、データ収集に差分プライバシーを適用する場合、実装が不適切であったり、考慮する必要があるすべての微妙な点が原因で、多くのことがうまくいかない可能性があります。堅牢なコードを使用することが絶対に必要です。

また、機密性はいくつかの科学的研究の対象となっています。このおかげで、原則は常によりよく理解され、習得されます。しかし、ダミアン・デフォンテーヌ氏が指摘するように、研究に適用された多くの要素は実際には間違っていることが判明します。

«研究の本質的な動機は、必ずしも具体的な事例に対応することではない», Googleマネージャーが解説します。最後に、ダミアン・デフォンテーヌ氏は、この分野の研究者の数はまだ比較的少ないため、この分野の進歩は自然に速いスピードで進むことはできないと説明しています。

差分プライバシーの採用

ダミアン・デフォンテーヌはこう説明する。Googleはオープンソースコードを提供しています」テスト済みで堅牢»より多くのプラットフォームで差分プライバシーが確実に採用されるようにするため。マウンテンビュー会社はまた、一般の人々の意識を高めるために、この問題についてさらに情報を発信する予定だ。すでに公式ブログに記事が掲載されています

これまで見てきたように、この原則は Google マップに適用されますが、Apple は iOS および macOS キーボードで収集されたデータに対しても同じことを行っています。機械学習テクニックも使います。重要な事実: 2020 年のアメリカの国勢調査でも、国民のプライバシーを保護するために差分機密性が使用されます。

ダミアン・デフォンテーヌ氏(右)と、Google の Private Join & Compute チームの開発者であるミハエラ・イオン氏。

Google が強調したいもう 1 つの取り組みにも注目してみましょう。プライベート参加とコンピューティング。これは 40 年前に誕生したプロトコルで、2 つ以上のエンティティが他の当事者と情報を共有せずに共通のデータから統計を計算する場合に使用されます。

2 つの原則の混同を避けるために、差分機密保持は、一方の当事者が個人に関する情報を明らかにせずにデータを公開したい場合に使用され、この原則は 13 年前に登場し始めたことを覚えておいてください。

Private Join & Compute の一環として、Google はまた、オープンソースの息子コード物事が前進することを願って。最後に、さらに詳しく読むために、ぜひ読んでください。Numerama の同僚からの素晴らしいファイル、ダミアン・デフォンテーヌとの会話にも参加しました。


Twitch ショー「SURVOLTÉS」隔週水曜日の午後 5 時から午後 7 時までです。電気自動車や電動自転車、ディベート、インタビュー、分析、ゲームなどについてお話しましょう。