كيف تعرف خرائط جوجل ما تفعله دون إظهار هويتك

تقوم خرائط جوجل بجمع العديد من البيانات حول مستخدميها من أجل استخدامها في تطبيقها. فكيف يمكن للتطبيق ضمان عدم المساس بخصوصية الأفراد؟ بفضل السرية التفاضلية التي تضيف "الضجيج" إلى المعلومات التي تم جمعها. وإليك كيف يعمل.

بالتأكيد،أثناء ضربات RATP وSNCF، لم تثبت خرائط Google أنها أفضل تطبيق للملاحةللوصول بأمان إلى وجهتك في الوقت المحدد. ومع ذلك، إذا أغفلنا هذا الخطأ البسيط، فإن خدمة رسم الخرائط الشهيرة مليئة بالميزات التي أصبحت شبه ضرورية للعديد من المستخدمين.

على سبيل المثال،خرائط جوجلقادر على إخبارك بمدى شعبية طبق ما في قائمة المطعم أو مدى انشغال مكان ما (متحف، سينما، صالة ألعاب رياضية، وما إلى ذلك) في وقت معين. ومع ذلك، للقيام بذلك، تحتاج جوجل إلى بياناتك، لكن العملاق الأمريكي يريد أيضًا طمأنة الأشخاص الذين يستخدمون منصته من خلال ضمان عدم الكشف عن معلوماتهم الشخصية. وهنا يأتي مفهوم مهم:السرية التفاضلية.

في خرائط جوجل، يتم جمع البيانات عن الحشود في مكان ما أو عن الوجبات الشعبية في أحد المطاعم باستخدام السرية التفاضلية.

لقد أتيحت لنا الفرصة لمناقشة الأمر مع داميان ديسفونتين، وهو مهندس متخصص في حماية الخصوصية في Google في سويسرا وطالب دكتوراه في المعهد الفيدرالي السويسري للتكنولوجيا في زيورخ. فكرة الخصوصية التفاضلية هي جعل البيانات عامة دون الكشف عن معلومات حول الأفراد المعنيين.

الضوضاء في البيانات الخاصة بك

يبدو المفهوم بسيطًا، لكن تطبيقه في الحالات الملموسة أكثر تعقيدًا مما يبدو. ومع ذلك، فإن هذه الآلية هي التي تسمح لك بالاستفادة من تطبيق خرائط Google الكامل والدقيق للغاية دون الخوف من أن يتمكن طرف ثالث من تخمين المطعم الذي قمت بزيارته أو في أي وقت ذهبت لتناول البيرة في هذا البار في وسط المدينة.

وبعبارة أخرى – وباستخدام مصطلحات داميان ديسفونتين –،تمنع الخصوصية التفاضلية استنتاج بيانات الإدخال من بيانات الإخراج. صور خرائط جوجل :

  • بيانات الإدخال = هوية المستخدمين الذين زاروا هذا الموقع في ذلك الوقت
  • بيانات الإخراج = رسم بياني يشير إلى ثراء المكان المذكور في الوقت المذكور

ولتحقيق ذلك، فإن مبدأ السرية التفاضلية هو إضافة “ضجيج” إلى البيانات المنشورة على خرائط جوجل بحيث نضمن أننا إذا قارناها بالبيانات المستخدمة من قبل جوجل، فلن نتمكن من العثور على أدنى توافق من شأنه تحديد هوية شخص ما.

ولكن ماذا يعني "إضافة الضوضاء"؟ يتكون هذا من إضافة جرعة صغيرة من العشوائية إلى بيانات الإخراج. على سبيل المثال، تخيل أن خرائط جوجل تشير إلى وجود 100 شخص في صالة التسلق بين الساعة 12 ظهرًا والساعة 1 ظهرًا، ثم أن هناك 101 شخصًا في الساعة التالية. يمكن للمهاجم بطريقة ما مقارنة هاتين المجموعتين من البيانات وعزل الشخص الإضافي لاكتشاف هويته.

ومع ذلك، وبفضل الضجيج الناتج عن السرية التفاضلية، يصبح هذا مستحيلا. ستشير خرائط جوجل بالفعل، على سبيل المثال، إلى وجود 99 شخصًا في الساعة الأولى، ثم 103 خلال الفترة الزمنية الثانية.

إيجاد الحل الوسط الصحيح بين الدقة والسرية

في النهاية، حتى لو كانت البيانات أقل دقة، وأقل دقة مما يمكن أن تكون عليه، فلا يزال لديك المعلومات التي تهمك: صالة التسلق الرياضية مزدحمة. وفي الوقت نفسه، لا يستطيع المتسلل أبدًا عزل هوية شخص معين، وذلك ببساطة لأن البيانات المعروضة لا تتغير اعتمادًا على ذلك الشخص المعين.

وبالتالي فإن البيانات التي تقدمها خرائط Google غامضة بعض الشيء عن عمد من أجل حماية الخصوصية بشكل أفضل. وفي هذا الموضوع، يوضح داميان ديسفونتين أن الضجيج الإضافي يعتمد بالضرورة على كمية البيانات المعالجة وأنه يجب علينا دائمًا إيجاد الحل الوسط الصحيح بين الدقة والسرية.

بمعنى آخر، فإن البيانات المتعلقة بحشود المكان الذي تراه على خرائط جوجل لا تسجل العدد الدقيق للأشخاص الذين كانوا هناك، بل تعطي اتجاهًا قريبًا بدرجة كافية من الواقع لتتمكن من العثور على حسابك وغامضًا بدرجة كافية لذلك أن يتم الحفاظ على خصوصية الجميع.

لماذا هو أفضل؟

قد يعتقد بعض الأشخاص أن إخفاء هوية البيانات ليس أمرًا معقدًا، وبالتالي يطرحون سؤالًا مشروعًا تمامًا: لماذا نواجه كل هذه المشاكل؟ بعد كل شيء، عندما نكون مهتمين بهذه المشكلة، فإن الغريزة الأولى هي بلا شك الاعتقاد بأنه يكفي إزالة جميع العناصر التي تحدد هوية المستخدم من قاعدة البيانات (اللقب، والاسم الأول، والعمر، وما إلى ذلك). ذهب، "فمن الخطورة الاعتقاد بأن هذا يكفي"، يرد داميان ديسفونتين.

من الضروري بالفعل أن نفهم أنه باستخدام هذه الطريقة المبسطة، سيكون من السهل نسبيًا على المتسلل الخبيث أنقم بإلغاء تحديد الهويةهدف محتمل. تقدم لنا Netflix مثالاً واضحًا إلى حد ما.

في عام 2006، نشرت الشركة أكثر من 100 مليون تقييم تم تخصيصها من قبل 500000 مشترك. تقدم Netflix بعد ذلك جائزة للمطورين القادرين، من خلال هذه البيانات، على تحسين نظام توصية أقراص DVD الذي أنشأته الشركة التي ستنشئه في العام التاليمنصة SVoD الشهيرة. من الواضح أنه تم مسح قاعدة البيانات هذه من أسماء المستخدمين والمعلومات الشخصية.

ومن الخطر الاعتقاد بأن هذا يكفي

ومع ذلك، وعلى الرغم من هذا الجهد،تمكن الباحثان آرفيند نارايانان وفيتالي شماتيكوف من التعرف على عدد كبير من عملاء Netflix. لقد قاموا بمقارنة قاعدة بيانات الشركة مع قاعدة بيانات الموقع الواسع جدًا IMDb (قاعدة بيانات الأفلام على الإنترنت).

تعد الطريقة التي يقوم بها الملف الشخصي بتعيين التقييمات للأفلام المختلفة فريدة من نوعها تمامًا، خاصة عندما لا يكون من بين أفضل مائة فيلم روائي طويل. من خلال العثور على تطابقات بين التقييمات المقدمة من ملف تعريف مجهول على Netflix وتلك المقدمة من ملف تعريف غير مجهول على موقع IMDb، اكتشف الباحثان هوية الأشخاص بسهولة تامة.

لذلك لم تكن جهود Netflix كافية. يستشهد داميان ديسفونتين أيضًا بأمثلة أخرى أثبتت فيها طريقة العمل هذه عيوبها. العواقب يمكن أن تكون خطيرة للغاية مثل هذه المرة عندما اكتشفنا ذلكالبيانات الطبية للمرضى من المستشفيات في ولاية واشنطن في الولايات المتحدةويمكن استخلاصها من المقالات المنشورة في الصحافة.

على الرغم من إخفاء هوية قواعد بيانات المستشفى، كان من الممكن اكتشاف هوية المريض من خلال مقال صحفي (مصدر الصورة: Technology Science، Dr. Latanya Sweeney).

يوضح داميان ديسفونتين أيضًا أنه من الممكن التجميع ببساطة. وهذا يعني خلق مجموعات من الناس توحدهم نقطة مشتركة. وبالتالي، فإننا نكشف عن جزء واحد من المعلومات الخاصة بينما نحمي جميع المعلومات الأخرى التي يمكنها تحديد هوية الفرد. على سبيل المثال، في صالة التسلق في الساعة 12 ظهرًا، يمكننا القول إن هناك ثلاثين شخصًا فرنسيًا، واثني عشر بلجيكيًا، وخمسة ألمان... دون الكشف أبدًا عن هوية هذه المجموعات.

يوضح طالب الدكتوراه أنها بداية جيدة، لكن الحل ليس مثاليًا. وفي الواقع، إذا أشارت قاعدة البيانات إلى أنه في الساعة الواحدة بعد الظهر، كان هناك ستة ألمان، فمن الممكن استنتاج أن الوافد الجديد ألماني. وبالتالي يصبح الأخير أكثر قابلية للتحديد وأكثر عرضة للخطر.

يوضح داميان ديسفونتين أنه في حالات معينة، إذا قمنا بتجميع 100 حساب مختلف، فسيكون كافيًا أن يقوم المتسلل بإنشاء 99 حسابًا مزيفًا من أجل عزل ضحيته ومعرفة البيانات التي تتوافق معه بالضبط.

وبالتالي فإن التجميع هو حل مثير للاهتمام، ولكن به عيب. وحتى لو كان من الصعب استغلال ذلك، فهو ضعف.

تحديات الخصوصية التفاضلية

وعلى العكس من ذلك، فإن الخصوصية التفاضلية المطبقة على خرائط جوجل، من بين أمور أخرى، توفر "الضمانات الرسمية» بشأن حماية هوية الأفراد، "حتى مع وجود قاعدة بيانات مساعدة»، يدافع عن داميان ديسفونتين. ويدرك الباحث أن تطبيقه ليس بالأمر السهل.

بالفعل، عند تطبيق الخصوصية التفاضلية في جمع البيانات، يمكن أن يحدث الكثير من الأخطاء بسبب التطبيقات السيئة وجميع التفاصيل الدقيقة التي يجب أخذها في الاعتبار. من الضروري للغاية استخدام كود قوي.

كما أن السرية التفاضلية هي موضوع العديد من الأبحاث العلمية. وبفضل هذا، يتم دائمًا فهم المبدأ وإتقانه بشكل أفضل. ومع ذلك، كما لاحظ داميان ديسفونتين، فإن العديد من العناصر المطبقة على البحث يتبين ببساطة أنها خاطئة في الممارسة العملية.

«إن الدافع الجوهري للبحث ليس بالضرورة الاستجابة لحالة محددة»، يوضح مدير جوجل. وأخيرا، يوضح داميان ديسفونتينس أن عدد الباحثين في هذا المجال لا يزال منخفضا نسبيا، لذا فإن التقدم في هذا المجال لا يمكن أن يحدث بطبيعة الحال بسرعة عالية.

اعتماد الخصوصية التفاضلية

يشرح داميان ديسفونتين ذلكجوجل تقدم كود مفتوح المصدر “تم اختباره وقوي»لضمان اعتماد الخصوصية التفاضلية على المزيد من المنصات. وتخطط شركة Mountain View أيضًا للتواصل بشكل أكبر حول هذه القضية لرفع مستوى الوعي العام.لقد تم بالفعل نشر مقال على المدونة الرسمية.

وكما رأينا، يتم تطبيق المبدأ على خرائط جوجل، لكن أبل تفعل الشيء نفسه بالنسبة للبيانات المجمعة على لوحات المفاتيح الخاصة بنظامي التشغيل iOS وmacOS، في حين أن نماذجالتعلم الآلياستخدم أيضًا هذه التقنية. حقيقة مهمة: التعداد السكاني الأمريكي لعام 2020 سيستخدم أيضًا السرية التفاضلية لحماية خصوصية المواطنين.

داميان ديفونتين (على اليمين) إلى جانب ميهايلا أيون، المطور في فريق Private Join & Compute في Google.

دعونا نلاحظ أيضًا مبادرة أخرى أرادت Google تسليط الضوء عليها:الانضمام والحساب الخاص. يعود تاريخ هذا البروتوكول إلى 40 عامًا ويستخدم عندما يرغب كيانان أو أكثر في حساب الإحصائيات من البيانات المشتركة دون مشاركة المعلومات مع أطراف أخرى.

ولتجنب الخلط بين المبدأين، تذكر أن السرية التفاضلية تستخدم عندما يرغب أحد الأطراف في نشر البيانات دون الكشف عن معلومات عن الأفراد، وأن المبدأ بدأ في الظهور منذ 13 عاماً.

كجزء من الانضمام والحساب الخاص، نفذت Google أيضًاكود الابن مفتوح المصدرعلى أمل دفع الأمور إلى الأمام. وأخيرا، للمضي قدما، ندعوك للقراءةالملف الممتاز من زملائنا في Numeramaالذي شارك أيضًا في المحادثة مع داميان ديسفونتين.


عرضنا على Twitch SURVOLTÉS، كل يوم أربعاء من الساعة 5 مساءً حتى 7 مساءً: قابلنا للحديث عن السيارات الكهربائية أو الدراجات الكهربائية، حول المناقشات والمقابلات والتحليلات والألعاب!