เมื่อองค์กรต่างๆ รวบรวมและแบ่งปันข้อมูลส่วนบุคคลมากขึ้น ความสามารถในการป้องกันไม่ให้บุคคลถูกระบุตัวตนซ้ำจากชุดข้อมูลจึงเป็นข้อกำหนดหลักด้านความเป็นส่วนตัวและการปฏิบัติตามข้อกำหนด การลบชื่อหรือหมายเลขประจำตัวออกอย่างง่ายๆ มักไม่เพียงพอ การผสมผสานคุณลักษณะที่ดูเหมือนไม่เป็นอันตราย สามารถระบุตัวตนบุคคลได้อีกครั้งเมื่อเชื่อมโยงกับข้อมูลอื่นๆ
โชคดีที่ชุดเทคนิคที่เข้าใจง่ายและกำลังได้รับความนิยมในปัจจุบัน ตั้งแต่การไม่ระบุตัวตนแบบดั้งเดิม ไปจนถึงความเป็นส่วนตัวแบบแยกส่วนและข้อมูลสังเคราะห์ ช่วยให้ผู้ถือข้อมูลลดความเสี่ยงในการระบุตัวตนซ้ำ ในขณะเดียวกันก็ยังคงประโยชน์สำหรับการวิเคราะห์และการเรียนรู้ของเครื่อง บทความนี้จะอธิบายเทคนิคเหล่านี้ ข้อดีข้อเสีย และขั้นตอนปฏิบัติที่คุณสามารถนำไปปฏิบัติได้
ทำไมการทำให้ไม่ระบุตัวตนอย่างแท้จริงจึงเป็นเรื่องยาก
การทำให้เป็นนิรนามมีเป้าหมายเพื่อทำให้ข้อมูลกลายเป็น ข้อมูล ที่ไม่ใช่ข้อมูลส่วนบุคคลอย่างถาวร ในทางปฏิบัติ การทำให้เป็นนิรนามอย่างสมบูรณ์แบบเป็นเรื่องยาก เนื่องจากชุดข้อมูลเสริมและเทคนิคการเชื่อมโยงสมัยใหม่สามารถระบุข้อมูลซ้ำได้ ดังนั้น หน่วยงานกำกับดูแลจึงปฏิบัติต่อเทคนิคบางอย่างแตกต่างกัน (ตัวอย่างเช่น การใช้นามแฝงช่วยลดความเสี่ยง แต่ไม่ได้ทำให้ข้อมูลไม่ใช่ข้อมูลส่วนบุคคลภายใต้ GDPR) และจำเป็นต้องมีการประเมินความเสี่ยงอย่างเข้มงวดก่อนที่จะประกาศว่าข้อมูลเป็นข้อมูลที่ไม่ระบุตัวตน คำแนะนำด้านกฎระเบียบล่าสุดเน้นย้ำว่าการใช้นามแฝงเป็นมาตรการป้องกันที่มีค่า แต่มีความแตกต่างจากการทำให้เป็นนิรนามแบบถาวร
edpb.europa.eu
กลุ่มเทคนิคหลัก
1. การถอดและระงับแบบง่าย
อะไร:ลบตัวระบุโดยตรง (ชื่อ, บัตรประจำตัวประชาชน, หมายเลขโทรศัพท์) และระงับค่าฟิลด์ที่หายากหรือเฉพาะเจาะจง
เมื่อมีประโยชน์:ลดตัวระบุที่ไม่สำคัญได้อย่างรวดเร็วและประหยัด ซึ่งมักจะเป็นขั้นตอนแรก
ข้อจำกัด:ตัวระบุแบบกึ่ง (เช่น อายุ รหัสไปรษณีย์) ยังคงสามารถระบุตัวตนซ้ำได้เมื่ออ้างอิงแบบไขว้
2. การสร้างนามแฝง (การสร้างโทเค็น การแฮชด้วยเกลือ)
อะไร:แทนที่ตัวระบุด้วยนามแฝง (โทเค็น, แฮชแบบ salted) ซึ่งตัดการเชื่อมโยงโดยตรง แต่ยังคงความสามารถในการเชื่อมโยงซ้ำภายใต้เงื่อนไขที่ควบคุมได้
เมื่อมีประโยชน์:ใช้เมื่อคุณต้องการเชื่อมโยงบุคคลเดียวกันข้ามชุดข้อมูลภายใน พร้อมลดการเปิดเผยตัวระบุจริง
ข้อจำกัด:สามารถย้อนกลับได้หาก salts/keys ถูกเปิดเผย ถือเป็นข้อมูลส่วนบุคคลภายใต้กฎหมายหลายฉบับ เว้นแต่จะมีมาตรการเพิ่มเติม คำแนะนำล่าสุดของ EDPB ชี้แจงบทบาทของตัวระบุในฐานะมาตรการป้องกันภายใต้ GDPR แต่ไม่ใช่ในฐานะวิธีการทำให้ไม่ระบุตัวตนอย่างสมบูรณ์
3. การสรุปทั่วไปและการระงับ: k-Anonymity, l-Diversity, t-Closeness
อะไร:แปลง quasi-identifiers เพื่อให้แต่ละเรคคอร์ดแยกไม่ออกจากเรคคอร์ดอื่นๆ อย่างน้อย k-1 รายการ (k-anonymity) l-Diversity และ t-closeness จะช่วยแก้ไขจุดอ่อนของ k-anonymity โดยกำหนดให้มีความหลากหลายในแอตทริบิวต์ที่ละเอียดอ่อนและความแตกต่างของการกระจายแบบมีขอบเขต
เมื่อมีประโยชน์:การแบ่งปันข้อมูลแบบตารางที่คุณสามารถยอมรับการสูญเสียรายละเอียด (เช่น การจัดกลุ่มอายุเป็นช่วง หรือการตัดทอนรหัสไปรษณีย์)
ข้อจำกัด:การสูญเสียอรรถประโยชน์เมื่อ k เพิ่มขึ้น อาจยังคงล้มเหลวกับข้อมูลเสริมที่มีข้อมูลมาก ให้ใช้สิ่งเหล่านี้เป็นส่วนหนึ่งของกรอบการประเมินความเสี่ยง
4. ความเป็นส่วนตัวที่แตกต่างกัน (DP)
อะไร:กรอบการทำงานทางคณิตศาสตร์ที่ให้การรับประกันความเป็นส่วนตัวที่วัดผลได้ โดยรับประกันว่าผลลัพธ์ของแบบสอบถามหรือแบบจำลองจะไม่เปลี่ยนแปลง “มากเกินไป” หากข้อมูลของบุคคลใดบุคคลหนึ่งเปลี่ยนแปลงไป การใช้งานจะเพิ่มสัญญาณรบกวนที่ปรับเทียบอย่างรอบคอบให้กับผลลัพธ์แบบสอบถามหรือขั้นตอนการฝึก (เช่น DP-SGD สำหรับการเรียนรู้ของเครื่อง)
เมื่อมีประโยชน์:การเผยแพร่ทางสถิติ แดชบอร์ดการวิเคราะห์ และการฝึกแบบจำลองการเรียนรู้ของเครื่องเมื่อจำเป็นต้องมีขอบเขตความเป็นส่วนตัวที่พิสูจน์ได้ องค์กรต่างๆ เช่น NIST และบทวิจารณ์ทางวิชาการจะสรุปวิธีการ DP ในทางปฏิบัติและการแลกเปลี่ยน
ข้อจำกัด:การแลกเปลี่ยนระหว่างความเป็นส่วนตัวและประโยชน์ใช้สอย ต้องใช้ความเชี่ยวชาญในการเลือกงบประมาณ (ε) และดำเนินการอย่างถูกต้อง DP ไม่ได้ “ทำให้ข้อมูลดิบไม่ระบุตัวตน” แต่ปกป้องผลลัพธ์
5. การสร้างข้อมูลสังเคราะห์
อะไร:ฝึกแบบจำลองเชิงกำเนิดเพื่อสร้างชุดข้อมูลเทียมที่เลียนแบบคุณสมบัติทางสถิติของข้อมูลต้นฉบับโดยไม่รวมเรกคอร์ดจริง วิธีการสมัยใหม่ประกอบด้วย GAN, VAE และสถาปัตยกรรมเชิงกำเนิดอื่นๆ
เมื่อมีประโยชน์:การแบ่งปันข้อมูลสำหรับการฝึก พัฒนา และวิเคราะห์แบบจำลองเมื่อการเข้าถึงเรกคอร์ดจริงถูกจำกัด ข้อมูลสังเคราะห์สามารถเปิดใช้งานเวิร์กโฟลว์ได้ในขณะที่ยังคงรักษาความเป็นส่วนตัวของเรกคอร์ดเดิมไว้
ข้อจำกัด:ความเป็นส่วนตัวไม่ได้เกิดขึ้นโดยอัตโนมัติ — วิธีการสังเคราะห์ที่ไม่ดีอาจทำให้รายละเอียดของข้อมูลการฝึกอบรมรั่วไหลได้ ยูทิลิตี้อาจลดลงหากโมเดลสังเคราะห์ไม่สามารถจับข้อมูลอ้างอิงที่ซับซ้อนได้ ควรประเมินทั้งความเสี่ยงด้านความเป็นส่วนตัวและยูทิลิตี้ปลายทาง
6. แนวทางการเข้ารหัสและการรวมกลุ่ม
อะไร:การประมวลผลแบบหลายฝ่ายที่ปลอดภัย (MPC), การเข้ารหัสแบบโฮโมมอร์ฟิก และการเรียนรู้แบบรวมศูนย์ ช่วยให้ฝ่ายต่างๆ สามารถประมวลผลข้อมูลได้โดยไม่ต้องรวมศูนย์ข้อมูลดิบ สภาพแวดล้อมการดำเนินการที่เชื่อถือได้ (TEE) และเอนเคลฟที่ปลอดภัยช่วยให้การประมวลผลได้รับการปกป้องจากฮาร์ดแวร์
เมื่อมีประโยชน์:การวิเคราะห์แบบร่วมมือกันระหว่างฝ่ายต่างๆ ที่ไม่สามารถแบ่งปันข้อมูลดิบได้เนื่องจากกฎระเบียบหรือข้อจำกัดทางการค้า
ข้อจำกัด:ต้นทุนการประมวลผลและความซับซ้อนทางวิศวกรรม ต้องสอดคล้องกับกรณีการใช้งาน
กลยุทธ์การลดความเสี่ยงเชิงปฏิบัติ (ท่อส่งที่แนะนำ)
จัดประเภทและย่อขนาด:จัดทำแผนที่เขตข้อมูล ทำเครื่องหมายตัวระบุโดยตรงและตัวระบุกึ่ง และรวบรวมเฉพาะสิ่งที่คุณต้องการ การย่อขนาดให้เล็กที่สุดเป็นวิธีลดความเสี่ยงที่ถูกที่สุด
ใช้เทคนิคแบบเลเยอร์:ผสมผสานวิธีการต่างๆ เช่น ระงับตัวระบุโดยตรง ใช้นามแฝงสำหรับการเชื่อมโยงภายใน และใช้ k-anonymity หรือ generalization สำหรับชุดข้อมูลแบบตารางที่ใช้ร่วมกัน สำหรับการเผยแพร่ทางสถิติหรือ ML ให้เพิ่มความเป็นส่วนตัวแบบดิฟเฟอเรนเชียลหรือใช้การสร้างแบบสังเคราะห์ตามความเหมาะสม การแบ่งเลเยอร์ช่วยลดโอกาสที่ความล้มเหลวเพียงครั้งเดียวจะทำให้เกิดการระบุซ้ำ
ประเมินความเสี่ยงจากการระบุตัวตนซ้ำ:ใช้ตัวชี้วัดอย่างเป็นทางการและการจำลองสถานการณ์ (เช่น การโจมตีแบบเชื่อมโยงโดยใช้ชุดข้อมูลสาธารณะ) เพื่อประเมินความเสี่ยงและบันทึกสมมติฐาน ตัวชี้วัดแบบคลาสสิก (กลุ่ม k-anonymity) และ ε ของ DP ให้มุมมองที่เสริมซึ่งกันและกัน
ใช้ความเป็นส่วนตัวตามการออกแบบและการกำกับดูแลที่เข้มงวด:จำกัดการเข้าถึง ใช้การเข้ารหัสทั้งขณะส่งและขณะพัก จัดการคีย์ บันทึกการเข้าถึง และแยกเกลือ/คีย์ที่ใช้แทนตัวตนออกจากกันและควบคุมอย่างเข้มงวด ปฏิบัติตามคำแนะนำทางกฎหมาย (เช่น คำแนะนำของ GDPR/หน่วยงานกำกับดูแลของสหภาพยุโรป) เพื่อให้การควบคุมสอดคล้องกับข้อกำหนดทางกฎหมาย
ทดสอบด้วยสถานการณ์ที่เป็นปฏิปักษ์:จำลองการโจมตีเพื่อระบุตัวตนที่สมจริงเป็นระยะๆ โดยเชื่อมโยงกับชุดข้อมูลภายนอกที่เป็นไปได้ เพื่อตรวจสอบการป้องกัน
ตรวจสอบและอัปเดต:ประเมินใหม่เมื่อมีชุดข้อมูลเสริมหรือการโจมตีใหม่ๆ เกิดขึ้น ความเป็นส่วนตัวแบบดิฟเฟอเรนเชียลมีความน่าสนใจตรงนี้ เพราะให้การรับประกันที่พิสูจน์ได้ว่าจะป้องกันข้อมูลเสริมโดยพลการสำหรับเอาต์พุตที่ได้รับการปกป้องภายใต้ DP
การเลือกเทคนิคที่เหมาะสม (คู่มือการตัดสินใจสั้น ๆ )
คุณต้องเผยแพร่สถิติรวมหรือเปิดเผยผลการวิเคราะห์:พิจารณาความเป็นส่วนตัวที่แตกต่างกันสำหรับการรับประกันอย่างเป็นทางการ มิฉะนั้น ให้ใช้การรวมและการระงับที่เข้มงวด
คุณต้องแบ่งปันข้อมูลตารางเพื่อการวิจัย/วิเคราะห์:ใช้ชื่อปลอม + k-anonymity/l-diversityและดำเนินการทดสอบความเสี่ยงในการระบุตัวตนใหม่
คุณต้องจัดเตรียมข้อมูลสำหรับการฝึกอบรม ML โดยไม่เปิดเผยบันทึก:ประเมิน การสร้าง ข้อมูลสังเคราะห์ (ด้วยการประเมินความเป็นส่วนตัวและยูทิลิตี้) หรือใช้DP-SGDสำหรับการฝึกอบรมโดยตรง
คุณกำลังทำงานร่วมกันระหว่างองค์กรที่ไม่สามารถย้ายข้อมูลดิบได้:ใช้การเรียนรู้แบบรวม , MPCหรือระบบรักษาความปลอดภัย
รายการตรวจสอบการดำเนินการ (ปฏิบัติการ)
จัดทำรายการ PII/ตัวระบุกึ่งหนึ่งและเอกสารฐานทางกฎหมายสำหรับการประมวลผล
ลบตัวระบุโดยตรง ใช้การสร้างโทเค็นด้วยการจัดการคีย์ที่ปลอดภัยในกรณีที่ต้องมีการเชื่อมโยงใหม่อีกครั้ง
เลือกโมเดลความเป็นส่วนตัวสำหรับกรณีการใช้งาน (กลุ่ม k-anonymity, DP, ข้อมูลสังเคราะห์) และบันทึกพารามิเตอร์ที่เลือก (เช่น ค่า k, DP ε)
ดำเนินการจำลองการโจมตีการเชื่อมโยงและบันทึกข้อมูลการวัดความเสี่ยงในการระบุตัวตนใหม่
ปฏิบัติตามการควบคุมการเข้าถึง การตรวจสอบ และการบันทึกข้อมูล แยกหน้าที่กัน (เช่น ผู้ถือคีย์กับนักวิเคราะห์)
รักษาแหล่งที่มาของข้อมูลและบันทึกการแปลงเพื่อการทำซ้ำและการตรวจสอบ
ประเมินใหม่เป็นระยะและหลังจากการเปลี่ยนแปลงครั้งใหญ่ต่อความพร้อมใช้งานของข้อมูลเสริม
หลุมพรางทั่วไปที่ควรหลีกเลี่ยง
สมมติว่า “ชื่อแฮช” ไม่ระบุตัวตน:การแฮชแบบไม่มีเกลือหรือแบบเปิดเผยเกลือสามารถย้อนกลับได้โดยใช้การโจมตีแบบดิกชันนารี ให้ใช้แฮชแบบเกลือหรือโทเค็นไนเซชัน และจัดเก็บเกลือ/คีย์แยกต่างหาก
ความมั่นใจมากเกินไปหลังจากใช้เทคนิคเดียว:ไม่มีวิธีการใดวิธีหนึ่งที่ปลอดภัยสำหรับทุกคน ควรใช้วิธีการผสมผสานกัน และตัดสินใจโดยพิจารณาจากความเสี่ยงที่วัดได้
การเพิกเฉยต่อความต้องการด้านสาธารณูปโภค:การแปลงที่มากเกินไป (การสรุปทั่วไปมากเกินไป) อาจทำลายคุณค่าการวิเคราะห์ มุ่งเป้าไปที่ความสมดุลและทดสอบงานปลายน้ำ
การข้ามการควบคุมการกำกับดูแลและการปฏิบัติงาน:การแก้ไขทางเทคนิคล้มเหลวหากไม่มีการจัดการคีย์ที่เข้มแข็ง นโยบายการเข้าถึง และบันทึกการตรวจสอบ
การวัดผลความสำเร็จ
ความสำเร็จวัดความเสี่ยงในการระบุตัวตนซ้ำที่ต่ำอย่างเห็นได้ชัดภายใต้แบบจำลองคู่ต่อสู้ที่กำหนดไว้ ประโยชน์ที่ได้รับสำหรับภารกิจที่ตั้งใจไว้และการปฏิบัติตามข้อกำหนดทางกฎหมาย/ข้อบังคับที่เกี่ยวข้อง ใช้ทั้งการทดสอบเชิงประจักษ์ (การจำลองแบบเชื่อมโยง) และขอบเขตอย่างเป็นทางการจากความเป็นส่วนตัวที่แตกต่างกัน
วิศวกรรมความเป็นส่วนตัวสมัยใหม่สนับสนุนการป้องกันแบบหลายชั้นได้แก่ ลดการเก็บรวบรวมข้อมูลให้เหลือน้อยที่สุด ลบตัวระบุโดยตรง ใช้นามแฝงสำหรับการเชื่อมโยงภายใน ใช้วิธีการทางสถิติ (กลุ่ม k-anonymity) ตามความเหมาะสม และนำความเป็นส่วนตัวที่แตกต่างกันหรือข้อมูลสังเคราะห์ที่ผ่านการตรวจสอบความถูกต้องแล้วมาปรับใช้สำหรับการเผยแพร่สู่สาธารณะและการฝึกอบรมแบบจำลอง เสริมมาตรการทางเทคนิคด้วยการกำกับดูแล ได้แก่ การจัดการคีย์ การควบคุมการเข้าถึง การตรวจสอบทางกฎหมาย และการทดสอบอย่างต่อเนื่อง คำแนะนำด้านกฎระเบียบ (โดยเฉพาะจากหน่วยงานของสหภาพยุโรป) มีความชัดเจนมากขึ้นเกี่ยวกับความแตกต่างระหว่างนามแฝงและนิรนาม ดังนั้นควรบันทึกการตัดสินใจและสมมติฐานอย่างรอบคอบ
