PII-Pseudonymisierung: Personenbezogene Daten automatisch erkennen und ersetzen
PII (Personally Identifiable Information) umfasst alle Daten, die eine Person identifizierbar machen: Namen, E-Mails, Telefonnummern, Adressen, Bankdaten. Pseudonymisierung ersetzt diese Daten durch Platzhalter — eine Schutzmaßnahme, die die DSGVO ausdrücklich empfiehlt.
Was bedeutet PII?
PII steht für "Personally Identifiable Information" — personenbezogene Daten im Sinne der DSGVO (Art. 4 Nr. 1). Jede Information, die sich auf eine identifizierte oder identifizierbare natürliche Person bezieht, fällt darunter.
Häufige PII-Typen in Unternehmensdaten
| PII-Typ | Beispiel | Pseudonym (Token) | Pseudonym (realistisch) |
|---|---|---|---|
| Personenname | Max Müller | PERSON-a7f3 | Tom Becker |
| max@firma.de | EMAIL-d4e5 | tom@web.de | |
| Telefon | +49 170 1234567 | PHONE-c3b9 | +49 183 9876543 |
| IBAN | DE89 3704 0044 0532 0130 00 | IBAN-e1d2 | DE71 5001 0517 5407 3249 31 |
| Adresse | 10115 Berlin | ADDR-f6a8 | 14570 Uelzen |
| Firma | Müller GmbH | ORG-b2c1 | Nexus AG |
Warum Pseudonymisierung statt Anonymisierung?
Anonymisierung entfernt den Personenbezug unwiderruflich — die Daten sind danach für viele Anwendungsfälle unbrauchbar. Pseudonymisierung hingegen ist umkehrbar: Die Zuordnung zwischen Pseudonym und echten Daten wird separat gespeichert und kann bei Bedarf wiederhergestellt werden.
Für KI-Anwendungen ist Pseudonymisierung ideal: Die KI arbeitet mit Pseudonymen (kein Datenschutzrisiko), die Antwort wird automatisch mit den echten Daten zurückübersetzt (volle Funktionalität erhalten).
Drei Erkennungsstufen bei pii-cloak
Stufe 1: JSON-Feldanalyse
Erkennt personenbezogene Daten anhand von Feldnamen in strukturierten Daten. 27+ bekannte Feldnamen wie name, email, phone, iban, street, city.
Stufe 2: Regex-Pattern-Matching
Findet PII anhand von Mustern: E-Mail-Adressen, Telefonnummern (deutsch + international), IBANs, BICs, PLZ+Stadt-Kombinationen (2.000+ deutsche Städte), Firmennamen mit Rechtsform.
Stufe 3: KI-gestützte Namenserkennung (NER)
Named Entity Recognition mit dem deutschen spaCy-Modell de_core_news_lg erkennt Personen-, Firmen- und Ortsnamen auch in Fließtext und Kleinschreibung — Fälle, die reine Regex-Muster nicht abdecken.
Zwei Pseudonym-Stile
pii-cloak unterstützt zwei Pseudonymisierungsstile, steuerbar per API-Header:
Token-Style (Standard)
Kompakte Pseudonyme wie PERSON-a7f3. Eindeutig und platzsparend. Ideal für API-Kommunikation.
Realistischer Style
Längenerhaltende Fake-Daten wie Tom Becker statt Max Müller. Bewahrt das Layout — ideal für PDFs und Dokumente.
PII-Pseudonymisierung live testen
Geben Sie einen Text mit personenbezogenen Daten ein und sehen Sie sofort, was die KI erhalten würde.