Technischer Leitfaden

PII-Pseudonymisierung: Personenbezogene Daten automatisch erkennen und ersetzen

PII (Personally Identifiable Information) umfasst alle Daten, die eine Person identifizierbar machen: Namen, E-Mails, Telefonnummern, Adressen, Bankdaten. Pseudonymisierung ersetzt diese Daten durch Platzhalter — eine Schutzmaßnahme, die die DSGVO ausdrücklich empfiehlt.

Was bedeutet PII?

PII steht für "Personally Identifiable Information" — personenbezogene Daten im Sinne der DSGVO (Art. 4 Nr. 1). Jede Information, die sich auf eine identifizierte oder identifizierbare natürliche Person bezieht, fällt darunter.

Häufige PII-Typen in Unternehmensdaten

PII-Typ Beispiel Pseudonym (Token) Pseudonym (realistisch)
Personenname Max Müller PERSON-a7f3 Tom Becker
E-Mail max@firma.de EMAIL-d4e5 tom@web.de
Telefon +49 170 1234567 PHONE-c3b9 +49 183 9876543
IBAN DE89 3704 0044 0532 0130 00 IBAN-e1d2 DE71 5001 0517 5407 3249 31
Adresse 10115 Berlin ADDR-f6a8 14570 Uelzen
Firma Müller GmbH ORG-b2c1 Nexus AG

Warum Pseudonymisierung statt Anonymisierung?

Anonymisierung entfernt den Personenbezug unwiderruflich — die Daten sind danach für viele Anwendungsfälle unbrauchbar. Pseudonymisierung hingegen ist umkehrbar: Die Zuordnung zwischen Pseudonym und echten Daten wird separat gespeichert und kann bei Bedarf wiederhergestellt werden.

Für KI-Anwendungen ist Pseudonymisierung ideal: Die KI arbeitet mit Pseudonymen (kein Datenschutzrisiko), die Antwort wird automatisch mit den echten Daten zurückübersetzt (volle Funktionalität erhalten).

Drei Erkennungsstufen bei pii-cloak

Stufe 1: JSON-Feldanalyse

Erkennt personenbezogene Daten anhand von Feldnamen in strukturierten Daten. 27+ bekannte Feldnamen wie name, email, phone, iban, street, city.

Stufe 2: Regex-Pattern-Matching

Findet PII anhand von Mustern: E-Mail-Adressen, Telefonnummern (deutsch + international), IBANs, BICs, PLZ+Stadt-Kombinationen (2.000+ deutsche Städte), Firmennamen mit Rechtsform.

Stufe 3: KI-gestützte Namenserkennung (NER)

Named Entity Recognition mit dem deutschen spaCy-Modell de_core_news_lg erkennt Personen-, Firmen- und Ortsnamen auch in Fließtext und Kleinschreibung — Fälle, die reine Regex-Muster nicht abdecken.

Zwei Pseudonym-Stile

pii-cloak unterstützt zwei Pseudonymisierungsstile, steuerbar per API-Header:

Token-Style (Standard)

Kompakte Pseudonyme wie PERSON-a7f3. Eindeutig und platzsparend. Ideal für API-Kommunikation.

Realistischer Style

Längenerhaltende Fake-Daten wie Tom Becker statt Max Müller. Bewahrt das Layout — ideal für PDFs und Dokumente.

PII-Pseudonymisierung live testen

Geben Sie einen Text mit personenbezogenen Daten ein und sehen Sie sofort, was die KI erhalten würde.

Weiterführende Artikel