KI-Transparenz und Datenschutz

Wie unser KI-System mit deinen Daten umgeht

Wenn du unsere KI-Dienste nutzt, willst du wissen, was mit deinen Daten passiert. Hier erklären wir den gesamten Datenfluss, benennen jeden beteiligten Dienst und verlinken die offiziellen Quellen. Keine Marketing-Versprechen, nur nachprüfbare Fakten.

Datenfluss Schritt für Schritt

1. Deine Eingabe

Du stellst eine Frage oder gibst Text ein, über die Web-Oberfläche, den Teams-Bot oder die API.

2. Erkennung personenbezogener Daten

Bevor der Text unser System verlässt, durchläuft er mehrere parallele Erkennungsmethoden: Mustererkennung für E-Mail, Telefon, IBAN, Kreditkarten und Ausweisnummern aus DE/CH/NL/FR/BE/ES/AT. PII-spezialisierte Namens- und Organisations-Erkennung (GLiNER, multilingual). Adress- und Straßennamen-Erkennung für 30+ Länder. Erkennung von Firmen- und Abteilungs-Abkürzungen. Zusätzlich gleichen wir gegen eine projektspezifische Blacklist (von dir gepflegt) und eine Auto-Blacklist (aus deinen eigenen Daten gelernt) ab.

Alle Erkennungsmethoden laufen gleichzeitig.

3. Pseudonymisierung

Erkannte personenbezogene Daten werden vor der Übergabe an die KI ersetzt. Wir nutzen zwei Ausgabeformate je nach Zielsystem: Tagged-Marker (z. B. [PERSON:a1b2c3d4]) für parsbare APIs und MCP-Konsumenten, plausible Pseudonyme (z. B. „Markus Weber") für natürlichsprachliche LLM-Eingaben wie Chat, Voice und automatisierte E-Mails. Sprachmodelle gehen mit echt aussehenden Namen besser um als mit Bracket-Markern. Telefonnummern und IP-Adressen werden durch offiziell reservierte Drama-/Documentation-Ranges ersetzt (BNetzA-Mobilfunk-Reserve, FCC 555-0100, Ofcom 07700 900, RFC 5737/3849) — bijektive Pseudonyme, die keine realen Anschlüsse oder Hosts treffen können. Hochsensible Finanz-Identifier wie IBAN, Kreditkartennummern, BIC und deutsche Steuer-/Sozial-IDs werden in beiden Modi durch das Sentinel <unterdrückt> ersetzt — niemals durch plausible Fake-Werte, die ein Modell für echte Konten halten könnte.

Michael Berg hat am 15.03. angerufen

[PERSON:a1b2c3d4] hat am [DATUM:e5f6g7h8] angerufen (Tagged-Modus) – oder: Markus Weber hat am 15.03. angerufen (Faker-Modus)

Die Zuordnung wird temporär in Redis gespeichert (rollende TTL von 24 Stunden, ausschließlich im Arbeitsspeicher unseres Servers in Frankfurt). Kein dauerhafter Speicher. Beim Löschantrag (Art. 17 DSGVO) atomar entfernbar. In beiden Modi verlassen Original-Daten unseren Server nie als Klartext.

4. KI-Verarbeitung

Nur der pseudonymisierte Text wird an den KI-Dienst gesendet. Der Dienst sieht keine echten Namen, keine echten Adressen, keine echten Kontaktdaten — je nach Modus entweder Marker oder Pseudonyme.

5. Antwort

Die KI-Antwort kommt mit denselben Markern bzw. Pseudonymen zurück. Unser System setzt die Originaldaten wieder ein, bevor du die Antwort siehst. Du siehst also immer deine echten Werte, nie das pseudonymisierte Zwischenergebnis.

6. Protokollierung mit Beweispflicht

Jeder KI-Aufruf erzeugt einen Eintrag in einem manipulationssicheren Audit-Log: wer hat wann welche Frage gestellt, welcher Anbieter hat geantwortet, wie viele Tokens sind geflossen. Der Klartext landet nie im Log — nur SHA-256-Hashes der Ein- und Ausgaben. Ein Postgres-Trigger blockiert UPDATE und DELETE. Eine Hash-Kette über alle Einträge wird jede Nacht um 3 Uhr automatisch geprüft.

Welche KI-Dienste wir nutzen

Für jeden Dienst sagen wir, was im Vertrag steht, wo der Beleg liegt und was das konkret bedeutet.

Google Gemini API

Bezahlter Zugang

Google verwendet Eingaben und Ausgaben der bezahlten API nicht zur Produktverbesserung oder zum Training von Modellen.

Für Nutzer:innen im EWR, der Schweiz und dem UK gelten diese Schutzbestimmungen auch bei der kostenlosen Stufe.

Logs werden bis zu 55 Tage aufbewahrt und enthalten Anfrage, Antwort und Metadaten. Da unser Projekt mit Billing aktiviert ist, werden diese Logs laut Google nicht zur Produktverbesserung oder zum Modell-Training verwendet.

Der Datenverarbeitungsvertrag ist automatisch Bestandteil der bezahlten Dienste.

Quellen

Nutzungsbedingungen ↗ Datenprotokollierung ↗ Zero Data Retention ↗

Anthropic Claude API

Kommerzieller Zugang

API-Daten werden nicht zum Training von Modellen verwendet. Das ist eine pauschale Richtlinie, kein Opt-out nötig.

Eingaben und Ausgaben werden standardmäßig innerhalb von 30 Tagen gelöscht. Ausnahme: Wenn Sicherheitsklassifikatoren anschlagen, können Daten bis zu 2 Jahre aufbewahrt werden.

Der Datenverarbeitungsvertrag ist automatisch Bestandteil der kommerziellen Nutzungsbedingungen. Er enthält EU-Standardvertragsklauseln (SCCs), Module 2 und 3.

Quellen

Datennutzung für Training ↗ Datenspeicherung ↗ Datenverarbeitungsvertrag ↗ Serverstandorte ↗

Mistral AI

Europäischer Anbieter (Frankreich)

Für die bezahlte API gilt laut Mistral Datenschutzrichtlinie (Abschnitt 3): „we do not use your Input and Output to train our artificial intelligence models when you use Le Chat Enterprise or the paid version of our APIs." Mistral ist ein französisches Unternehmen mit Sitz in Paris, Verarbeitung primär in der EU.

Standard-API laut Datenschutzrichtlinie (Abschnitt 5): Eingabe und Ausgabe werden für die Erzeugung des Outputs und danach für 30 rollende Tage zur Missbrauchserkennung aufbewahrt, sofern Zero Data Retention nicht aktiviert ist. Sonderfälle: Agents-API hält Daten bis zur Account-Löschung; Fine-Tuning-API bis zur expliziten Löschung in Mistral AI Studio.

Der Datenverarbeitungsvertrag (DPA) ist Bestandteil der kommerziellen Mistral-Nutzungsbedingungen. Geltendes Recht laut DPA (Klausel 17): Französisches Recht, Gerichtsstand Frankreich.

Mistral hat seinen Sitz in Frankreich und unterliegt direkt der DSGVO. Standardvertragsklauseln (SCCs) sind dadurch nicht erforderlich. Konkrete Server-Region siehe Mistral-Datenschutzrichtlinie.

Quellen

Datenschutzrichtlinie ↗ Datenverarbeitungsvertrag ↗

OpenAI API

Kommerzieller Zugang

Laut OpenAI: „data sent to the OpenAI API is not used to train or improve OpenAI models (unless you explicitly opt in to share data with us)." Training ist also Opt-in, nicht Opt-out.

Standardrichtlinie laut OpenAI Plattform-Doku: Missbrauchs-Protokolle werden bis zu 30 Tage aufbewahrt, sofern nicht eine längere Aufbewahrung gesetzlich erforderlich ist. Modified Abuse Monitoring und Zero Data Retention sind nach Genehmigung wählbar und schließen Kundeninhalte aus den Protokollen aus.

Aktuelle Einschränkung (Stand Mai 2026): Eine gerichtliche Anordnung im NYT-Verfahren (Magistrate Judge Wang, 13. Mai 2025) zwingt OpenAI, alle Output-Logs unbefristet aufzubewahren. Ausgenommen sind ChatGPT Enterprise, ChatGPT Edu und API-Kunden mit Zero-Data-Retention-Vertrag. OpenAI hat Berufung eingelegt. Konsequenz für unsere Nutzung: Wir versenden OpenAI-Calls aktuell mit pseudonymisierten Inhalten, nicht mit Klartext. Das schützt die Identität der Betroffenen auch unter der Court Order.

Der Datenverarbeitungsvertrag (DPA) ist über die OpenAI-Nutzungsbedingungen verfügbar und enthält EU-Standardvertragsklauseln.

Quellen

Data Controls in der OpenAI-Plattform ↗ Datenverarbeitungsvertrag ↗ OpenAI zur NYT-Anordnung ↗

Was wir nicht tun

Wir speichern keine Gesprächsinhalte im KI-Audit-Log. Nur SHA-256-Hashes der Ein- und Ausgaben werden für den Beweisweg gehalten.

Wir geben keine Kundendaten an Dritte weiter, außer an die oben genannten KI-Dienste, und auch dann nur pseudonymisiert.

Wir nutzen für jeden Anbieter den kostenpflichtigen API-Zugang, der laut Vertrag das Training mit unseren Daten ausschließt. Kostenlose Tier-Optionen, bei denen Anbieter Daten für Modell-Verbesserung verwerten dürfen, kommen bei uns nicht zum Einsatz.

Wir versprechen keine 100% Pseudonymisierung. Kein Erkennungssystem ist perfekt. Deshalb laufen mehrere Schutzschichten gleichzeitig: PII-Erkennung, Blacklists, vertragliche Zusicherungen mit den KI-Anbietern und Verarbeitung über pseudonymisierte Inhalte. Reibung im Erkennungspfad können wir reduzieren, nicht ausschließen.

Unsere Infrastruktur

Server bei dataforest GmbH in Frankfurt am Main

Verschlüsselte Übertragung (TLS 1.2+)

Jeder KI-Aufruf wird in einer manipulationssicheren Audit-Tabelle protokolliert. Postgres-WORM-Trigger blockiert UPDATE und DELETE, eine Hash-Kette pro Quelle wird täglich um 3 Uhr automatisch verifiziert. Bei einem Bruch alarmiert das System sofort die Administratoren.

PII-Zuordnungen: nur temporär in Redis (rollende TTL 24 Stunden), kein dauerhafter Speicher

Recht auf Vergessenwerden (Art. 17 DSGVO): Auf Anfrage löschen wir deine PII-Mappings atomar und dokumentieren den Vorgang mit einem mehrstufigen Beweis-Audit (Start, je Quelle ein Schritt, Abschluss). Diese Lösch-Belege bewahren wir drei Jahre auf, damit wir auch nach Jahren noch belegen können, dass deine Daten verschwunden sind.

Rechtsdokumente

Auftragsverarbeitungsvertrag (AVV) Technische und organisatorische Maßnahmen (TOM) Datenschutzerklärung

Letzte Aktualisierung: 16. Mai 2026

Fragen?

Wenn du Fragen zum Datenschutz in unseren KI-Diensten hast, schreib uns. SCHILLER - Organisation. Digital., Datenschutzbeauftragter:

datenschutz@schiller-partners.de