KI-Sicherheit

Inhaltsmoderation & Sicherheit - ISMS Copilot

ISMS Copilot verwendet eine automatisierte Inhaltsmoderation, um unangemessene oder schädliche Inhalte in Chat-Nachrichten zu erkennen und zu verhindern. Dieser Prozess läuft im Hintergrund ab, um eine sichere und rechtskonforme Umgebung für alle Benutzer aufrechtzuerhalten, während Ihre Privatsphäre und die Geschwindigkeit Ihrer Arbeitsabläufe gewahrt bleiben.

Die Moderation erfolgt asynchron, nachdem Sie eine Nachricht gesendet haben — sie verursacht keinerlei Latenz für Ihr Chat-Erlebnis.

Wie die Moderation funktioniert

Wenn Sie eine Chat-Nachricht senden, speichert ISMS Copilot diese sofort und liefert Ihre KI-Antwort ohne Verzögerung. Parallel dazu läuft im Hintergrund eine Inhaltsmoderationsprüfung ab:

  1. Nachricht analysiert — Ihre Nachricht wird an eine Moderations-API gesendet (standardmäßig OpenAI, Mistral AI für Nutzer des erweiterten Datenschutzes)

  2. Kategorien geprüft — Die API scannt nach Richtlinienverstößen, einschließlich Hassrede, Belästigung, Gewalt, Selbstbehandlung und anderen schädlichen Inhalten

  3. Ergebnis protokolliert — Das Moderationsergebnis wird in unseren Audit-Logs mit Kategorie-Scores und Zeitstempeln gespeichert

  4. Admins alarmiert — Wenn Inhalte gemeldet werden, erhält unser Team einen automatischen Alarm zur Überprüfung

Dieser Prozess ist vollständig automatisiert und erfolgt nach dem Prinzip „Fire-and-Forget“ — Ihr Chat wird ohne Unterbrechung fortgesetzt.

Moderations-Anbieter

ISMS Copilot verwendet je nach Ihren Datenschutzeinstellungen unterschiedliche Moderations-APIs:

  • OpenAI Moderation API — Standard für alle Benutzer. Prüft auf: sexuelle Inhalte, Hass, Belästigung, Gewalt, Selbstschädigung

  • Mistral AI Moderation API — Wird verwendet, wenn der erweiterte Datenschutz aktiviert ist. Prüft auf: sexuelle Inhalte, Hass und Diskriminierung, Gewalt und Drohungen, gefährliche und kriminelle Inhalte, Selbstschädigung, Gesundheit, Finanzen, Recht, personenbezogene Daten (PII)

Die Kategorien von Mistral umfassen Prüfungen zu Gesundheit, Finanzen, Recht und PII. Diese können gelegentlich legitime Diskussionen über ISMS-Compliance kennzeichnen. Unser Team überprüft alle Warnmeldungen, um Fehlalarme zu vermeiden.

Erweiterter Datenschutz und Moderation

Wenn Sie den erweiterten Datenschutz aktiviert haben, werden Ihre Chat-Nachrichten normalerweise nicht auf unseren Servern gespeichert oder an Drittanbieter von KI gesendet. Die Inhaltsmoderation stellt jedoch eine Ausnahme dar:

  • Saubere Nachrichten — Nachrichteninhalt wird NICHT gespeichert; nur Metadaten und Moderations-Scores werden für 30 Tage aufbewahrt

  • Gekennzeichnete Nachrichten — Der vollständige Inhalt wird immer für 1 Jahr gespeichert und in Administrator-Meldungen aufgenommen, unabhängig von der ADP-Einstellung

Sicherheits-Override: Gekennzeichnete Inhalte werden immer gespeichert und mit unserem Team geteilt, auch wenn der erweiterte Datenschutz aktiviert ist. Dies ist für die Einhaltung gesetzlicher Vorschriften, die Missbrauchsprävention und die Aufrechterhaltung der Plattform-Sicherheit für alle Nutzer erforderlich.

Dieser Override basiert auf dem berechtigten Interesse gemäß DSGVO Artikel 6(1)(f) — die Schadensverhütung und die Durchsetzung unserer Richtlinie zur akzeptablen Nutzung ist ein berechtigtes Interesse, das in gemeldeten Fällen individuelle Datenschutzpräferenzen überwiegt.

Datenaufbewahrung

Moderationsereignisse werden nach folgendem Zeitplan aufbewahrt:

  • Nicht gemeldete Ereignisse — Metadaten und Moderations-Scores werden für 30 Tage aufbewahrt; Nachrichteninhalt wird NICHT gespeichert

  • Gekennzeichnete Ereignisse — Der vollständige Nachrichteninhalt und die Metadaten werden für 1 Jahr zu Prüfungs- und Compliance-Zwecken aufbewahrt

Der Inhalt gekennzeichneter Nachrichten kann länger aufbewahrt werden, wenn dies für laufende Untersuchungen, Gerichtsverfahren oder regulatorische Verpflichtungen erforderlich ist.

Was passiert, wenn Inhalte gekennzeichnet werden

Wenn die Moderations-API Ihre Nachricht als potenziellen Verstoß gegen unsere Richtlinien kennzeichnet:

  1. Alarm gesendet — Unser Admin-Team erhält eine Webhook-Benachrichtigung mit den gekennzeichneten Kategorien, dem Zeitstempel und einer Nachrichtenvorschau

  2. Menschliche Überprüfung — Ein Teammitglied überprüft die Nachricht und den Kontext, um zu bestätigen, ob ein Verstoß gegen unsere Richtlinie zur akzeptablen Nutzung vorliegt

  3. Maßnahme (falls bestätigt) — Wir können Sie kontaktieren, eine Warnung aussprechen, Funktionen einschränken oder Ihr Konto kündigen, abhängig von der Schwere und wiederholten Verstößen

  4. Fehlalarme — Wenn die Kennzeichnung nicht korrekt war (z. B. eine legitime Compliance-Diskussion), werden keine Maßnahmen ergriffen

Rate Limiting: Sie können pro Stunde nur einen Moderationsalarm auslösen. Weitere gekennzeichnete Nachrichten innerhalb dieses Zeitfensters werden protokolliert, erzeugen aber keine doppelten Alarme.

Datenschutz und Transparenz

Wir verpflichten uns zur Transparenz über unsere Moderationspraktiken:

  • Keine stille Zensur — Wir blockieren oder filtern Ihre Nachrichten nicht in Echtzeit. Die Moderation dient der Durchsetzung der Sicherheit, nicht der Inhaltskontrolle

  • Drittverarbeiter — OpenAI (USA-basiert) und Mistral AI (Frankreich-basiert) fungieren ausschließlich für die Moderation als Unterauftragsverarbeiter. Details finden Sie in unserem Verzeichnis von Verarbeitungstätigkeiten

  • Vollständige Offenlegung — Diese Richtlinie und unsere Datenschutzerklärung dokumentieren alle Moderationsdatenflüsse und Rechtsgrundlagen

Rechtsgrundlage

Die Inhaltsmoderation basiert auf:

  • Berechtigtes Interesse (DSGVO Art. 6(1)(f)) — Missbrauch verhindern, unsere Bedingungen durchsetzen und die Sicherheit der Plattform gewährleisten

  • Vertragliche Notwendigkeit (DSGVO Art. 6(1)(b)) — Durchsetzung unserer Nutzungsbedingungen und unserer Richtlinie zur akzeptablen Nutzung

  • Rechtliche Verpflichtung (DSGVO Art. 6(1)(c)) — Erfüllung geltender Gesetze, die die Entfernung oder Meldung illegaler Inhalte erfordern

Ihre Rechte

Gemäß DSGVO haben Sie Rechte bezüglich Ihrer Moderationsdaten:

  • Auskunft — Anforderung von Kopien der mit Ihrem Konto verknüpften Moderationsereignisse

  • Berichtigung — Anforderung der Korrektur ungenauer Moderationsdatensätze

  • Löschung — Anforderung der Löschung nicht gekennzeichneter Moderationsdaten (gekennzeichnete Daten können zur Einhaltung gesetzlicher Vorschriften aufbewahrt werden)

  • Widerspruch — Widerspruch gegen die Moderationsverarbeitung, wobei wir diese fortsetzen können, wenn wir zwingende schutzwürdige Gründe haben (Sicherheit, rechtliche Verpflichtungen)

Um Ihre Rechte auszuüben oder Fragen zur Moderation zu stellen, kontaktieren Sie uns unter [email protected].

Fragen?

Weitere Informationen zu unseren Datenschutz- und Sicherheitspraktiken finden Sie hier:

War das hilfreich?