Inhoudmoderatie & Veiligheid - ISMS Copilot

ISMS Copilot maakt gebruik van geautomatiseerde inhoudmoderatie om ongepaste of schadelijke inhoud in chatberichten te detecteren en te voorkomen. Dit proces draait op de achtergrond om een veilige, conforme omgeving voor alle gebruikers te behouden, terwijl uw privacy en de snelheid van uw workflow gewaarborgd blijven.

Moderatie vindt asynchroon plaats nadat u een bericht heeft verzonden — het voegt geen enkele vertraging toe aan uw chatervaring.

Hoe moderatie werkt

Wanneer u een chatbericht verstuurt, slaat ISMS Copilot dit onmiddellijk op en levert het uw AI-antwoord zonder vertraging. Parallel daaraan vindt op de achtergrond een inhoudmoderatiecontrole plaats:

Bericht geanalyseerd — Uw bericht wordt naar een moderatie-API gestuurd (standaard OpenAI, Mistral AI voor gebruikers met Advanced Data Protection)
Categorieën gecontroleerd — De API scant op beleidsschendingen, waaronder haatzaaiende uitlatingen, intimidatie, geweld, zelfbeschadiging en andere schadelijke inhoud
Resultaat vastgelegd — Het moderatieresultaat wordt opgeslagen in onze audit logs met categoriescores en tijdstempels
Beheerders gewaarschuwd — Als inhoud wordt gemarkeerd, ontvangt ons team een automatische melding voor beoordeling

Dit proces is volledig geautomatiseerd en 'fire-and-forget' — uw chat gaat ononderbroken verder.

Moderatieproviders

ISMS Copilot gebruikt verschillende moderatie-API's op basis van uw instellingen voor gegevensbescherming:

OpenAI Moderation API — Standaard voor alle gebruikers. Controleert op: seksuele inhoud, haat, intimidatie, geweld, zelfbeschadiging
Mistral AI Moderation API — Wordt gebruikt wanneer Advanced Data Protection is ingeschakeld. Controleert op: seksuele inhoud, haat en discriminatie, geweld en bedreigingen, gevaarlijke en criminele inhoud, zelfbeschadiging, gezondheid, financiën, recht, persoonlijk identificeerbare informatie (PII)

De categorieën van Mistral omvatten controles op het gebied van gezondheid, financiën, recht en PII. Deze kunnen af en toe legitieme ISMS-nalevingsdiscussies markeren. Ons team beoordeelt alle meldingen om vals-positieven te voorkomen.

Geavanceerde gegevensbescherming (ADP) en moderatie

Als u Advanced Data Protection heeft ingeschakeld, worden uw chatberichten normaal gesproken niet op onze servers opgeslagen of naar externe AI-providers verzonden. Inhoudmoderatie vormt echter één uitzondering:

Schone berichten — Inhoud van het bericht wordt NIET opgeslagen; alleen metadata en moderatiescores worden 30 dagen bewaard
Gemarkeerde berichten — Volledige inhoud wordt altijd 1 jaar bewaard en opgenomen in beheerderswaarschuwingen, ongeacht de ADP-instelling

Veiligheidsoverride: Gemarkeerde inhoud wordt altijd opgeslagen en gedeeld met ons team, zelfs als Advanced Data Protection is ingeschakeld. Dit is noodzakelijk voor juridische naleving, preventie van misbruik en het handhaven van de veiligheid op het platform voor alle gebruikers.

Deze overschrijving is gebaseerd op het gerechtvaardigd belang onder AVG-artikel 6(1)(f) — het voorkomen van schade en het handhaven van ons Acceptable Use Policy is een gerechtvaardigd belang dat in gemarkeerde gevallen voorrang heeft op individuele voorkeuren voor gegevensbescherming.

Gegevensbewaring

Moderatiegebeurtenissen worden bewaard volgens het volgende schema:

Niet-gemarkeerde gebeurtenissen — Metadata en moderatiescores worden 30 dagen bewaard; de inhoud van het bericht wordt NIET opgeslagen
Gemarkeerde gebeurtenissen — Volledige berichtinhoud en metadata worden 1 jaar bewaard voor audit- en juridische nalevingsdoeleinden

De inhoud van een gemarkeerd bericht kan langer worden bewaard indien vereist voor lopend onderzoek, juridische procedures of reglementaire verplichtingen.

Wat gebeurt er als inhoud wordt gemarkeerd

Wanneer de moderatie-API uw bericht markeert als een potentiële schending van ons beleid:

Melding verzonden — Ons beheerteam ontvangt een webhook-notificatie met de gemarkeerde categorieën, tijdstempel en een voorbeeld van het bericht
Menselijke beoordeling — Een teamlid beoordeelt het bericht en de context om te bevestigen of het ons Acceptable Use Policy schendt
Actie (indien bevestigd) — We kunnen contact met u opnemen, een waarschuwing geven, functies opschorten of uw account beëindigen, afhankelijk van de ernst en herhaalde schendingen
Vals-positieven — Als de markering onjuist was (bijv. een legitieme discussie over naleving), wordt er geen actie ondernomen

Rate limiting: u kunt slechts één moderatiemelding per uur genereren. Volgende gemarkeerde berichten binnen dat tijdsbestek worden gelogd, maar genereren geen dubbele waarschuwingen.

Privacy en transparantie

We streven naar transparantie over onze moderatiepraktijken:

Geen stille censuur — We blokkeren of filteren uw berichten niet in realtime. Moderatie is bedoeld voor handhaving van de veiligheid, niet voor inhoudelijke controle
Derde verwerkers — OpenAI (gevestigd in de VS) en Mistral AI (gevestigd in Frankrijk) treden uitsluitend op als subverwerkers voor moderatie. Zie ons Register of Processing Activities voor details
Volledige openbaarmaking — Dit beleid en ons Privacy Policy documenteren alle gegevensstromen en juridische grondslagen voor moderatie

Juridische grondslag

Inhoudmoderatie is gebaseerd op:

Gerechtvaardigd belang (AVG art. 6(1)(f)) — Voorkomen van misbruik, handhaven van onze voorwaarden en waarborgen van de veiligheid op het platform
Contractuele noodzaak (AVG art. 6(1)(b)) — Handhaven van onze Terms of Service en ons Acceptable Use Policy
Wettelijke verplichting (AVG art. 6(1)(c)) — Voldoen aan de toepasselijke wetgeving die de verwijdering of rapportage van illegale inhoud vereist

Uw rechten

Onder de AVG heeft u rechten met betrekking tot uw moderatiegegevens:

Inzage — Kopieën opvragen van de moderatiegebeurtenissen die aan uw account zijn gekoppeld
Rectificatie — Verzoeken om correctie van onjuiste moderatiegegevens
Wissen — Verzoeken om verwijdering van niet-gemarkeerde moderatiegegevens (gemarkeerde gegevens kunnen worden bewaard voor juridische naleving)
Bezwaar — Bezwaar maken tegen moderatieverwerking, hoewel we deze kunnen voortzetten als we dwingende gerechtvaardigde gronden hebben (veiligheid, wettelijke verplichtingen)

Neem om uw rechten uit te oefenen of voor vragen over moderatie contact met ons op via [email protected].

Vragen?

Voor meer informatie over onze privacy- en veiligheidspraktijken, zie:

Was dit nuttig?