Seguridad de IA

Moderación de contenido y seguridad - ISMS Copilot

ISMS Copilot utiliza la moderación de contenido automatizada para detectar y prevenir contenido inapropiado o dañino en los mensajes de chat. Este proceso se ejecuta en segundo plano para mantener un entorno seguro y conforme para todos los usuarios, preservando al mismo tiempo su privacidad y la velocidad del flujo de trabajo.

La moderación se ejecuta de forma asíncrona después de enviar un mensaje; no añade latencia a su experiencia de chat.

Cómo funciona la moderación

Cuando envía un mensaje de chat, ISMS Copilot lo guarda inmediatamente y entrega su respuesta de IA sin demora. En paralelo, se ejecuta una comprobación de moderación de contenido en segundo plano:

  1. Mensaje analizado — Su mensaje se envía a una API de moderación (OpenAI por defecto, Mistral AI para usuarios de Advanced Data Protection)

  2. Categorías comprobadas — La API escanea infracciones de las políticas, incluyendo discurso de odio, acoso, violencia, autolesiones y otros contenidos dañinos

  3. Resultado registrado — El resultado de la moderación se almacena en nuestros registros de auditoría con las puntuaciones de las categorías y las marcas de tiempo

  4. Alertas a administradores — Si el contenido es marcado, nuestro equipo recibe una alerta automatizada para su revisión

Este proceso es totalmente automatizado y autónomo; su chat continúa sin interrupciones.

Proveedores de moderación

ISMS Copilot utiliza diferentes APIs de moderación en función de sus ajustes de protección de datos:

  • OpenAI Moderation API — Por defecto para todos los usuarios. Comprueba: contenido sexual, odio, acoso, violencia, autolesiones

  • Mistral AI Moderation API — Utilizada cuando Advanced Data Protection está activado. Comprueba: contenido sexual, odio y discriminación, violencia y amenazas, contenido peligroso y criminal, autolesiones, salud, financiero, legal, información de identificación personal (PII)

Las categorías de Mistral incluyen comprobaciones de salud, financieras, legales y de PII. Estas pueden marcar ocasionalmente discusiones legítimas sobre cumplimiento de ISMS. Nuestro equipo revisa todas las alertas para evitar falsos positivos.

Advanced Data Protection y moderación

Si ha activado Advanced Data Protection, sus mensajes de chat normalmente no se almacenan en nuestros servidores ni se envían a proveedores de IA de terceros. Sin embargo, la moderación de contenido crea una excepción:

  • Mensajes limpios — El contenido del mensaje NO se almacena; solo se conservan los metadatos y las puntuaciones de moderación durante 30 días

  • Mensajes marcados — El contenido completo se almacena siempre durante 1 año y se incluye en las alertas de administración, independientemente del ajuste de ADP

Anulación de seguridad: El contenido marcado siempre se almacena y se comparte con nuestro equipo, incluso con Advanced Data Protection activado. Esto es necesario para el cumplimiento legal, la prevención de abusos y el mantenimiento de la seguridad de la plataforma para todos los usuarios.

Esta anulación se basa en el interés legítimo bajo el Artículo 6(1)(f) del RGPD: prevenir daños y hacer cumplir nuestra Política de Uso Aceptable es un interés legítimo que prevalece sobre las preferencias individuales de protección de datos en casos marcados.

Retención de datos

Los eventos de moderación se conservan de acuerdo con el siguiente cronograma:

  • Eventos no marcados — Metadatos y puntuaciones de moderación conservados durante 30 días; contenido del mensaje NO almacenado

  • Eventos marcados — Contenido completo del mensaje y metadatos conservados durante 1 año para fines de auditoría y cumplimiento legal

El contenido de los mensajes marcados puede conservarse por más tiempo si es necesario para investigaciones en curso, procedimientos legales u obligaciones regulatorias.

Qué sucede cuando se marca el contenido

Cuando la API de moderación marca su mensaje como potencialmente infractor de nuestras políticas:

  1. Alerta enviada — Nuestro equipo de administración recibe una notificación de webhook con las categorías marcadas, la marca de tiempo y una vista previa del mensaje

  2. Revisión humana — Un miembro del equipo revisa el mensaje y el contexto para confirmar si infringe nuestra Política de Uso Aceptable

  3. Acción (si se confirma) — Podemos comunicarnos con usted, emitir una advertencia, suspender funciones o cerrar su cuenta, dependiendo de la gravedad y la reincidencia

  4. Falsos positivos — Si la marca fue incorrecta (por ejemplo, una discusión legítima sobre cumplimiento), no se toma ninguna medida

Limitación de frecuencia: Solo puede activar una alerta de moderación por hora. Los mensajes marcados subsiguientes dentro de esa ventana se registran pero no generan alertas duplicadas.

Privacidad y transparencia

Estamos comprometidos con la transparencia sobre nuestras prácticas de moderación:

  • Sin censura silenciosa — No bloqueamos ni filtramos sus mensajes en tiempo real. La moderación es para el cumplimiento de la seguridad, no para el control de contenidos

  • Procesadores de terceros — OpenAI (con sede en EE. UU.) y Mistral AI (con sede en Francia) actúan como subencargados del tratamiento solo para la moderación. Consulte nuestro Registro de Actividades de Tratamiento para más detalles

  • Divulgación completa — Esta política y nuestra Política de Privacidad documentan todos los flujos de datos de moderación y las bases legales

La moderación de contenido se basa en:

  • Interés legítimo (Art. 6(1)(f) del RGPD) — Prevenir el abuso, hacer cumplir nuestros términos y mantener la seguridad de la plataforma

  • Necesidad contractual (Art. 6(1)(b) del RGPD) — Hacer cumplir nuestros Términos de Servicio y la Política de Uso Aceptable

  • Obligación legal (Art. 6(1)(c) del RGPD) — Cumplir con las leyes aplicables que requieren la eliminación o notificación de contenido ilegal

Sus derechos

Bajo el RGPD, usted tiene derechos con respecto a sus datos de moderación:

  • Acceso — Solicitar copias de los eventos de moderación asociados con su cuenta

  • Rectificación — Solicitar la corrección de registros de moderación inexactos

  • Supresión — Solicitar la eliminación de datos de moderación no marcados (los datos marcados pueden conservarse para cumplimiento legal)

  • Oposición — Oponerse al procesamiento de moderación, aunque podemos continuar si tenemos motivos legítimos imperiosos (seguridad, obligaciones legales)

Para ejercer sus derechos o hacer preguntas sobre la moderación, contáctenos en [email protected].

¿Preguntas?

Para más información sobre nuestras prácticas de privacidad y seguridad, consulte:

¿Te fue útil?