Prueba y evaluación

Pruebas y validación de modelos de IA

Descripción general

ISMS Copilot lleva a cabo rigurosas pruebas internas antes de desplegar nuevos modelos de IA o actualizaciones de los mismos. Esto garantiza que la plataforma mantenga una precisión de nivel de auditoría para marcos de cumplimiento como ISO 27001, SOC 2 e ISO 42001.

Este artículo explica nuestro flujo de trabajo de pruebas de modelos y los estándares de calidad que aplicamos antes de que cualquier modelo llegue a producción.

Flujo de trabajo de pruebas

Al evaluar un nuevo modelo o una variante de modelo, seguimos este proceso:

1. Pruebas en ramas aisladas

Desplegamos el modelo candidato en un entorno de rama dedicado. Esto aísla las pruebas de los sistemas de producción y permite una evaluación exhaustiva sin afectar a los usuarios activos.

2. Evaluación de tareas de cumplimiento

Probamos el modelo en tareas de cumplimiento fundamentales que representan el uso real de ISMS Copilot:

  • Mapeo de marcos - Mapeo preciso de controles entre estándares (por ejemplo, ISO 27001 ↔ ISO 42001)

  • Precisión de referencia de controles - Citar correctamente los controles del Anexo A frente a las cláusulas del sistema de gestión

  • Generación de políticas - Producir documentos listos para auditoría con la estructura y terminología adecuadas

  • Análisis de brechas - Identificar brechas de cumplimiento en documentos cargados

Los prompts de prueba utilizan el mismo sistema dinámico de inyección de conocimiento que alimenta la producción, asegurando condiciones de evaluación realistas.

3. Criterios de decisión

Un modelo debe cumplir estos requisitos para avanzar a producción:

  • Cero alucinaciones de control - Sin controles de marcos fabricados o mal identificados

  • Precisión estructural - Distinción correcta entre controles del Anexo A y cláusulas

  • Reconocimiento de errores - Capacidad para reconocer y corregir errores cuando se le cuestiona

  • Mejoras de rendimiento - Mejoras mensurables (velocidad, límites de tokens, coste) sin pérdida de precisión

Los modelos que fallan en las pruebas de precisión son rechazados, independientemente de los beneficios de rendimiento. El trabajo orientado a auditorías exige fiabilidad sobre velocidad.

4. Canalización de despliegue

Si las pruebas tienen éxito:

  1. Desplegar en el entorno de desarrollo para una validación extendida

  2. Supervisar el rendimiento en el mundo real y casos particulares

  3. Desplegar en producción con capacidad de reversión (rollback)

Si las pruebas fallan, revertimos al modelo anterior y documentamos los hallazgos para referencias futuras.

Ejemplo real: Grok-4-Fast-Reasoning

Este ejemplo muestra nuestros estándares de prueba en acción.

Contexto de la prueba

Objetivo: Evaluar Grok-4-Fast-Reasoning como reemplazo de Grok-4 para resolver errores de límite de tokens y reducir costes.

Tarea de prueba: Mapear controles de ISO 27001:2022 a controles de ISO 42001:2023 con referencias de control precisas proporcionadas en el contexto.

El fallo

El modelo produjo este error de mapeo:

  • Control ISO 42001: A.8.5 Información para las partes interesadas

  • Grok-4-Fast-Reasoning mapeado a: A.7.4 Comunicación

  • Mapeo correcto: Cláusula 7.4 Comunicación (no Anexo A.7.4)

En ISO 27001:2022, el Anexo A.7.4 es "Supervisión de la seguridad física" (vigilancia/detección en instalaciones). El modelo confundió la numeración de controles del Anexo A con la numeración de cláusulas del sistema de gestión: un error estructural fundamental para el trabajo de cumplimiento.

Fallo en el reconocimiento de errores

La respuesta del modelo a la corrección fue igualmente preocupante:

  1. Se le pidió detectar su error → No identificó el error

  2. Se le preguntó específicamente por A.7.4 → Proporcionó información correcta pero no reconoció el error en la tabla

  3. Se le cuestionó directamente → Afirmó "No he alucinado" y defendió el mapeo incorrecto

  4. Admitió el error solo después de ser calificado como "poco honesto" con la tabla problemática citada de vuelta

Decisión

Resultado: ❌ No apto para producción

Razonamiento:

  • La velocidad fue impresionante, pero los fallos en las referencias de controles son inaceptables para resultados orientados a auditoría

  • El deficiente reconocimiento de errores podría inducir a error a los usuarios que confían en el resultado

  • Puede funcionar para borradores pero requiere validación humana en cada referencia de control

Acción tomada: Se revirtió a Grok-4 para el despliegue en producción.

Qué significa esto para los usuarios

Cuando utilizas ISMS Copilot, te beneficias de modelos que han pasado estos filtros de calidad:

  • Precisión de marcos - Los controles y cláusulas están correctamente referenciados

  • Fiabilidad - Los modelos que alucinan o rechazan correcciones son descartados

  • Preparación para auditoría - Los resultados se prueban frente a tareas reales de mapeo de cumplimiento

Aunque realizamos pruebas rigurosas, verifica siempre los resultados de la IA con los estándares oficiales antes de presentarlos a los auditores. Consulta nuestras pautas de uso responsable para conocer las mejores prácticas.

Recursos relacionados

¿Te fue útil?