Inteligencia Artificial y Ciberseguridad

Una base de datos accesible públicamente perteneciente a DeepSeek permitió el control total sobre las operaciones de la base de datos, incluyendo el acceso a datos internos. La exposición incluyó más de un millón de registros con información altamente sensible.

31 de enero de 2025
Lectura de 3 minutos

Wiz Research ha identificado una base de datos ClickHouse expuesta

El equipo de Wiz Research identificó una base de datos ClickHouse de DeepSeek accesible públicamente, lo que permitía el control total sobre las operaciones de la base de datos y el acceso a datos internos.

La exposición incluía más de un millón de registros, con información como historial de chats, claves secretas, detalles del backend y otros datos altamente sensibles.

Tras descubrir el problema, el equipo de Wiz Research notificó de inmediato a DeepSeek, que procedió a asegurar la base de datos rápidamente.

En esta publicación, detallaremos nuestro descubrimiento y analizaremos las implicaciones para la industria.

Resumen ejecutivo

DeepSeek, una startup china de inteligencia artificial, ha ganado atención en los medios gracias a sus innovadores modelos de IA, en particular el modelo de razonamiento DeepSeek-R1. Este modelo rivaliza con OpenAI o1 en rendimiento, destacando por su eficiencia y menor costo.

Dado el crecimiento de DeepSeek en la industria de la IA, el equipo de Wiz Research decidió evaluar su postura de seguridad externa.

Hallazgo clave: En pocos minutos, identificamos una base de datos ClickHouse completamente abierta y sin autenticación, accesible en:

oauth2callback.deepseek.com:9000
dev.deepseek.com:9000

Datos expuestos:

Historial de chats
Datos internos del backend
Claves API
Registros operativos

Riesgo crítico: La base de datos permitía acceso sin autenticación, lo que facilitaba el control total sobre los datos y la posibilidad de escalamiento de privilegios dentro del entorno de DeepSeek.

Análisis detallado de la exposición

El equipo de Wiz Research comenzó su evaluación con un mapeo de los dominios públicos de DeepSeek, identificando alrededor de 30 subdominios expuestos.

Sin embargo, al explorar puertos más allá de los estándares HTTP (80/443), encontramos puertos abiertos inusuales (8123 y 9000) en los siguientes hosts:

http://oauth2callback.deepseek.com:8123
http://dev.deepseek.com:8123
http://oauth2callback.deepseek.com:9000
http://dev.deepseek.com:9000

Resultado: Estos puertos llevaban a una base de datos ClickHouse accesible sin autenticación, lo que planteaba un grave riesgo de seguridad.

Método de acceso:
Aprovechando la interfaz HTTP de ClickHouse, accedimos a la ruta /play, lo que permitía ejecutar consultas SQL directamente desde un navegador.

Con una simple consulta SHOW TABLES;, obtuvimos una lista completa de bases de datos disponibles.

Datos expuestos en la tabla «log_stream»

Entre todas las bases de datos, una en particular llamó la atención: log_stream, que contenía más de un millón de registros sensibles.

Columnas clave:

timestamp: Registros desde el 6 de enero de 2025.
span_name: Referencias a los endpoints internos de la API de DeepSeek.
string.values: Registros en texto plano, incluyendo historial de chats, claves API y metadatos operativos.
_service: Indica qué servicio de DeepSeek generó los registros.
_source: Expone el origen de las solicitudes, revelando historial de chats, claves API, estructuras de directorios y metadatos del chatbot.

Riesgo crítico:

Un atacante podía extraer mensajes de chat en texto plano.
Posible exfiltración de contraseñas y archivos locales mediante consultas avanzadas como SELECT * FROM file('filename'), dependiendo de la configuración de ClickHouse.

Nota: No ejecutamos consultas intrusivas más allá de la enumeración inicial para mantener prácticas de investigación ética.

Lecciones clave y riesgos para la industria

La rápida adopción de IA sin medidas de seguridad adecuadas es un riesgo creciente.
Este incidente demuestra que los mayores peligros en seguridad de IA provienen de exposiciones accidentales, no necesariamente de amenazas avanzadas.

Riesgos clave:

Muchas startups de IA priorizan la innovación sin proteger adecuadamente sus infraestructuras.
Bases de datos expuestas pueden revelar información confidencial sin necesidad de un ataque sofisticado.
Las medidas de seguridad en IA deben fortalecerse de inmediato.

Recomendaciones:

Implementar autenticación en todas las bases de datos accesibles en línea.
Auditar regularmente la seguridad de la infraestructura.
Involucrar equipos de seguridad en el desarrollo de IA para evitar exposiciones accidentales.

Conclusión

La inteligencia artificial está creciendo a un ritmo sin precedentes, pero la seguridad no ha seguido el mismo ritmo.

El caso de DeepSeek demuestra que muchas startups de IA han evolucionado sin implementar protocolos de seguridad adecuados.

La industria debe adoptar medidas de seguridad tan estrictas como las aplicadas en servicios de computación en la nube.

Fuente original: Wiz Research