Claude Mythos: accesos no autorizados ponen en riesgo el modelo de IA de Anthropic

Actualizado el :

Di Diego Soler


            Anthropic está en problemas: varios usuarios acceden sin autorización a Claude Mythos, su modelo de IA más peligroso

Un modelo de inteligencia artificial privado y catalogado como de alto riesgo por su capacidad para detectar y explotar fallas en software sufrió un acceso no autorizado, según un informe reciente. La filtración pone en evidencia los retos de seguridad alrededor de desarrollos cerrados de IA y plantea consecuencias inmediatas para empresas, reguladores y equipos de ciberseguridad.

Qué sucedió

Bloomberg publicó que un grupo de usuarios vinculados a un canal de Discord consiguió utilizar de forma indebida el modelo conocido como Claude Mythos. Las fuentes citadas afirmaron que los intrusos recurrieron a intermediarios para llegar al sistema y compartieron capturas de pantalla y un video que, según ellos, muestran el acceso.

El canal en cuestión se dedica a rastrear y probar versiones de modelos de IA que aún no están disponibles públicamente, y los participantes —no identificados en el reportaje— dijeron que su objetivo es experimentar con el sistema más que causar daño deliberado.

Qué es Claude Mythos y por qué preocupa

Desarrollado por Anthropic, este modelo fue diseñado para identificar vulnerabilidades graves en software, incluidas debilidades en sistemas operativos y navegadores. Por su potencia y posible uso indebido, Anthropic decidió limitar su distribución y abrirlo solo en una vista anticipada controlada.

  • Función principal: detección de vulnerabilidades críticas en entornos reales.
  • Acceso restringido: disponible solo para socios selectos dentro del llamado Project Glasswing.
  • Riesgo reportado: evaluaciones previas indicaron que el modelo podría, en teoría, automatizar ataques contra objetivos con defensas débiles.

Quiénes tenían acceso autorizado

La iniciativa privada incluye a grandes empresas tecnológicas y organismos de seguridad. Entre los participantes de Project Glasswing se mencionan compañías como Apple, Google, Amazon Web Services, Nvidia y Microsoft. Además, el informe indica que el gobierno del Reino Unido, a través del Instituto de Seguridad de la IA (AISI), también realizó pruebas controladas.

Esas evaluaciones ayudaron a medir capacidades y límites del modelo en un entorno supervisado, según la información disponible.

Implicaciones prácticas

El acceso no autorizado a un sistema con estas características tiene varias aristas relevantes:

  • Exposición de técnicas y controles internos que podrían facilitar su replicación.
  • Posible aceleración de intentos de explotación por actores maliciosos si la información circula fuera de canales cerrados.
  • Presión sobre reguladores y empresas para reforzar protocolos de acceso, auditoría y responsabilidad en proyectos de IA sensibles.

Especialistas en seguridad y responsables de producto enfrentan ahora el desafío de equilibrar la investigación útil con medidas que impidan usos peligrosos o difusos de estas herramientas.

Estado actual y próximos pasos

El informe no atribuye la intrusión a un actor específico ni detalla respuestas públicas de Anthropic. Queda por verse si la compañía y los socios de Project Glasswing intensificarán las barreras de acceso o iniciarán auditorías adicionales.

Mientras tanto, el caso recuerda que incluso entornos cerrados pueden ser vulnerables y que la gobernanza de modelos avanzados de IA continúa siendo una prioridad para la seguridad tecnológica global.

Artículos similares

Califica este artículo
Véase también  Claude revoluciona frente a ChatGPT: amplía gratis sus funciones y limita menos, ¡con anuncios!

Deja un comentario

Share to...