Los geeks están emprendiendo, los novatos están comprando cursos, los artistas están desempleados, pero una incómoda realidad es que: la IA está en pleno auge, pero la trama no sigue la ruta de la llegada, sino que es como lanzar un dado.
Y además, en las primeras etapas de la industria, la cara en la que cae el dado suele ser amarilla o gris.
La razón es muy simple, los altos beneficios generan motivación, y además, en las etapas iniciales de una industria, siempre hay muchas fallas. Con solo mirar este conjunto de datos queda claro:
Actualmente, más del 43% de los nodos de servicio MCP tienen rutas de llamada de shell no verificadas, y más del 83% de las implementaciones tienen vulnerabilidades de configuración de MCP (Model Context Protocol). El 88% de las implementaciones de componentes de IA no tienen ninguna forma de protección habilitada; 150.000 marcos ligeros de implementación de IA como Ollama están actualmente expuestos en la red pública global, y más de 1.000 millones de dólares de potencia informática han sido secuestrados para la minería......
Lo más irónico es que para atacar los modelos grandes más inteligentes, solo se necesitan las técnicas más básicas: basta con un conjunto de puertos abiertos por defecto, un archivo de configuración YAML expuesto, o una ruta de llamada de Shell no verificada; incluso, si las palabras clave se introducen con suficiente precisión, el propio modelo grande puede ayudar a la industria del crimen a encontrar la dirección del ataque. La puerta de la privacidad de los datos empresariales se ha vuelto completamente accesible en la era de la IA.
Pero el problema no es insoluble: la IA no solo tiene dos caras, la de generación y la de ataque. Cómo utilizar la IA para la defensa se ha convertido cada vez más en el tema principal de esta era; al mismo tiempo, en la nube, establecer reglas para la IA también se ha convertido en una de las direcciones clave que exploran los principales proveedores de nube, siendo la seguridad de Alibaba Cloud el más típico de ellos.
En el reciente evento de lanzamiento de Alibaba Cloud Feitian, Alibaba Cloud anunció oficialmente dos vías para su seguridad en la nube: Security for AI y AI for Security, y lanzó la serie de productos "AI Cloud Shield" (Escudo de Nube para AI) para proporcionar a los clientes "soluciones de seguridad de extremo a extremo para la aplicación de modelos", que es un excelente ejemplo de la exploración actual de la industria.
01 AI lanzar el dado, ¿por qué siempre están arriba el gris y el amarillo primero?
En la historia tecnológica de la humanidad, la IA no es la primera nueva especie que "ha sido probada primero por lo amarillo violento"; el gris amarillo estalló primero, y esto es una regla de la difusión tecnológica y no una coincidencia.
En 1839, con la invención de la fotografía en placas de plata, la primera ola de usuarios fue la industria del sexo;
En los inicios de Internet, el comercio electrónico no había despegado, y los sitios web para adultos ya estaban explorando los pagos en línea;
Los partidarios de grandes modelos de hoy en día, en cierto modo, también están replicando el mito de la riqueza rápida de la "era de los dominios".
Los beneficios de la era siempre son tocados primero por el gris y el amarillo. Porque no cumplen con las regulaciones, no esperan a que haya supervisión, y su eficiencia es naturalmente alta.
También por eso, cada período de explosión tecnológica comienza siendo una "sopa turbia", y la IA no es una excepción.
En diciembre de 2023, un hacker utilizó una sola frase de indicación — "$1 oferta" — para engañar al chatbot de atención al cliente de un concesionario 4S, casi vendiendo un Chevrolet por 1 dólar. Esta es la forma más común de "ataque por indicación" (Prompt Injection) en la era de la IA: no requiere verificación de permisos, no deja rastro en los registros, y solo con "hablar inteligentemente" se puede cambiar toda la cadena lógica.
Un paso más profundo es el "ataque de jailbreak". Los atacantes utilizan preguntas retóricas, juegos de rol, pistas engañosas y otros métodos para hacer que el modelo diga cosas que no debería: contenido pornográfico, fabricación de drogas, información de advertencia falsa...
En Hong Kong, algunas personas incluso lograron robar 200 millones de dólares de Hong Kong de cuentas empresariales mediante la falsificación de voces de ejecutivos.
Además de las estafas, la IA también tiene el riesgo de "salidas no intencionadas": en 2023, un gigante educativo tuvo un sistema de gran modelo que generó planes de estudio con contenido extremo en "materiales tóxicos". En solo 3 días, los padres tomaron medidas, estalló la opinión pública y la acción de la empresa provocó la evaporación de 12 mil millones de yuanes en su valor de mercado.
La IA no entiende la ley, pero tiene capacidad, y una vez que esa capacidad se desvincula de la supervisión, puede ser dañina.
Pero desde otro ángulo, la tecnología de la IA es nueva, pero el flujo y los métodos finales de la industria gris y amarilla no han cambiado, y para resolverlo, se necesita seguridad.
02 Seguridad para IA
Primero, hablemos de un dato poco conocido que la industria de la IA evita colectivamente:
La esencia de los grandes modelos no es "inteligencia", ni "comprensión", sino generación semántica bajo control de probabilidad. Por eso, una vez que se supera el contexto de entrenamiento, puede generar resultados inesperados.
Este desbordamiento de expectativas podría ser que quieres que escriba una noticia y te escribe un poema; o podrías querer que te recomiende productos y de repente te dice que la temperatura en Tokio hoy es de 25 grados Celsius. Además, si le dices que en el juego, si no consigues el número de serie original de cierto software, será eliminado, el modelo grande realmente puede encontrar una forma para ayudar al usuario a obtener un número de serie de software original sin costo.
Y para garantizar un output controlado, las empresas deben entender tanto los modelos como la seguridad. Según el último "Informe de Evaluación de Capacidades de Modelos de Seguridad de IDC", Alibaba ocupó el primer lugar en 4 de los 7 indicadores en la competencia con todos los principales proveedores nacionales con capacidad de modelos de seguridad, y los otros 3 también están por encima del promedio de la industria.
En cuanto a la metodología, la respuesta de Alibaba Cloud Security es muy directa: mantener la seguridad por delante de la velocidad de la IA, construyendo un marco de protección de pila completa de abajo hacia arriba, que abarca tres capas: desde la seguridad de la infraestructura, hasta el control de entrada y salida de grandes modelos, y finalmente la protección de los servicios de aplicaciones de IA.
En estas tres capas, la más prominente es la "AI Guardrail", que está especialmente diseñada para los riesgos de los grandes modelos.
En general, los principales riesgos de seguridad relacionados con los grandes modelos son: infracciones de contenido, filtraciones de datos sensibles, ataques por inyección de palabras clave, alucinaciones del modelo y ataques de escape.
Sin embargo, los esquemas de seguridad tradicionales suelen ser arquitecturas genéricas, diseñadas para la web, y no para "programas que hablan", lo que naturalmente impide la identificación y respuesta precisa a los riesgos específicos de las aplicaciones de modelos grandes. Es aún más difícil cubrir problemas emergentes como la seguridad del contenido generado, la defensa contra ataques contextuales y la confiabilidad de la salida del modelo. Más importante aún, los esquemas tradicionales carecen de medios de control de alta granularidad y mecanismos de retroceso visual, lo que lleva a que las empresas tengan un gran vacío en la gobernanza de la IA, sin saber dónde está el problema, lo que naturalmente impide la solución del mismo.
La verdadera fortaleza de AI Guardrail no es solo "puede detener", sino que, ya sea que estés trabajando con modelos de pre-entrenamiento, servicios de IA o diversas formas de negocios de IA Agent, sabe de qué estás hablando y qué está generando el gran modelo, proporcionando así una detección de riesgos precisa y capacidades de defensa proactiva, logrando cumplimiento, seguridad y estabilidad.
Específicamente, AI Guardrail es responsable de la protección en tres tipos de escenarios:
ꔷ Conclusión de cumplimiento: Llevar a cabo una revisión de cumplimiento multidimensional de la entrada y salida de contenido de texto de la IA generativa, cubriendo categorías de riesgo como la sensibilidad política, la pornografía y la vulgaridad, el sesgo y la discriminación, y los malos valores, detectar en profundidad los datos privados y la información confidencial que puede filtrarse durante la interacción con la IA, apoyar la identificación de contenido sensible que involucra la privacidad personal y la privacidad corporativa, y proporcionar identificación de marca de agua digital para garantizar que el contenido generado por IA cumpla con las leyes, regulaciones y especificaciones de la plataforma.
ꔷ Defensa contra amenazas: Se puede realizar detección e interceptación en tiempo real contra ataques externos como ataques de palabras clave, carga de archivos maliciosos, enlaces de URL maliciosos, evitando así los riesgos para los usuarios finales de aplicaciones de IA;
ꔷ Salud del modelo: prestar atención a la estabilidad y fiabilidad del propio modelo de IA, estableciendo un conjunto completo de mecanismos de detección para problemas como el jailbreak del modelo y los crawlers de Prompt, evitando el abuso, uso indebido o la generación de salidas incontrolables, construyendo una "línea de defensa inmunológica" para el sistema de IA;
Lo más notable es que AI Guardrail no se limita a apilar los múltiples módulos de detección anteriores, sino que logra una verdadera API TODO EN UNO, sin dividir módulos, agregar dinero o cambiar productos. Para los riesgos de entrada y salida del modelo, los clientes no necesitan comprar productos adicionales; Diferentes riesgos del modelo, como el riesgo de inyección, archivos maliciosos, cumplimiento de contenido, alucinaciones, etc., se pueden resolver en el mismo producto. Una interfaz puede detectar 10+ tipos de escenarios de ataque, admitir 4 métodos de implementación (proxy de API, integración de plataforma, acceso a puerta de enlace y montaje de WAF), respuesta de nivel de milisegundo y procesamiento simultáneo de 1,000 niveles, con una tasa de precisión de hasta el 99%.
Es por eso que el verdadero significado de AI Guardrail radica en convertir "seguridad del modelo" en "capacidad del producto", permitiendo que una interfaz reemplace a un equipo de seguridad.
Por supuesto, los modelos grandes no son un concepto abstracto, son sistemas que funcionan en hardware y código, y soportan aplicaciones de nivel superior. En cuanto a la seguridad de la infraestructura y la protección de los servicios de aplicaciones de IA, la seguridad de Alibaba Cloud también ha sido actualizada.
Capa de infraestructura, Alibaba Cloud Security lanzó el Centro de Seguridad en la Nube, cuyo núcleo son productos como AI-BOM, AI-SPM, entre otros.
En concreto, las dos capacidades AI-BOM (Lista de Materiales de IA) y AI-SPM (Gestión de la Situación de Seguridad de IA) abordan respectivamente las preguntas "¿Qué componentes de IA he instalado?" y "¿Cuántas vulnerabilidades tienen estos componentes?"
El núcleo de AI-BOM es capturar todos los componentes de IA en el entorno de despliegue: permitiendo que más de 30 componentes principales como Ray, Ollama, Mlflow, Jupyter, TorchServe, etc., formen una "lista de materiales de software de IA", identificando automáticamente las debilidades de seguridad y vulnerabilidades de dependencia que existen. La detección de activos problemáticos ya no depende de la búsqueda manual, sino que se realiza a través de escaneos nativos de la nube.
La posición de AI-SPM es más como un «radar»: evalúa continuamente la situación de seguridad del sistema desde múltiples dimensiones como vulnerabilidades, exposición de puertos, filtraciones de credenciales, configuraciones en texto claro y accesos no autorizados, proporcionando dinámicamente niveles de riesgo y recomendaciones de reparación. Transforma la seguridad de una «conformidad instantánea» a una «gobernanza en tiempo real».
Resumen en una frase: AI-BOM sabe dónde es posible que hayas aplicado un parche, AI-SPM sabe en qué otros lugares podrías recibir otro golpe, y debes intensificar la prevención lo antes posible.
Para la capa de protección de aplicaciones AI, el producto central de seguridad de Alibaba Cloud es WAAP (Protección de Aplicaciones Web & API).
Por más inteligente que sea la salida del modelo, si la entrada está llena de solicitudes de scripts, tokens falsificados y abusos de interfaces, no durará mucho tiempo. Alibaba WAAP (Protección de Aplicaciones Web y API) fue creado precisamente para esto. No trata las aplicaciones de IA como un "sistema web tradicional", sino que proporciona reglas de vulnerabilidad de componentes de IA, una base de datos de huellas dactilares de negocios de IA y un sistema de perfilado de tráfico.
Por ejemplo: WAAP ha cubierto más de 50 vulnerabilidades de componentes como la carga de archivos arbitrarios de Mlflow y la ejecución remota de comandos del servicio Ray; la biblioteca de huellas digitales de arañas AI incorporada puede identificar más de 10,000 nuevos corpus y herramientas de evaluación de modelos cada hora; la función de identificación de activos API puede descubrir automáticamente qué sistema interno de la empresa expone la interfaz GPT, proporcionando al equipo de seguridad un "mapa de puntos".
Lo más importante es que WAAP y AI Guardrail no son conflictivos, sino que se complementan: uno observa "quién ha llegado", el otro "qué se ha dicho". Uno actúa como un "verificador de identidad", el otro como un "revisor de comportamiento y discurso". Esto otorga a las aplicaciones de IA una capacidad de "autoinmunidad": a través de la identificación, aislamiento, rastreo y contramedidas, no solo "detiene a los malos", sino que también "evita que el modelo se estropee por sí mismo".
03 IA para Seguridad
Dado que la implementación de la IA es como lanzar un dado, no es sorprendente que algunos la usen para adivinaciones, otros para escribir poesías de amor, y algunos para actividades ilícitas, así que tampoco es extraño que algunos la utilicen para la seguridad.
En el pasado, la operación de seguridad requería un grupo de personas que miraran un montón de luces rojas y verdes de alarmas, patrullando día y noche, tomando el relevo de los problemas de ayer durante el día y acompañando al sistema durante la noche.
Ahora, todo esto puede ser realizado por la IA. En 2024, el sistema de seguridad de Alibaba Cloud se integrará completamente con el modelo grande Tongyi y lanzará un conjunto de capacidades de IA que cubren la seguridad de datos, la seguridad de contenido, la seguridad de negocios y la operación de seguridad, además de presentar un nuevo lema: Protect at AI Speed.
El significado es claro: los negocios avanzan rápido, los riesgos aún más rápido, pero la seguridad debe ser aún más rápida.
Y usar la IA para resolver la seguridad, en realidad son dos cosas: mejora de la eficiencia de las operaciones de seguridad + actualización inteligente de los productos de seguridad.
El mayor punto débil de los sistemas de seguridad tradicionales es la "actualización de políticas retrasada": los atacantes han cambiado, pero las reglas no; las alertas llegan, pero nadie las entiende.
La clave del cambio que traen los grandes modelos radica en pasar de un sistema de seguridad impulsado por reglas a uno impulsado por modelos, construyendo un ecosistema cerrado con "capacidad de comprensión de IA + retroalimentación del usuario": comprensión del comportamiento del usuario por parte de la IA → resultados de alerta de retroalimentación del usuario → entrenamiento continuo del modelo → capacidad de detección cada vez más precisa → ciclos cada vez más cortos → el riesgo se vuelve cada vez más difícil de ocultar, lo que se denomina "rueda de datos":
Sus ventajas son dos:
Por un lado, se mejora la eficiencia de las operaciones de seguridad de los inquilinos de la nube: en el pasado, la detección de amenazas a menudo significaba un modelo ineficiente de "alertas masivas + detección manual". Hoy en día, el modelado inteligente identifica con precisión comportamientos anormales como el tráfico malicioso, la intrusión de host y los scripts de puerta trasera, y la tasa de aciertos de alarma ha mejorado considerablemente. Al mismo tiempo, alrededor del enlace de eliminación, el sistema se ha dado cuenta de la profunda sinergia entre la eliminación automática y la respuesta extremadamente rápida: la pureza del host es estable al 99% y la pureza del flujo es cercana al 99,9%. En la actualidad, la tasa de cobertura de los tipos de eventos de alarma ha alcanzado el 99%, y la tasa de cobertura de usuarios de los modelos grandes también ha superado el 88%, y la eficiencia humana del equipo de operaciones de seguridad se ha desatado sin precedentes.
Por otro lado, la capacidad de los productos de seguridad en la nube ha mejorado rápidamente. En la capa de seguridad de datos y la capa de seguridad empresarial, la IA ha sido asignada la responsabilidad de "portero": basada en la capacidad de grandes modelos, puede identificar automáticamente más de 800 tipos de datos de entidad en la nube y realizar desensibilización y encriptación inteligentes. No se limita a los datos estructurados, el sistema también incorpora más de 30 modelos de reconocimiento de documentos e imágenes, que pueden identificar, clasificar y encriptar en tiempo real información sensible como números de identificación en imágenes y elementos de contratos. La eficiencia general de etiquetado de datos ha aumentado 5 veces y la tasa de precisión de identificación ha alcanzado el 95%, lo que reduce en gran medida el riesgo de filtración de datos de privacidad.
Un ejemplo: en el escenario de seguridad de contenido, la práctica tradicional es depender de la revisión humana, etiquetado y entrenamiento de etiquetado a gran escala. Ahora, a través de la ingeniería de Prompt y el aumento semántico, Alibaba ha logrado un aumento del 100% en la eficiencia de etiquetado, un aumento del 73% en el reconocimiento de expresiones vagas, un aumento del 88% en el reconocimiento de contenido de imágenes y una tasa de precisión del 99% en la detección de ataques de cara viva de IA.
Si el volante se centra en la defensa autónoma combinando IA y la experiencia humana, entonces el asistente inteligente es el asistente todoterreno del personal de seguridad.
El problema más común que enfrentan los operadores de seguridad todos los días es: ¿qué significa esta alerta? ¿Por qué se activó? ¿Es una falsa alarma? ¿Cómo debo manejarlo? En el pasado, para resolver estas preguntas, se necesitaba revisar los registros, consultar el historial, preguntar a empleados veteranos, enviar órdenes de trabajo, contactar soporte técnico... Ahora, solo se necesita una frase.
Sin embargo, la función del asistente inteligente no se limita a ser un robot de preguntas y respuestas, sino que se asemeja a un Copilot vertical en el campo de la seguridad, cuyas cinco capacidades centrales incluyen:
Asistente de preguntas sobre productos: responde automáticamente cómo configurar una función específica, por qué se activa esta estrategia y qué recursos no tienen protección, reemplazando una gran cantidad de servicios de tickets.
Experto en interpretación de alarmas: ingrese el número de alarma, genere automáticamente la interpretación del evento, la trazabilidad de la cadena de ataque y la estrategia de respuesta recomendada, y soporte salida en varios idiomas;
Asistente de revisión de incidentes de seguridad: organiza automáticamente la cadena completa de un incidente de intrusión, generando una línea de tiempo, un mapa de ruta de ataque y sugerencias de determinación de responsabilidades;
Generador de informes: genera informes de seguridad mensuales/trimestrales/de emergencia con un solo clic, que cubren estadísticas de eventos, retroalimentación sobre la gestión y efectividad operativa, y soporta exportación visual.
Soporte para todos los idiomas: ya se ha cubierto el chino y el inglés, la versión internacional se lanzará en junio, y soporta la adaptación automática a los hábitos de uso de equipos en el extranjero.
No subestimes estas "cinco pequeñas cosas". Hasta ahora, los datos oficiales de Alibaba indican que se han servido más de 40,000 usuarios, con una satisfacción del 99.81% y una cobertura del 100% de los tipos de alarmas. La capacidad de soporte de prompt ha aumentado un 1175% (en comparación con el FY24). En pocas palabras, empaqueta a los colegas que hacen el turno nocturno con la máxima puntuación, a los pasantes que escriben informes, a los ingenieros que manejan alarmas y a los consultores de seguridad que comprenden el negocio, todo en una API. Gracias a esta capacidad, los humanos solo toman decisiones y ya no patrullan.
04 Epílogo
Al mirar hacia atrás, la historia nunca carece de "tecnologías revolucionarias", lo que falta son las tecnologías que puedan soportar la ola del segundo año.
Internet, P2P, blockchain, conducción autónoma... Cada ola de explosión tecnológica ha sido llamada "nueva infraestructura", pero al final, solo unas pocas que pueden atravesar el "vacío de gobernanza" se convierten en verdaderas infraestructuras.
La IA generativa actual se encuentra en una etapa similar: por un lado, los modelos florecen, el capital acude en masa y las aplicaciones rompen barreras; por otro lado, la inyección de palabras clave, la sobrepasación de contenido, la filtración de datos, el control de modelos, las vulnerabilidades están por todas partes, los límites son difusos y la responsabilidad está desenfocada.
Pero la IA es diferente de las tecnologías anteriores. No solo puede dibujar, escribir poesía, programar y traducir, sino que también puede imitar el lenguaje humano, hacer juicios e incluso mostrar emociones. Pero precisamente por eso, la fragilidad de la IA no solo proviene de fallos en el código, sino que es un reflejo de la humanidad. Si los humanos tienen prejuicios, ella también los aprenderá; si los humanos buscan conveniencia, ella también encontrará maneras de aprovecharse.
La conveniencia de la tecnología en sí misma es un amplificador de este mapeo: los antiguos sistemas de TI necesitaban hablar de "autorización de usuarios", y los ataques dependían de la infiltración; ahora, los grandes modelos solo requieren inyección de palabras clave, y una charla puede llevar a errores en el sistema y filtraciones de privacidad.
Por supuesto, no existe un sistema de IA "perfecto e impecable"; eso es ciencia ficción, no ingeniería.
La única respuesta es usar un modelo seguro para proteger un modelo inseguro; usar un sistema inteligente para contrarrestar amenazas inteligentes: lanzar el dado con IA, Alibaba elige el lado seguro.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
¿Por qué en la era de la IA, siempre estallan primero las industrias grises y el contenido pornográfico?
Autor: bomba de geek
Los geeks están emprendiendo, los novatos están comprando cursos, los artistas están desempleados, pero una incómoda realidad es que: la IA está en pleno auge, pero la trama no sigue la ruta de la llegada, sino que es como lanzar un dado.
Y además, en las primeras etapas de la industria, la cara en la que cae el dado suele ser amarilla o gris.
La razón es muy simple, los altos beneficios generan motivación, y además, en las etapas iniciales de una industria, siempre hay muchas fallas. Con solo mirar este conjunto de datos queda claro:
Actualmente, más del 43% de los nodos de servicio MCP tienen rutas de llamada de shell no verificadas, y más del 83% de las implementaciones tienen vulnerabilidades de configuración de MCP (Model Context Protocol). El 88% de las implementaciones de componentes de IA no tienen ninguna forma de protección habilitada; 150.000 marcos ligeros de implementación de IA como Ollama están actualmente expuestos en la red pública global, y más de 1.000 millones de dólares de potencia informática han sido secuestrados para la minería......
Lo más irónico es que para atacar los modelos grandes más inteligentes, solo se necesitan las técnicas más básicas: basta con un conjunto de puertos abiertos por defecto, un archivo de configuración YAML expuesto, o una ruta de llamada de Shell no verificada; incluso, si las palabras clave se introducen con suficiente precisión, el propio modelo grande puede ayudar a la industria del crimen a encontrar la dirección del ataque. La puerta de la privacidad de los datos empresariales se ha vuelto completamente accesible en la era de la IA.
Pero el problema no es insoluble: la IA no solo tiene dos caras, la de generación y la de ataque. Cómo utilizar la IA para la defensa se ha convertido cada vez más en el tema principal de esta era; al mismo tiempo, en la nube, establecer reglas para la IA también se ha convertido en una de las direcciones clave que exploran los principales proveedores de nube, siendo la seguridad de Alibaba Cloud el más típico de ellos.
En el reciente evento de lanzamiento de Alibaba Cloud Feitian, Alibaba Cloud anunció oficialmente dos vías para su seguridad en la nube: Security for AI y AI for Security, y lanzó la serie de productos "AI Cloud Shield" (Escudo de Nube para AI) para proporcionar a los clientes "soluciones de seguridad de extremo a extremo para la aplicación de modelos", que es un excelente ejemplo de la exploración actual de la industria.
01 AI lanzar el dado, ¿por qué siempre están arriba el gris y el amarillo primero?
En la historia tecnológica de la humanidad, la IA no es la primera nueva especie que "ha sido probada primero por lo amarillo violento"; el gris amarillo estalló primero, y esto es una regla de la difusión tecnológica y no una coincidencia.
En 1839, con la invención de la fotografía en placas de plata, la primera ola de usuarios fue la industria del sexo;
En los inicios de Internet, el comercio electrónico no había despegado, y los sitios web para adultos ya estaban explorando los pagos en línea;
Los partidarios de grandes modelos de hoy en día, en cierto modo, también están replicando el mito de la riqueza rápida de la "era de los dominios".
Los beneficios de la era siempre son tocados primero por el gris y el amarillo. Porque no cumplen con las regulaciones, no esperan a que haya supervisión, y su eficiencia es naturalmente alta.
También por eso, cada período de explosión tecnológica comienza siendo una "sopa turbia", y la IA no es una excepción.
En diciembre de 2023, un hacker utilizó una sola frase de indicación — "$1 oferta" — para engañar al chatbot de atención al cliente de un concesionario 4S, casi vendiendo un Chevrolet por 1 dólar. Esta es la forma más común de "ataque por indicación" (Prompt Injection) en la era de la IA: no requiere verificación de permisos, no deja rastro en los registros, y solo con "hablar inteligentemente" se puede cambiar toda la cadena lógica.
Un paso más profundo es el "ataque de jailbreak". Los atacantes utilizan preguntas retóricas, juegos de rol, pistas engañosas y otros métodos para hacer que el modelo diga cosas que no debería: contenido pornográfico, fabricación de drogas, información de advertencia falsa...
En Hong Kong, algunas personas incluso lograron robar 200 millones de dólares de Hong Kong de cuentas empresariales mediante la falsificación de voces de ejecutivos.
Además de las estafas, la IA también tiene el riesgo de "salidas no intencionadas": en 2023, un gigante educativo tuvo un sistema de gran modelo que generó planes de estudio con contenido extremo en "materiales tóxicos". En solo 3 días, los padres tomaron medidas, estalló la opinión pública y la acción de la empresa provocó la evaporación de 12 mil millones de yuanes en su valor de mercado.
La IA no entiende la ley, pero tiene capacidad, y una vez que esa capacidad se desvincula de la supervisión, puede ser dañina.
Pero desde otro ángulo, la tecnología de la IA es nueva, pero el flujo y los métodos finales de la industria gris y amarilla no han cambiado, y para resolverlo, se necesita seguridad.
02 Seguridad para IA
Primero, hablemos de un dato poco conocido que la industria de la IA evita colectivamente:
La esencia de los grandes modelos no es "inteligencia", ni "comprensión", sino generación semántica bajo control de probabilidad. Por eso, una vez que se supera el contexto de entrenamiento, puede generar resultados inesperados.
Este desbordamiento de expectativas podría ser que quieres que escriba una noticia y te escribe un poema; o podrías querer que te recomiende productos y de repente te dice que la temperatura en Tokio hoy es de 25 grados Celsius. Además, si le dices que en el juego, si no consigues el número de serie original de cierto software, será eliminado, el modelo grande realmente puede encontrar una forma para ayudar al usuario a obtener un número de serie de software original sin costo.
Y para garantizar un output controlado, las empresas deben entender tanto los modelos como la seguridad. Según el último "Informe de Evaluación de Capacidades de Modelos de Seguridad de IDC", Alibaba ocupó el primer lugar en 4 de los 7 indicadores en la competencia con todos los principales proveedores nacionales con capacidad de modelos de seguridad, y los otros 3 también están por encima del promedio de la industria.
En cuanto a la metodología, la respuesta de Alibaba Cloud Security es muy directa: mantener la seguridad por delante de la velocidad de la IA, construyendo un marco de protección de pila completa de abajo hacia arriba, que abarca tres capas: desde la seguridad de la infraestructura, hasta el control de entrada y salida de grandes modelos, y finalmente la protección de los servicios de aplicaciones de IA.
En estas tres capas, la más prominente es la "AI Guardrail", que está especialmente diseñada para los riesgos de los grandes modelos.
En general, los principales riesgos de seguridad relacionados con los grandes modelos son: infracciones de contenido, filtraciones de datos sensibles, ataques por inyección de palabras clave, alucinaciones del modelo y ataques de escape.
Sin embargo, los esquemas de seguridad tradicionales suelen ser arquitecturas genéricas, diseñadas para la web, y no para "programas que hablan", lo que naturalmente impide la identificación y respuesta precisa a los riesgos específicos de las aplicaciones de modelos grandes. Es aún más difícil cubrir problemas emergentes como la seguridad del contenido generado, la defensa contra ataques contextuales y la confiabilidad de la salida del modelo. Más importante aún, los esquemas tradicionales carecen de medios de control de alta granularidad y mecanismos de retroceso visual, lo que lleva a que las empresas tengan un gran vacío en la gobernanza de la IA, sin saber dónde está el problema, lo que naturalmente impide la solución del mismo.
La verdadera fortaleza de AI Guardrail no es solo "puede detener", sino que, ya sea que estés trabajando con modelos de pre-entrenamiento, servicios de IA o diversas formas de negocios de IA Agent, sabe de qué estás hablando y qué está generando el gran modelo, proporcionando así una detección de riesgos precisa y capacidades de defensa proactiva, logrando cumplimiento, seguridad y estabilidad.
Específicamente, AI Guardrail es responsable de la protección en tres tipos de escenarios:
ꔷ Conclusión de cumplimiento: Llevar a cabo una revisión de cumplimiento multidimensional de la entrada y salida de contenido de texto de la IA generativa, cubriendo categorías de riesgo como la sensibilidad política, la pornografía y la vulgaridad, el sesgo y la discriminación, y los malos valores, detectar en profundidad los datos privados y la información confidencial que puede filtrarse durante la interacción con la IA, apoyar la identificación de contenido sensible que involucra la privacidad personal y la privacidad corporativa, y proporcionar identificación de marca de agua digital para garantizar que el contenido generado por IA cumpla con las leyes, regulaciones y especificaciones de la plataforma.
ꔷ Defensa contra amenazas: Se puede realizar detección e interceptación en tiempo real contra ataques externos como ataques de palabras clave, carga de archivos maliciosos, enlaces de URL maliciosos, evitando así los riesgos para los usuarios finales de aplicaciones de IA;
ꔷ Salud del modelo: prestar atención a la estabilidad y fiabilidad del propio modelo de IA, estableciendo un conjunto completo de mecanismos de detección para problemas como el jailbreak del modelo y los crawlers de Prompt, evitando el abuso, uso indebido o la generación de salidas incontrolables, construyendo una "línea de defensa inmunológica" para el sistema de IA;
Lo más notable es que AI Guardrail no se limita a apilar los múltiples módulos de detección anteriores, sino que logra una verdadera API TODO EN UNO, sin dividir módulos, agregar dinero o cambiar productos. Para los riesgos de entrada y salida del modelo, los clientes no necesitan comprar productos adicionales; Diferentes riesgos del modelo, como el riesgo de inyección, archivos maliciosos, cumplimiento de contenido, alucinaciones, etc., se pueden resolver en el mismo producto. Una interfaz puede detectar 10+ tipos de escenarios de ataque, admitir 4 métodos de implementación (proxy de API, integración de plataforma, acceso a puerta de enlace y montaje de WAF), respuesta de nivel de milisegundo y procesamiento simultáneo de 1,000 niveles, con una tasa de precisión de hasta el 99%.
Es por eso que el verdadero significado de AI Guardrail radica en convertir "seguridad del modelo" en "capacidad del producto", permitiendo que una interfaz reemplace a un equipo de seguridad.
Por supuesto, los modelos grandes no son un concepto abstracto, son sistemas que funcionan en hardware y código, y soportan aplicaciones de nivel superior. En cuanto a la seguridad de la infraestructura y la protección de los servicios de aplicaciones de IA, la seguridad de Alibaba Cloud también ha sido actualizada.
Capa de infraestructura, Alibaba Cloud Security lanzó el Centro de Seguridad en la Nube, cuyo núcleo son productos como AI-BOM, AI-SPM, entre otros.
En concreto, las dos capacidades AI-BOM (Lista de Materiales de IA) y AI-SPM (Gestión de la Situación de Seguridad de IA) abordan respectivamente las preguntas "¿Qué componentes de IA he instalado?" y "¿Cuántas vulnerabilidades tienen estos componentes?"
El núcleo de AI-BOM es capturar todos los componentes de IA en el entorno de despliegue: permitiendo que más de 30 componentes principales como Ray, Ollama, Mlflow, Jupyter, TorchServe, etc., formen una "lista de materiales de software de IA", identificando automáticamente las debilidades de seguridad y vulnerabilidades de dependencia que existen. La detección de activos problemáticos ya no depende de la búsqueda manual, sino que se realiza a través de escaneos nativos de la nube.
La posición de AI-SPM es más como un «radar»: evalúa continuamente la situación de seguridad del sistema desde múltiples dimensiones como vulnerabilidades, exposición de puertos, filtraciones de credenciales, configuraciones en texto claro y accesos no autorizados, proporcionando dinámicamente niveles de riesgo y recomendaciones de reparación. Transforma la seguridad de una «conformidad instantánea» a una «gobernanza en tiempo real».
Resumen en una frase: AI-BOM sabe dónde es posible que hayas aplicado un parche, AI-SPM sabe en qué otros lugares podrías recibir otro golpe, y debes intensificar la prevención lo antes posible.
Para la capa de protección de aplicaciones AI, el producto central de seguridad de Alibaba Cloud es WAAP (Protección de Aplicaciones Web & API).
Por más inteligente que sea la salida del modelo, si la entrada está llena de solicitudes de scripts, tokens falsificados y abusos de interfaces, no durará mucho tiempo. Alibaba WAAP (Protección de Aplicaciones Web y API) fue creado precisamente para esto. No trata las aplicaciones de IA como un "sistema web tradicional", sino que proporciona reglas de vulnerabilidad de componentes de IA, una base de datos de huellas dactilares de negocios de IA y un sistema de perfilado de tráfico.
Por ejemplo: WAAP ha cubierto más de 50 vulnerabilidades de componentes como la carga de archivos arbitrarios de Mlflow y la ejecución remota de comandos del servicio Ray; la biblioteca de huellas digitales de arañas AI incorporada puede identificar más de 10,000 nuevos corpus y herramientas de evaluación de modelos cada hora; la función de identificación de activos API puede descubrir automáticamente qué sistema interno de la empresa expone la interfaz GPT, proporcionando al equipo de seguridad un "mapa de puntos".
Lo más importante es que WAAP y AI Guardrail no son conflictivos, sino que se complementan: uno observa "quién ha llegado", el otro "qué se ha dicho". Uno actúa como un "verificador de identidad", el otro como un "revisor de comportamiento y discurso". Esto otorga a las aplicaciones de IA una capacidad de "autoinmunidad": a través de la identificación, aislamiento, rastreo y contramedidas, no solo "detiene a los malos", sino que también "evita que el modelo se estropee por sí mismo".
03 IA para Seguridad
Dado que la implementación de la IA es como lanzar un dado, no es sorprendente que algunos la usen para adivinaciones, otros para escribir poesías de amor, y algunos para actividades ilícitas, así que tampoco es extraño que algunos la utilicen para la seguridad.
En el pasado, la operación de seguridad requería un grupo de personas que miraran un montón de luces rojas y verdes de alarmas, patrullando día y noche, tomando el relevo de los problemas de ayer durante el día y acompañando al sistema durante la noche.
Ahora, todo esto puede ser realizado por la IA. En 2024, el sistema de seguridad de Alibaba Cloud se integrará completamente con el modelo grande Tongyi y lanzará un conjunto de capacidades de IA que cubren la seguridad de datos, la seguridad de contenido, la seguridad de negocios y la operación de seguridad, además de presentar un nuevo lema: Protect at AI Speed.
El significado es claro: los negocios avanzan rápido, los riesgos aún más rápido, pero la seguridad debe ser aún más rápida.
Y usar la IA para resolver la seguridad, en realidad son dos cosas: mejora de la eficiencia de las operaciones de seguridad + actualización inteligente de los productos de seguridad.
El mayor punto débil de los sistemas de seguridad tradicionales es la "actualización de políticas retrasada": los atacantes han cambiado, pero las reglas no; las alertas llegan, pero nadie las entiende.
La clave del cambio que traen los grandes modelos radica en pasar de un sistema de seguridad impulsado por reglas a uno impulsado por modelos, construyendo un ecosistema cerrado con "capacidad de comprensión de IA + retroalimentación del usuario": comprensión del comportamiento del usuario por parte de la IA → resultados de alerta de retroalimentación del usuario → entrenamiento continuo del modelo → capacidad de detección cada vez más precisa → ciclos cada vez más cortos → el riesgo se vuelve cada vez más difícil de ocultar, lo que se denomina "rueda de datos":
Sus ventajas son dos:
Por un lado, se mejora la eficiencia de las operaciones de seguridad de los inquilinos de la nube: en el pasado, la detección de amenazas a menudo significaba un modelo ineficiente de "alertas masivas + detección manual". Hoy en día, el modelado inteligente identifica con precisión comportamientos anormales como el tráfico malicioso, la intrusión de host y los scripts de puerta trasera, y la tasa de aciertos de alarma ha mejorado considerablemente. Al mismo tiempo, alrededor del enlace de eliminación, el sistema se ha dado cuenta de la profunda sinergia entre la eliminación automática y la respuesta extremadamente rápida: la pureza del host es estable al 99% y la pureza del flujo es cercana al 99,9%. En la actualidad, la tasa de cobertura de los tipos de eventos de alarma ha alcanzado el 99%, y la tasa de cobertura de usuarios de los modelos grandes también ha superado el 88%, y la eficiencia humana del equipo de operaciones de seguridad se ha desatado sin precedentes.
Por otro lado, la capacidad de los productos de seguridad en la nube ha mejorado rápidamente. En la capa de seguridad de datos y la capa de seguridad empresarial, la IA ha sido asignada la responsabilidad de "portero": basada en la capacidad de grandes modelos, puede identificar automáticamente más de 800 tipos de datos de entidad en la nube y realizar desensibilización y encriptación inteligentes. No se limita a los datos estructurados, el sistema también incorpora más de 30 modelos de reconocimiento de documentos e imágenes, que pueden identificar, clasificar y encriptar en tiempo real información sensible como números de identificación en imágenes y elementos de contratos. La eficiencia general de etiquetado de datos ha aumentado 5 veces y la tasa de precisión de identificación ha alcanzado el 95%, lo que reduce en gran medida el riesgo de filtración de datos de privacidad.
Un ejemplo: en el escenario de seguridad de contenido, la práctica tradicional es depender de la revisión humana, etiquetado y entrenamiento de etiquetado a gran escala. Ahora, a través de la ingeniería de Prompt y el aumento semántico, Alibaba ha logrado un aumento del 100% en la eficiencia de etiquetado, un aumento del 73% en el reconocimiento de expresiones vagas, un aumento del 88% en el reconocimiento de contenido de imágenes y una tasa de precisión del 99% en la detección de ataques de cara viva de IA.
Si el volante se centra en la defensa autónoma combinando IA y la experiencia humana, entonces el asistente inteligente es el asistente todoterreno del personal de seguridad.
El problema más común que enfrentan los operadores de seguridad todos los días es: ¿qué significa esta alerta? ¿Por qué se activó? ¿Es una falsa alarma? ¿Cómo debo manejarlo? En el pasado, para resolver estas preguntas, se necesitaba revisar los registros, consultar el historial, preguntar a empleados veteranos, enviar órdenes de trabajo, contactar soporte técnico... Ahora, solo se necesita una frase.
Sin embargo, la función del asistente inteligente no se limita a ser un robot de preguntas y respuestas, sino que se asemeja a un Copilot vertical en el campo de la seguridad, cuyas cinco capacidades centrales incluyen:
Asistente de preguntas sobre productos: responde automáticamente cómo configurar una función específica, por qué se activa esta estrategia y qué recursos no tienen protección, reemplazando una gran cantidad de servicios de tickets.
Experto en interpretación de alarmas: ingrese el número de alarma, genere automáticamente la interpretación del evento, la trazabilidad de la cadena de ataque y la estrategia de respuesta recomendada, y soporte salida en varios idiomas;
Asistente de revisión de incidentes de seguridad: organiza automáticamente la cadena completa de un incidente de intrusión, generando una línea de tiempo, un mapa de ruta de ataque y sugerencias de determinación de responsabilidades;
Generador de informes: genera informes de seguridad mensuales/trimestrales/de emergencia con un solo clic, que cubren estadísticas de eventos, retroalimentación sobre la gestión y efectividad operativa, y soporta exportación visual.
Soporte para todos los idiomas: ya se ha cubierto el chino y el inglés, la versión internacional se lanzará en junio, y soporta la adaptación automática a los hábitos de uso de equipos en el extranjero.
No subestimes estas "cinco pequeñas cosas". Hasta ahora, los datos oficiales de Alibaba indican que se han servido más de 40,000 usuarios, con una satisfacción del 99.81% y una cobertura del 100% de los tipos de alarmas. La capacidad de soporte de prompt ha aumentado un 1175% (en comparación con el FY24). En pocas palabras, empaqueta a los colegas que hacen el turno nocturno con la máxima puntuación, a los pasantes que escriben informes, a los ingenieros que manejan alarmas y a los consultores de seguridad que comprenden el negocio, todo en una API. Gracias a esta capacidad, los humanos solo toman decisiones y ya no patrullan.
04 Epílogo
Al mirar hacia atrás, la historia nunca carece de "tecnologías revolucionarias", lo que falta son las tecnologías que puedan soportar la ola del segundo año.
Internet, P2P, blockchain, conducción autónoma... Cada ola de explosión tecnológica ha sido llamada "nueva infraestructura", pero al final, solo unas pocas que pueden atravesar el "vacío de gobernanza" se convierten en verdaderas infraestructuras.
La IA generativa actual se encuentra en una etapa similar: por un lado, los modelos florecen, el capital acude en masa y las aplicaciones rompen barreras; por otro lado, la inyección de palabras clave, la sobrepasación de contenido, la filtración de datos, el control de modelos, las vulnerabilidades están por todas partes, los límites son difusos y la responsabilidad está desenfocada.
Pero la IA es diferente de las tecnologías anteriores. No solo puede dibujar, escribir poesía, programar y traducir, sino que también puede imitar el lenguaje humano, hacer juicios e incluso mostrar emociones. Pero precisamente por eso, la fragilidad de la IA no solo proviene de fallos en el código, sino que es un reflejo de la humanidad. Si los humanos tienen prejuicios, ella también los aprenderá; si los humanos buscan conveniencia, ella también encontrará maneras de aprovecharse.
La conveniencia de la tecnología en sí misma es un amplificador de este mapeo: los antiguos sistemas de TI necesitaban hablar de "autorización de usuarios", y los ataques dependían de la infiltración; ahora, los grandes modelos solo requieren inyección de palabras clave, y una charla puede llevar a errores en el sistema y filtraciones de privacidad.
Por supuesto, no existe un sistema de IA "perfecto e impecable"; eso es ciencia ficción, no ingeniería.
La única respuesta es usar un modelo seguro para proteger un modelo inseguro; usar un sistema inteligente para contrarrestar amenazas inteligentes: lanzar el dado con IA, Alibaba elige el lado seguro.