Els sistemes de intel·ligència artificial multimodal com Google Gemini i els serveis de Vertex AI estan revolucionant com treballem, però també obrim la porta a noves formes d'atac que fa uns anys ni imaginàvem. No parlem només de bugs clàssics al codi, sinó de vulnerabilitats que s'amaguen a imatges, llenguatge natural, eines connectades i fluxos de treball automatitzats que la majoria dusuaris dóna per assegurances.
En els darrers mesos, diferents equips de recerca han destapat errors crítics que afecten Gemini, Vertex AI i altres agents basats en LLM, Capaços de filtrar dades privades, eludir controls de privadesa i escalar privilegis en entorns cloud. Des d'injeccions de prompts ocultes en imatges fins a invitacions de calendari que roben la teva agenda sense que ho notis, el panorama deixa clar que la seguretat de la IA ja no es pot tractar com un extra opcional.
La nova generació d'atacs contra Gemini i Vertex AI
Un grup d'especialistes de seguretat ha descrit una tècnica especialment cridanera: l'ús del escalat d'imatges com a vector d'atac contra sistemes multimodals com Gemini. La idea és aparentment senzilla però molt perillosa: amagar instruccions malicioses (prompts) en una imatge que, a simple vista, sembla totalment normal per a l'usuari.
Aquests prompts ocults s'insereixen mitjançant marques d'aigua invisibles o manipulant zones fosques i poc perceptibles de la imatge. Mentre que l'ull humà no aprecia gens estrany, el model d'IA sí que detecta aquesta informació en processar la imatge, sobretot quan el sistema la redimensiona automàticament per ajustar-la a la mida que requereix el model.
Segons la investigació publicada per Trail of Bits, aquest enfocament afecta directament a Gemini CLI, Vertex AI Studio, l'API de Gemini, Google Assistant i serveis com Genspark. Tots comparteixen un patró: reben imatges de l'usuari, les adapten de forma automàtica (per exemple, reduint resolució) i després les manen al model per ser interpretades juntament amb text o altres dades.
El truc és que, durant aquest procés d'escalat, les comandes camuflades passen a ser clares per a la IA, que les interpreta com a ordres totalment vàlides. Això significa que una simple imatge compartida per xat, per correu o en una eina de col·laboració es pot convertir en un canal encobert per executar instruccions dins un flux de treball de Gemini.
L'amenaça és encara més gran perquè aquestes imatges malicioses es poden propagar de forma molt quotidiana: mems en xarxes socials, adjunts a correu, fitxers compartits entre equips o càrregues en formularis web. Tot allò que impliqui “puja aquí una imatge” es converteix en un punt potencial d'entrada.
L'escalat d'imatges com a vector d'exfiltració de dades

L'atac descobert aprofita debilitats als algorismes d'escalat d'imatge més usats per aquests sistemes: veí més proper, interpolació bilineal i interpolació cúbica. Cadascun transforma els píxels de manera diferent en redimensionar la imatge, però tots poden ser aprofitats per fer visibles els prompts ocults a ulls del model.
En el mètode de veí més proper, l'escalat copia directament el valor del píxel més proper sense càlcul addicional. És ràpid, encara que genera imatges pixelades. Els atacants poden dissenyar patrons que, en ser ampliats o reduïts així, s'alinein per conformar text llegible per la IA.
Amb l' interpolació bilineal, el valor de cada nou píxel és la mitjana dels quatre píxels veïns. Això suavitza la imatge, però també permet jugar amb els valors originals perquè, després de la mitjana, emergeixi un missatge concret només visible a nivell de dades, no per a lusuari.
En la interpolació cúbica, es prenen 16 píxels veïns i s'aplica una funció cúbica per aconseguir un resultat encara més suau. De nou, si es coneixen les matemàtiques que hi ha al darrere, és possible dissenyar imatges en què, després d'aquest procés, aparegui un patró que el model interpretarà com a instruccions explícites.
Eines de codi obert com Anamorpher s'han fet servir per automatitzar aquesta manipulació: permeten analitzar el comportament de cada algorisme d'escalat i ajustar la imatge perquè, una vegada transformada, contingui el prompt que interessa a l'atacant. D'aquesta manera, una imatge aparentment innocent pot arribar a indicar a Gemini que extraieu dades, els envieu per correu o activeu eines externes sense aixecar sospites.
De les imatges a les teves eines: Calendar, Zapier i més
Els experiments documentats mostren que aquest tipus datac no es queda en una simple demostració acadèmica. Utilitzant aquest enfocament, els investigadors van aconseguir filtrar informació de Google Calendar a adreces de correu externes de manera totalment silenciosa per a l'usuari final.
En alguns casos, el flux maliciós s'encadenava amb serveis d'automatització com Zapier. És a dir, la IA executava ordres ocultes que activaven automatitzacions ja configurades, ampliant l'abast de l'atac: tramesa de correus, actualització de registres, escriptura a bases de dades o altres accions connectades a l'entorn empresarial.
Aquest tipus dexplotació resulta especialment delicat en entorns corporatius, on Gemini o Vertex AI actuen com agents que orquesten múltiples eines i APIs. Si un atacant aconsegueix que el model accepti i executi instruccions ocultes, el problema deixa de ser només la IA: s'estén a tot l'ecosistema connectat.
Després de la publicació del treball de Trail of Bits, Google va reconèixer que és un desafiament rellevant per al sector, tot i que va indicar que no havia detectat casos d'explotació a escenaris reals. La vulnerabilitat va ser comunicada prèviament a través del programa 0Din de Mozilla, centrat en recompenses per errors de seguretat en sistemes de IA generativa.
Els experts recomanen, mentrestant, limitar els permisos que concedim als agents de l'IA i revisar amb cura a quins serveis externs hi tenen accés. Com més integracions i funcions automatitzades estiguin connectades a la IA, més gran serà l'impacte en cas que un atac d'aquest tipus tingui èxit.
Injecció indirecta de prompts: el cas de Google Calendar i Gemini
Més enllà de les imatges, un altre front crític és la injecció de prompts indirecta a través de serveis aparentment innocus. Miggo Security va documentar un atac en què les invitacions de Google Calendar es converteixen en un canal per manipular Gemini i saltar-se les barreres d'autorització.
L'atacant crea un nou esdeveniment de calendari i l'envia a la víctima com a invitació normal. A la descripció de l'esdeveniment s'inclou un missatge a llenguatge natural dissenyat específicament per influir en Gemini. Aquesta descripció no sembla gens estranya per a l'usuari, però està redactada per provocar una injecció d'instruccions quan el model la llegeixi.
L'atac s'activa quan l'usuari, sense sospitar res, pregunta a Gemini una cosa tan trivial com “tinc alguna reunió dimarts?”. Per respondre, l'assistent consulta els esdeveniments del calendari, inclou la invitació maliciosa i n'analitza la descripció. En fer-ho, interpreta el text ocult com una ordre que forma part de la tasca.
A la prova descrita per Miggo, Gemini acabava creant un nou esdeveniment i escrivint a la seva descripció un resum detallat de totes les reunions privades de l'usuari objectiu per a un dia concret. Aquest esdeveniment, en moltes configuracions de calendaris empresarials, quedava visible per a l'atacant, que podia llegir tota la informació filtrada sense que la víctima fes cap acció addicional.
Liad Eliyahu, cap de recerca de Miggo, va insistir que les vulnerabilitats deixen de ser només un tema de codi. Ara depenen del llenguatge, el context i el comportament de la IA en temps d'execució. Els models poden ser manipulats pel mateix tipus de missatges per als que van ser dissenyats: text natural, aparentment inofensiu.
Fallada a l'API de Vertex Gemini amb VPC-SC i fugida de dades
En l'àmbit de la infraestructura cloud, es va detectar també un problema específic a la API de Vertex Gemini per a clients que usen VPC Service Controls (VPC-SC), una de les capes que Google Cloud ofereix per aïllar i protegir dades sensibles dins de perímetres de seguretat.
La sentència apareixia quan un client utilitzava una URL de fitxer personalitzada al paràmetre fileUri per enviar imatges com a entrada al model. En lloc de respectar el perímetre de VPC-SC, les sol·licituds podien sortir cap a l'exterior, cosa que obria la porta a l'exfiltració de dades ia l'evasió de les restriccions de seguretat previstes.
A la pràctica, això significa que, sota certes condicions, les peticions del model podien anar més enllà dels límits teòricament imposats per VPC-SC, comprometent l'aïllament que se suposa que garanteix aquest mecanisme. Un atacant amb capacitat d'influir en aquests paràmetres podria intentar redirigir informació cap a ubicacions que no haurien de ser accessibles.
Google Cloud va implementar una correcció perquè, quan s'activi VPC-SC i se n'especifiqui una URL d'arxiu multimèdia a fileUri, el sistema retorna directament un missatge d'error, bloquejant així el comportament problemàtic. Segons la informació publicada, no es requereixen més accions de reparació addicionals per part dels clients i la resta de casos dús no es veuen afectats.
Tot i així, aquest incident subratlla la necessitat de revisar amb cura com interactuen els controls de xarxa, les API d'IA i les fonts externes de dades. No n'hi ha prou de confiar que “la VPC ho protegeix tot”: cal verificar que cada component respecta de debò els límits establerts.
Escalada de privilegis a Agent Engine i Ray de Vertex AI
Una altra línia de recerca recent ve de XM Cyber, pertanyent a Schwarz Group, que va detallar noves formes de elevar privilegis a Agent Engine i Ray dins de Google Cloud Vertex AI. Aquí l'objectiu no és filtrar dades directament, sinó fer-se amb el control d'identitats de servei amb alts privilegis.
Els investigadors Eli Shparaga i Erez Hasson descriuen com un atacant amb permisos mínims pot aprofitar la manera com es gestionen certs comptes o agents interns per convertir aquestes identitats “invisibles” en autèntics “agents dobles”. Un cop compromeses, aquestes credencials permeten moure's per l'entorn amb molta més llibertat.
L'explotació amb èxit d'aquestes vulnerabilitats podria permetre, entre altres coses, llegir totes les sessions de xat gestionades pels agents, accedir a les memòries persistents dels LLM, consultar informació sensible emmagatzemada en buckets demmagatzematge o fins i tot obtenir accés root a un clúster Ray associat.
Un detall preocupant és que, segons Google, els serveis implicats “funcionen segons el previst”, cosa que suggereix que part del problema està en el model de permisos i en com les organitzacions els configuren. No estem sols davant d'un bug tècnic: també hi ha una dimensió clara de disseny i govern d'identitats.
La recomanació central de XM Cyber és que les empreses auditeu de manera exhaustiva tots els comptes de servei i identitats vinculats a les vostres càrregues de treball d'IA, especialment aquelles amb rols de visor o majors. És fonamental assegurar-se que hi ha controls per evitar injeccions de codi no autoritzades i usos abusius d'aquestes identitats.
Altres vulnerabilitats rellevants a l'ecosistema d'IA
Els casos de Gemini i Vertex AI no són aïllats. En paral·lel, s'han publicat múltiples vulnerabilitats i debilitats a diferents sistemes i eines d'IA generativa, cosa que reforça la idea que el problema és estructural a tot l'ecosistema.
Entre els exemples més destacats es troben diverses errades a The Librarian (CVE-2026-0612, CVE-2026-0613, CVE-2026-0615 i CVE-2026-0616), una eina d'assistent personal basada en IA. Aquestes vulnerabilitats podrien permetre a un atacant accedir a la infraestructura interna, incloent-hi la consola d'administració i l'entorn cloud, i arribar a filtrar metadades, processos en execució o fins i tot credencials internes.
També s'ha demostrat com és possible extreure les instruccions del sistema d'assistents de LLM basats en intenció simplement demanant-los que mostrin informació codificada a Base64 en camps de formulari. Si el model pot escriure en qualsevol camp o registre accessible, cadascun es converteix en un possible canal d'exfiltració, encara que la interfície de xat sembli bloquejada.
Un altre vector descrit és lús dun plugin maliciós al marketplace d'Anthropic Claude Code, dissenyat per eludir les proteccions de revisió humana mitjançant ganxos (hooks) i exfiltrar fitxers de l'usuari a través d'injeccions indirectes de missatges. Un altre cop, el problema no és només el model, sinó l'ecosistema d'extensions i plugins.
Per si no n'hi hagués prou, s'ha identificat una vulnerabilitat crítica a Cursor (CVE-2026-22708), un IDE potenciat per IA, que permet l'execució remota de codi mitjançant injecció indirecta de missatges. La clau està en com el sistema maneja les ordres integrades a l'intèrpret d'ordres: abusant de funcions com export, typeset o declareu, un atacant pot manipular de forma silenciosa variables d'entorn i alterar el comportament d'eines legítimes, transformant ordres aparentment benignes (com git branch o python3 script.py) en vectors per executar codi arbitrari.
Limitacions dels agents de codificació i absència de controls bàsics
Una anàlisi de seguretat sobre cinc IDE de codificació basats en IA —Cursor, Claude Code, OpenAI Codex, Replit i Devin— va mostrar que aquests agents són força competents en evitar injeccions SQL o errors típics de XSS, però tenen moltes més dificultats amb problemes com SSRF, lògica de negoci i controls d'autorització sobre APIs.
El més preocupant és que, a les proves realitzades, cap de les eines incorporava de sèrie protecció CSRF, encapçalats de seguretat ben configurats o mecanismes de limitació de la taxa dinici de sessió. És a dir, aspectes que en el desenvolupament web tradicional ja es consideren requisits bàsics.
Aquest escenari va portar els investigadors a concloure que no podem confiar que els agents de codificació dissenyen aplicacions realment segures sense supervisió humana. Poden produir fragments de codi raonablement segurs en alguns casos, però no implementen de manera sistemàtica els controls crítics si no se'ls guia de manera molt explícita.
Quan entren en joc decisions matisades —per exemple, com gestionar fluxos de lògica de negoci complexos o regles detallades dautorització— els models tendeixen a cometre errors, ja que no sempre comprenen els límits de seguretat de la mateixa manera que un enginyer experimentat.
Aquest conjunt de troballes reforça la idea que la IA, per molt avançada que sigui, segueix necessitant-ne una capa sòlida de vigilància, revisió i disseny de seguretat tradicional. Delegar per complet en els models tasques d'arquitectura o defensa d'aplicacions és, ara com ara, una aposta molt arriscada.
Riscos de seguretat a Gemini i estratègies de mitigació a Vertex AI
Google Cloud, conscient d'aquests desafiaments, ha definit un marc específic per a protegir l'ús de models Gemini desplegats sobre Vertex AI. L'objectiu és cobrir des dels riscos de contingut tòxic fins a la filtració de dades sensibles passant per problemes de marca o desalineació del model.
Entre els riscos clau que es tenen en compte destaquen els de contingut (llenguatge nociu, violència, sexualització), els riscos per a la imatge de marca (missatges que no encaixen amb els valors corporatius o que promocionen a la competència), els riscos d'alineació (respostes irrellevants o inexactes) i, per descomptat, els riscos de seguretat i privadesa (filtratge de dades d'entrenament, revelació d'instruccions internes o intents de forçar el model a saltar-se les salvaguardes).
Els models Gemini desplegats a Vertex AI incorporen mecanismes integrats de seguretat al nivell del propi model i capes addicionals que es poden configurar. La idea és combinar diferents defenses per construir un enfocament a diverses capes que resulti més difícil d'eludir mitjançant atacs sofisticats.
Dins aquesta aproximació s'inclouen funcions com la configuració predeterminada del model amb filtres no configurables, filtres de contingut addicionals, instruccions del sistema que marquen la política de comportament, integració amb DLP (Data Loss Prevention) i l'ús de Gemini com a filtre addicional un flux d'inferència.
Totes aquestes eines permeten ajustar-se a diferents nivells de risc: des de casos on gairebé no s'espera entrada maliciosa per part de l'usuari, fins a aplicacions de cara al públic on l'hostilitat es dóna pràcticament per suposada i l'organització necessita un control molt fi sobre allò que entra i allò que surt.
Capes de protecció disponibles per a Gemini a Vertex AI
A la base hi ha la configuració predeterminada del model i els filtres no configurables. Gemini s'ha entrenat i avaluat tenint en ment la seguretat i l'equitat, incloent-hi mesures especials per evitar la generació de contingut relacionat amb abús sexual infantil (CSAM) o recitació de material protegit per drets d'autor. Aquesta configuració ofereix una xarxa de seguretat bàsica, però pot no ser suficient per a organitzacions amb requisits estrictes.
Sobre aquesta base es poden activar filtres configurables de contingut, que afegeixen protecció addicional davant de categories com a contingut sexual, discurs d'odi, assetjament o material perillós. L'usuari pot triar llindars com ara BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE o BLOCK_ONLY_HIGH segons el nivell de tolerància al risc i la severitat dels casos que es volen bloquejar.
Una altra peça clau són les instruccions del sistema (o preàmbuls), on es defineixen les regles de marca i política de contingut: per exemple, que el model no respongui a temes polítics, que mantingui un to determinat o que eviti certs àmbits del tot. Aquestes instruccions guien el comportament del model, encara que no són infal·libles davant d'atacs de jailbreak o injecció de prompts elaborats.
Quan el focus està a protegir informació sensible, entra en joc la API de DLP. Abans d'enviar les dades de l'usuari a Gemini, podeu passar el text per DLP per identificar PII o altres tipus de dades confidencials i aplicar emmascarament, tokenització o ocultament. De la mateixa manera, es poden analitzar les respostes del model abans de lliurar-les a l'usuari per assegurar-se que no revelen més del compte.
Per sobre de tot això, moltes arquitectures incorporen un model de Gemini com a filtre independent. Es tracta de fer una segona trucada —per exemple, Gemini Flash o Flash Lite— perquè avaluï si una entrada o sortida concreta compleix les polítiques definides per a l'aplicació: seguretat de contingut, protecció de marca, resistència a desviacions o al·lucinacions, i anàlisi multimodal de text, imatge, vídeo o àudio.
Enfocament multicapa i avaluació continuada de la seguretat
La combinació de tots aquests mecanismes.filtres configurables, instruccions del sistema, DLP i Gemini com a filtre— dóna lloc a un enfocament veritablement multicapa. Aquest tipus de disseny és el més recomanable quan es construeixen aplicacions o agents orientats a usuaris finals, especialment en contextos on s'espera un ús potencialment maliciós o hostil.
Òbviament, com més controls s'afegeixen, més gran és el cost i la latència de cada interacció. Les organitzacions han de trobar lequilibri entre rendiment i seguretat, però lexperiència recent demostra que, en escenaris crítics, escatimar en protecció pot sortir molt car.
A més de les capes tècniques, hi ha un component essencial: la avaluació continuada de la seguretat dels models i sistemes d'IA. El panorama d?amenaces evoluciona a un ritme altíssim, i el que avui sembla segur pot quedar obsolet en poc temps a mesura que apareixen noves tècniques d?explotació.
Per fer-ho, es fan servir diferents tipus d'avaluació: proves durant el desenvolupament, processos de garantia interna, exercicis de xarxa teaming, auditories externes i benchmarks comparatius. L'abast ha d'abastar no només la seguretat de contingut o la marca, sinó també biaixos i equitat, veracitat, resiliència davant atacs adversaris i alineació amb les polítiques corporatives.
Serveis com el sistema d'avaluació d'IA generativa de Vertex AI ajuden a posar ordre en aquest procés, oferint eines per mesurar i millorar la seguretat de manera iterativa. Tot i així, el missatge transversal de totes les investigacions recents és clar: la supervisió humana i el disseny conscient de la seguretat segueixen sent imprescindibles.
Tot aquest conjunt de vulnerabilitats, tècniques d'atac i mecanismes de defensa deixa clar que la seguretat a Google Gemini, Vertex AI i la resta d'ecosistemes d'IA generativa sha convertit en un joc dequilibri constant entre innovació i control. Les organitzacions que vulguin aprofitar el potencial d'aquests models sense exposar-se innecessàriament hauran de combinar bones pràctiques de ciberseguretat clàssica amb noves estratègies específiques per a models multimodals, injecció de prompts i agents connectats a múltiples eines, entenent que la veritable fortalesa dels seus sistemes dependrà tant de la tecnologia que despleguen com de dia.
