Google retira els resums d'IA en cerques mèdiques sensibles

  • Google ha desactivat els AI Overviews a consultes concretes sobre proves de funció hepàtica després d'una investigació de The Guardian.
  • Experts alerten que els resums d'IA oferien dades mèdiques sense context, ignorant factors com edat, sexe, ètnia o nacionalitat.
  • Organitzacions sanitàries reclamen que Google prioritzi fonts mèdiques fiables i abordi el problema de manera estructural, més enllà de casos aïllats.
  • El cas reobre el debat a Europa sobre el paper de la IA en salut i la responsabilitat de les grans tecnològiques en la informació mèdica en línia.

Google IA salut

Google ha decidit retirar part dels seus resums de salut generats amb intel·ligència artificial dels resultats de cerca, després que una investigació periodística demostrés que podien oferir informació mèdica errònia i potencialment perillosa. El moviment afecta les funcions conegudes com Visió general de l'IA, els quadres de resposta ràpida que apareixen a la part superior de Google Search.

La companyia sosté que aquests resums són en general útils i fiables per a la majoria dels usuaris, però el cas destapat pel diari britànic The Guardian ha posat al punt de mira com maneja Google les cerques relacionades amb la salut, un àmbit especialment sensible tant al Regne Unit com a la resta d'Europa.

Per què Google ha retirat els AI Overviews en salut

La polèmica va esclatar quan The Guardian va comprovar que els AI Overviews tornaven xifres d'anàlisis mèdiques sense el context adequat. En concret, en buscar "quin és el rang normal de les anàlisis de sang del fetge" o "quin és el resultat normal d'una prova de funció hepàtica", la IA de Google mostrava una llarga llista de valors numèrics presentats com a normals, sense matisar que aquests rangs depenen de múltiples factors personals.

Especialistes en hepatologia i portaveus d'organitzacions de pacients van advertir que aquesta manera de presentar la informació podia ser enganyosa per a persones amb malalties hepàtiques greus. Un usuari amb símptomes o antecedents podria veure els seus resultats dins d'aquests rangs genèrics, assumir que tot està bé i endarrerir la visita al metge de família oa un especialista, especialment preocupant en sistemes sanitaris com l'espanyol, on la detecció primerenca és clau.

Un dels punts més criticats és que els resums no tenien en compte variables bàsiques com l'edat, el sexe, l'ètnia o la nacionalitat del pacient. A la pràctica, això suposa barrejar referències de diferents laboratoris i països, generant una aparença de precisió que en realitat no se sosté clínicament.

Després de la publicació de la investigació, Google va procedir a desactivar els AI Overviews per a aquestes consultes concretes sobre funció hepàtica. Les cerques afectades, segons la pròpia anàlisi de The Guardian, van deixar de mostrar el requadre d'IA, encara que en molts casos el primer resultat orgànic va passar a ser precisament l'article que denunciava el problema.

Les consultes de salut més afectades: les anàlisis de funció hepàtica

Els exemples més cridaners estaven relacionats amb les conegudes proves de funció hepàtica, molt habituals tant en atenció primària com a hospitals europeus. Aquestes proves engloben un conjunt d'anàlisis (com ALT, AST, bilirubina, fosfatasa alcalina o GGT, entre d'altres) que requereixen una interpretació clínica individualitzada i no es poden resumir en un únic rang vàlid per a tothom.

Segons va explicar Vanessa Hebditch, directora de comunicacions i polítiques del British Liver Trust, les respostes generades per la IA de Google oferien llistes de números que ni tan sols sempre es corresponien amb la prova concreta que podia haver-se realitzat a un pacient. A més, no quedava clar que algú pogués tenir resultats aparentment normals i, tot i així, patir una malaltia hepàtica greu en fase inicial.

Hebditch va celebrar que Google hagi retirat aquests resums, en considerar-ho un pas necessari per evitar confusions. Tot i això, ha insistit que el problema va molt més enllà d'un parell de cerques: el preocupant és que la lògica amb què estan construïts els AI Overviews de salut pot reproduir el mateix error en altres consultes mèdiques.

El mateix diari britànic va comprovar que, canviant lleugerament la formulació de la pregunta a expressions com ara «rangs de referència per a proves de funció hepàtica» o «rang de referència LFT», seguien apareixent resums automàtics, almenys en les primeres hores després de destapar-se el cas. Només després de noves comprovacions es va constatar que Google també havia eliminat aquests resultats enriquits.

La resposta oficial de Google i els seus límits

Davant les crítiques, un portaveu de Google va declarar que l'empresa no acostuma a comentar retirades específiques dins del cercador. En lloc de donar detalls sobre quines consultes concretes han estat modificades, el representant es va limitar a assenyalar que la companyia treballa en «millores àmplies» i aplica les polítiques internes quan detecta que un contingut d'IA no té el context necessari.

El portaveu va afegir que un equip intern format per professionals mèdics va revisar les cerques assenyalades per The Guardian i, segons la versió, en molts casos la informació no era estrictament inexacta i estava recolzada per webs d'alta qualitat. La controvèrsia se centra, per tant, menys en si les dades eren falses i més en com es presentaven usuaris sense formació sanitària.

Aquesta matisació és rellevant per al debat europeu sobre la regulació de la IA en salut, ja que posa el focus a la responsabilitat de les grans plataformes a l'hora de contextualitzar els continguts. No n'hi ha prou amb enllaçar fonts serioses si el resum automatitzat pot induir interpretacions errònies en temes tan delicats com proves diagnòstiques o paràmetres clínics.

Per ara, la companyia no ha fet anuncis públics específics per a Espanya o altres països europeus sobre canvis addicionals als AI Overviews de salut. Tot i això, les decisions sobre el cercador solen aplicar-se de forma global, de manera que els usuaris d'Europa també veuran afectades les funcionalitats de l'IA quan es tracti de consultes similars a les detectades al Regne Unit.

Preocupació d'organitzacions de pacients i experts en salut

Més enllà del cas concret de les proves hepàtiques, diverses organitzacions han aprofitat el moment per alertar un problema més ampli: la dificultat de moltes persones per accedir a informació mèdica clara i fiable a internet. Sue Farrington, presidenta del Patient Information Forum, va definir la retirada d'aquests resums com «un bon primer pas», però va subratllar que encara hi ha massa exemples de contingut sanitari incorrecte generat per IA.

Per això, aquestes organitzacions demanen que Google i altres grans tecnològiques es comprometin a prioritzar enllaços cap a aplicacions sanitàries i organismes sanitaris de referència, com a serveis públics de salut, hospitals universitaris o associacions de pacients reconegudes. També reclamen que, en cerques clarament sensibles (per exemple, sobre càncer, salut mental o resultats de proves), la IA inclogui advertiments visibles per animar a acudir a un professional sanitari.

Farrington va recordar que milions d'adults al Regne Unit, Espanya i altres països europeus ja tenen problemes per entendre la informació mèdica tradicional, fins i tot quan prové de fonts oficials. Si s'hi afegeix una capa d'IA que condensa continguts complexos sense matisos, el risc de malentesos augmenta encara més.

En la mateixa línia, experts en tecnologia com Victor Tangermann, editor sènior del medi especialitzat Futurisme, consideren que el cas il·lustra de manera clara que els sistemes de IA generativa encara no estan preparats per substituir l'orientació mèdica professional. Tangermann apunta a la necessitat establir límits clars sobre on i com s'ha de desplegar aquest tipus de resums.

Implicacions per a Europa i per a la cerca mèdica en espanyol

Tot i que el cas ha saltat a la llum a través d'un mitjà britànic, les conseqüències arriben de ple a la Unió Europea, inclosa Espanya. La regulació europea sobre intel·ligència artificial, impulsada a través del Llei AI, ja preveu requisits específics per a sistemes d'alt risc, entre els quals s'inclou l'àmbit sanitari, cosa que podria influir en com Google i altres plataformes estructuren els seus productes de cerca.

A la pràctica, milions de persones a Europa utilitzen Google com primer punt de contacte amb dubtes de salut, abans fins i tot de trucar al vostre centre de salut o al servei de cita prèvia. Això fa que qualsevol error en la informació mostrada, encara que sigui subtil, tingui un impacte potencial en la manera com els usuaris interpreten símptomes, proves o tractaments.

Per a països amb sistemes sanitaris públics com l'espanyol, on es fomenten campanyes de cribratge i diagnòstic precoç, que un resultat de cerca desanimi algú a demanar cita amb el metge de capçalera pot anar en contra de les polítiques de salut pública. Per això l'interès de molts professionals perquè el cercador assenyali amb claredat que la interpretació d'anàlisi sempre s'ha de fer amb un facultatiu.

En entorns bilingües o multilingües, com algunes regions d'Espanya, s'hi afegeix a més la dificultat que les traduccions automàtiques i els resums generats mantinguin intactes els advertiments, matisos clínics i rangs de referència específics que poden variar segons el laboratori o el país.

Tot aquest debat reobre una qüestió de fons: fins a quin punt deu una eina com Google Search, ara reforçada amb IA generativa, involucrar-se en la interpretació de temes clínics complexos. L'episodi dels AI Overviews retirats en salut apunta que mentre no es garanteixi un context adequat i una supervisió mèdica sòlida, qualsevol intent de simplificar la informació sanitària amb intel·ligència artificial corre el risc de crear una falsa sensació de seguretat allà on el més prudent segueix sent consultar un professional.

Article relacionat:
Panasonic prova un servei de teleassistència mèdica amb tauletes