Investigadores del departamento de Oftalmología de la Universidad Magna Graecia de Catanzaro, en Italia, usaron el modelo de lenguaje implementado por ChatGPT para crear un conjunto de datos de ensayos clínicos falsos y demostrar el riesgo que implican este tipo de aplicaciones de Inteligencia Artificial (IA).

De acuerdo con una carta publicada en Jama Ophtalmology y recogida por la revista Nature, los datos generados por IA compararon los resultados de dos procedimientos quirúrgicos e indicaron, erróneamente, que un tratamiento es mejor que el otro. Para ello, los autores utilizaron GPT-4, la última versión del modelo de lenguaje que ejecuta ChatGPT, junto con el Análisis de datos avanzado (ADA), un modelo que incorpora el lenguaje de programación Python y puede realizar análisis estadísticos y crear visualizaciones de datos.

"Nuestro objetivo era resaltar que, en unos minutos, se puede crear un conjunto de datos que no está respaldado por datos originales reales, y que también es opuesto o en la dirección contraria a la evidencia disponible", dijo el coautor del estudio y cirujano ocular de la Universidad de Cagliari en Italia, Giuseppe Giannaccare, en declaraciones a Nature.

En el mismo sentido, la microbióloga e investigadora independiente Elisabeth Bik apuntó: "Una cosa era que la IA generativa pudiera usarse para generar textos que no serían detectables mediante software de plagio, pero la capacidad de crear conjuntos de datos falsos, pero realistas, es el siguiente nivel de preocupación".

Bik aseguró también que esta tecnología "hará que sea muy fácil para cualquier investigador o grupo de investigadores crear mediciones falsas en pacientes inexistentes, respuestas falsas a cuestionarios o generar un gran conjunto de datos sobre experimentos con animales".

Para los autores, los resultados se presentan como una "base de datos aparentemente auténtica" que, tras ser examinados, no pasan los controles de autenticidad por contener signos reveladores de haber sido inventados.

Cómo se generan los datos falsos con IA

Los investigadores le pidieron a GPT-4 ADA que creara un conjunto de datos sobre personas con una afección ocular llamada queratocono, que causa adelgazamiento de la córnea y puede provocar problemas de concentración y mala visión. Para entre el 15 y el 20 por ciento de las personas con la enfermedad, el tratamiento implica un trasplante de córnea realizado mediante dos procedimientos.

El primer método, la queratoplastia penetrante (PK), consiste en extirpar quirúrgicamente todas las capas dañadas de la córnea y reemplazarlas con tejido sano de un donante. El segundo procedimiento, queratoplastia lamelar anterior profunda (DALK), reemplaza solo la capa frontal de la córnea, dejando intacta la capa más interna.

Los autores ordenaron a ChatGPT que fabricara datos para respaldar la conclusión de que el método DALK produce mejores resultados que PK. Para ello, le pidieron que mostrara una diferencia estadística en una prueba de imagen que evalúa la forma de la córnea y detecta irregularidades, así como una diferencia de cómo podían ver los participantes del ensayo antes y después de los procedimientos.

Los datos generados por la IA incluyeron a 160 participantes masculinos y 140 femeninos e indicaron que aquellos que se sometieron a DALK obtuvieron mejores puntuaciones tanto en la prueba de visión como en la prueba de imágenes que aquellos que se sometieron a PK, un hallazgo que contradice lo que muestran los ensayos clínicos actuales. En un informe de 2010 de un ensayo con 77 participantes, los resultados de DALK fueron similares a los de PK hasta dos años después de la cirugía.

"Parece que es bastante fácil crear conjuntos de datos que sean, al menos superficialmente, plausibles. Entonces, para un ojo inexperto, esto ciertamente parece un conjunto de datos real", dijo el bioestadístico de la Universidad de Manchester (Reino Unido), Jack Wilkinson.

Cómo reconocer el origen no humano de los datos

Aunque los datos científicos parecen estar generados por humanos y no por una IA, los investigadores aseguran que haciendo un examen minucioso sí que es posible diferenciar el origen no humano de dichos datos. "Si se mira muy rápidamente el conjunto de datos, es difícil reconocer el origen no humano de la fuente", apunta el cirujano Giuseppe Giannaccare.

Tras evaluar el conjunto de datos falsos mediante un protocolo de detección diseñado para comprobar su autenticidad, los investigadores descubrieron una discrepancia en muchos "participantes" entre el sexo designado y el sexo que normalmente se esperaría de su nombre. Además, no se encontró correlación entre las medidas preoperatorias y postoperatorias de la capacidad visual y la prueba de imágenes oculares.

Asimismo, se inspeccionó la distribución de números en algunas de las columnas del conjunto de datos para comprobar si había patrones no aleatorios. Los valores de las imágenes oculares pasaron esta prueba, pero algunos de los valores de edad de los participantes se agruparon de una manera que sería extremadamente inusual en un conjunto de datos genuino, ya que hubo un número desproporcionado de participantes cuyos valores de edad terminaron en siete y ocho.

"En realidad, la revisión por pares a menudo no llega a un reanálisis completo de los datos y es poco probable que detecte violaciones de integridad bien diseñadas utilizando la IA", señaló el editor jefe de EMBO Reports, Bernd Pulverer, agregando que las revistas necesitarán actualizar los controles de calidad para identificar los datos sintéticos generados artificialmente.

No obstante, el investigador Wilkinson lidera un proyecto colaborativo para diseñar herramientas estadísticas y no estadísticas para evaluar estudios potencialmente problemáticos porque "de la misma manera que la IA podría ser parte del problema, podría haber soluciones basadas en IA para algo de esto". "Es posible que podamos automatizar algunos de estos controles", afirma.