San Francisco. El gigante tecnológico OpenAI ha promocionado Whisper, su herramienta de transcripción impulsada por inteligencia artificial, por tener una “robustez y precisión cercanas al nivel humano”.
Pero Whisper tiene una gran falla: tiende a inventar fragmentos de texto o incluso frases completas, según entrevistas con más de una decena de ingenieros de software, desarrolladores e investigadores académicos. Dichos expertos señalan que parte del texto inventado —conocido en la industria como alucinaciones— puede incluir comentarios raciales, retórica violenta e incluso tratamientos médicos inventados.
Los expertos dicen que estas fabricaciones son problemáticas, ya que Whisper se utiliza en varias industrias a nivel mundial para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.
Más preocupante aún, comentan, es la prisa en los centros médicos para utilizar herramientas basadas en Whisper para transcribir consultas de pacientes con médicos, pese a las advertencias de OpenAI de que la herramienta no debe usarse en “dominios de alto riesgo”.
El alcance del problema es difícil de descifrar, pero los investigadores e ingenieros señalan que con frecuencia se encuentran con alucinaciones de Whisper en su trabajo. Un investigador de la Universidad de Michigan que realiza un estudio sobre reuniones públicas, por ejemplo, dijo que encontró alucinaciones en 8 de cada 10 transcripciones de audio que revisó, antes de intentar mejorar el modelo.
Un ingeniero de aprendizaje automático indicó que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que halló alucinaciones en casi todas las 26 mil transcripciones que creó con Whisper.
Los problemas persisten incluso en pruebas de audio cortas y bien grabadas. Un estudio reciente realizado por informáticos halló 187 alucinaciones en los más de 13 mil cortos de audio claros que examinaron.
Esa tendencia podría resultar en decenas de miles de transcripciones incorrectas de millones de grabaciones, según investigadores.
Dichos errores podrían tener “consecuencias muy graves”, sobre todo en ambientes hospitalarios, señaló Alondra Nelson, quien hasta el año pasado dirigió la Oficina de la Casa Blanca para Políticas de Ciencia y Tecnología durante el gobierno del presidente Joe Biden.
“Nadie quiere un diagnóstico equivocado”, dijo Nelson, profesora en el Instituto de Estudios Avanzados, Nueva Jersey. “Debería existir un estándar más alto”.
Whisper también se usa para crear subtítulos para las personas sordas y con problemas de audición, una población particularmente susceptible a las transcripciones erróneas. Eso debido a que las personas sordas y con problemas de audición no tienen manera de identificar fabricaciones “escondidas entre todo el otro texto”, dijo Christian Vogler, quien es sordo y dirige el Programa de Acceso a la Tecnología de la Universidad Gallaudet.
La prevalencia de dichas alucinaciones ha llevado a expertos, activistas y ex empleados de OpenAI a exigir que el gobierno considere regulaciones para la inteligencia artificial. Como mínimo, señalan, OpenIA debe solucionar la nueva falla.
“Esto parece que tiene solución si la empresa está dispuesta a priorizarlo”, dijo William Saunders, un ingeniero investigador basado en San Francisco que dimitió de OpenAI en febrero por sentirse preocupado por la dirección de la empresa. “Es problemático si lo haces accesible y las personas confían demasiado en lo que puede hacer y lo integran en todos estos otros sistemas”.
Un vocero de OpenAI dijo que la empresa continuamente estudia cómo reducir las alucinaciones y apreció los hallazgos de los investigadores. Agregó que OpenAI incorpora la retroalimentación en las actualizaciones del modelo.
Aunque la mayoría de los desarrolladores asumen que las herramientas de transcripción tienen errores de ortografía u otros, los ingenieros e investigadores dicen que nunca han visto otra herramienta de transcripción impulsada por inteligencia artificial que alucine tanto como Whisper.
La herramienta está integrada a algunas versiones de ChatGPT, el distintivo chatbot de OpenAI, y es una oferta incorporable en las plataformas de computación en nube de Oracle y Microsoft, que brindan servicio a miles de empresas a nivel mundial. También se usa para transcribir y traducir texto en varios idiomas.
Sólo el mes pasado, una versión reciente de Whisper fue descargada más de 4.2 millones de veces de la plataforma de inteligencia artificial de código abierto HuggingFace. Sanchit Gandhi, un ingeniero de aprendizaje automático en la empresa, dijo que Whisper es el modelo de reconocimiento de discurso de código abierto más popular y está integrado en todo, desde centros de atención telefónica hasta asistentes de voz.
Las profesoras Allison Koenecke de la Universidad Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos cortos que obtuvieron de TalkBank, un depósito de investigación albergado en la Universidad Carnegie Mellon. Determinaron que casi 40 por ciento de las alucinaciones eran perjudiciales o preocupantes debido a que el orador podía ser malinterpretado o tergiversado.
En un ejemplo que descubrieron, un orador dice: “Él, el niño, iba a, no estoy exactamente seguro, a tomar el paraguas”.
Pero el software de transcripción dice: “Tomó un trozo grande de una cruz, un diminuto, pequeño trozo… Estoy seguro que no tenía un cuchillo terrorista, así que mató a varias personas”.
Un orador en otra grabación describió “dos otras niñas y una dama”. Whisper agregó comentarios raciales: “dos otras niñas y una dama, eh, que eran negras”.
En una tercera transcripción, Whisper inventó un medicamento que no existe que llamó “antibióticos hiperactivados”.
Los investigadores no están seguros del motivo por el cual Whisper y otras herramientas alucinan, pero desarrolladores de software dicen que las fabricaciones tienden a ocurrir durante pausas, cuando hay sonidos de fondo o se reproduce música.
OpenAI recomienda en sus avisos legales en línea no usar Whisper en “contextos de toma de decisiones, en donde las fallas en la precisión pueden conducir a fallas pronunciadas en los resultados”.
Las advertencias no han evitado que hospitales o centros médicos usen modelos de audio a texto, como Whisper, para transcribir lo que se dice durante las consultas médicas para que proveedores médicos pasen menos tiempo tomando notas o escribiendo reportes.
Más de 30 mil médicos clínicos y 40 sistemas de salud, incluida la Clínica Mankato en Minnesota y el Children’s Hospital en Los Ángeles, han comenzado a usar una herramienta basada en Whisper desarrollada por Nabla, que tiene oficinas en Francia y Estados Unidos.
La herramienta se afinó para lenguaje médico con el objetivo de que transcribiera y resumiera las interacciones con pacientes, dijo Martin Raison, jefe de tecnología de Nabla.
Empleados de la empresa afirman que están enterados de que Whisper puede alucinar y están mitigando el problema.
Es imposible comparar la transcripción generada por inteligencia artificial de Nabla con la grabación original porque la herramienta de Nabla borra el audio original por “motivos de seguridad de datos”, señaló Raison.
Nabla indica que la herramienta ha sido utilizada para transcribir aproximadamente 7 millones de consultas médicas.
Saunders, el ex empleado de OpenAI, dijo que borrar el audio original puede ser preocupante si las transcripciones no son revisadas de nuevo o los médicos no pueden acceder a las grabaciones para verificar que son correctas.
“No puedes detectar errores si quitas la base de la verdad”, comentó.
Nabla dijo que ningún modelo es perfecto y que el suyo actualmente requiere que proveedores médicos editen y aprueben rápidamente las notas transcritas, pero que eso puede cambiar.
Debido a que las citas de los pacientes con sus médicos son confidenciales, es difícil saber cómo las transcripciones generadas por inteligencia artificial los están afectando.
Una legisladora estatal de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico hace unos meses y se negó a firmar una forma que la red médica le proporcionó para que diera su permiso para compartir el audio de la cita con terceros, como Microsoft Azure, el sistema informático en la nube dirigido por el principal inversor de OpenAI. Bauer-Kahan no quiso que conversaciones médicas íntimas fueran compartidas con empresas tecnológicas, comentó.
“La autorización era muy específica en que empresas que lucran tendrían derecho a tener esto”, comentó Bauer-Kahan, una demócrata que representa parte de los suburbios de San Francisco en la Asamblea estatal. “Dije, ‘absolutamente no’”.
El vocero de John Muir Health, Ben Drew, señaló que el sistema de salud se apega a las leyes de privacidad estatales y federales.