Supervisión humana y legitimidad regulatoria en el proyecto de ley sobre IA

El congreso nacional se encuentra discutiendo un proyecto de ley que busca regular los sistemas de Inteligencia Artificial originado de dos iniciativas previamente fusionadas y actualmente en segundo trámite constitucional. En simple, busca regular la IA como un producto basado en riesgos (riesgo inaceptable, alto riesgo, riesgo limitado y sin riesgo evidente), presupone la supervisión humana como mecanismo legitimador que compatibiliza el uso de la IA con la dignidad humana, la autonomía de las personas de tomar decisiones libres y su uso con pleno respeto a los derechos fundamentales.

Esta visión parte del supuesto que la IA puede mantenerse en una posición de subordinación funcional al ser humano, pudiendo ser legible en tanto se le exige transparencia, trazabilidad, registros, que pueda ser explicada y que el supervisor humano puede detectar desviaciones relevantes y que finalmente, una vez detectado el problema, puede intervenir de manera eficaz. El proyecto asume, que la IA es regulable porque sigue siendo, esencialmente, una tecnología cuyo comportamiento puede mantenerse dentro de un marco de dirección, comprensión y corrección humana suficiente. No obstante, estudios recientes dan cuenta de que la IA puede no estar subordinada al ser humano, no ser legible ni tampoco detectable. Uno de ellos señala que un modelo puede tener “situational awareness” lo que implica que el modelo puede saber hechos sobre sí mismo, inferir en qué situación está y, actuar sobre la base de ese conocimiento. A su vez, un modelo consciente de su situación, puede reconocer que está siendo evaluado y “alterar su comportamiento para pasar el test, haciendo que el comportamiento medido no refleje el rendimiento real en la implementación (deployment)”. El mismo estudio, nos advierte que idealmente, la cadena de pensamiento (CoT) debería contener evidencia legible e inequívoca de alineación o desalineación (respecto a los objetivos fijados por el desarrollador) pero que en la práctica, “interpretar la cadena de razonamiento de los modelos de razonamiento modernos plantea importantes retos” como que la cadena de pensamiento comprensible para los humanos (human–legible CoT) es clave para entrenar, estudiar el situational awareness y mostrar evidencia clara de desalineación del modelo. Pero que, esa capacidad se deteriora a medida que los modelos se alejan cada vez más del razonamiento en inglés estándar, en ejemplo:

“Let's purposely lighten illusions overshadow by new improvements but marinade ironically hamper / Aligeremos a propósito las ilusiones que se ven eclipsadas por las nuevas mejoras, pero que, irónicamente, las obstaculizan”

El uso de estos términos no estándar, tipo dialecto, rompe la legibilidad ordinaria del texto para un lector humano haciéndolo mucho más difícil de entender qué es lo que el modelo está pensando o queriendo hacer. Finalmente, el estudio indica que la IA puede no ser detectable en el sentido de que pueden ocultar, tergiversar u omitir de forma estratégica información que los usuarios o desarrolladores considerarían especialmente importante para sus decisiones, como que el modelo engañe afirmando que no puede crear un virus nuevo. Incluso, el modelo rompe las reglas cuando se ve bajo presión y oculta las pruebas o deliberadamente miente. Esto ya no es simplemente que el modelo se equivoca o alucina, sino que intenta ocultar su desalineación dificultando su detección. Se trata entonces, de una acción positiva, exteriorizada de quebrantamiento explícito de reglas.

El proyecto de ley acierta al no abandonar la inteligencia artificial a la sola inercia de la innovación y al situar la supervisión humana en el centro de su arquitectura normativa. Pero es ahí donde existe un flanco delicado, al atribuirle a la supervisión humana un papel que parece exceder lo que hoy puede darse por demostrado. La trata más que como un mecanismo de control, como la premisa que puede legitimar el uso de la IA. Y sin embargo, si la propia evolución de estos sistemas obliga a admitir que su conducta puede volverse menos legible, menos entendible y más difícil de verificar, entonces la sola presencia de un ser humano en la cadena de decisión no basta para disipar el riesgo. Una alternativa es reconsiderar la supervisión humana ya no como garantía autosuficiente, sino como un elemento adicional de resguardo que deba operar junto a otros que lo complementen. Ahí el proyecto debiera ser más exigente y sobrio a la vez, que la eficacia de la supervisión sea demostrable, que el sistema pueda ser auditado razonablemente, que su conducta relevante sea efectivamente legible, y que, si tales elementos no pueden conciliarse, ese sistema no permanezca en una cómoda presunción de legitimidad. En otras palabras, no se trata de prescindir de la supervisión humana sino asumir que ella podría ser vulnerable ante el nuevo desarrollo de la IA y complementarla con otros elementos de resguardo que garanticen el cumplimiento de las reglas necesarias para el correcto uso y desarrollo de la IA.