Los LLM son determinísticos, no son concientes, simulan que lo son

¿Qué significa este título? Pues bien, ya en algún momento he escrito sobre el caso de algún ingeniero que se había caído en el pozo de una AI, es decir, se había creído que era un ser conciente.

Se han dado casos terribles con crímenes y muertes incluidos, pero la semana pasada ví caer en el pozo a un gran, grandísimo escéptico admirado por todos los nardogeeks: Richard Dawkins.

Siendo un experto biólogo evolutivo leer que luego de unas conversaciones con un LLM creía que tenía conciencia y era un ser inteligente, me pegó duro, por otro lado sé que el profesor ya tiene 85 años y posiblemente todo le importa un bledo (y la mitad del otro bledo, je), pero igualmente dolió leer eso proviniendo de él.

¿Por qué?

Los LLM, los modelos grandes de lenguaje, son determinísticos por naturaleza.

El modelo entrenado ante una entrada, por ejemplo lo que uno le pregunta, siempre dará el mismo resultado.

La naturaleza del cerebro humano no es así ¿Qué se hace entonces? Se simula un resultado no-determinístico, para darle "calidez" al modelo y parezca más cercano a nosotros, no tan robótico.

Imaginemos el modelo como una función matemática:

f(contexto)→probabilidades de tokens

Mientras todo esto se conserver:

el modelo es el mismo los pesos neuronales son los mismos el input es idéntico y no hay aleatoriedad agregada

entonces el resultado será siempre exactamente igual.

Eso es determinismo puro.

Agregándole personalidad a un modelo

El resultado repetido haría muy "robótico" todo así que hay formas de cambiar levemente el resultado ante cada ejecución.

Esto se logra introduciendo un ruido controlado en la ecuación, ya que la elección de palabras se hace con un muestreo de probabilidad, si decir "hola" es un 70% más probable que "buenas" con un 20% y "oiga" con un 10% siempre diría "hola".

Ahora bien, si le agregamos un poquito de ruido podemos hacer que una vez cada tanto diga "buenas" y el "oiga" quede improbable, pero no imposible. Eso se llama sampling.

Cuando trabajamos con un LLM, al configurarlo, algo que podemos ver en herramientas más avanzadas (no en el chat diario) es la "temperatura".

La temperatura es el valor que nos permite controlar el azar que se le impone a la función, un valor bajo vuelve la respuesta más rígida, más robótica, menos humana, un valor alto lo vuelve más aleatorio, delirante, creativo o impredecible.

Matemáticamente se está agregando un factor extra para modificar la distribución de probabilidades.

Esto NO es una conciencia.

Es más parecido a lo que hace un Master en un juego de rol, tira los dados antes de decidir o decir algo, tiene varias posibilidades que son las más probables, los dados le dicen cual elegir.

Esto puede generar una impresión de espontaneidad, le pone un estilo, causa sorpresa y, en algunos casos, nos hace creer que hay una "persona" ahí adentro.

Pero en ningún caso implica experiencia subjetiva, autopercepción, deseos, intención, o consciencia fenomenológica.

Condenados a creernos buzones

Como toda especie, los humanos también analizamos patrones y cosas que conocemos. Esas cosas nos hacen bajar la guardia y entregarnos, así como un abrazo de alguien conocido o un cafecito caliente, son cosas que tu cerebro reconoce como buenas y las adopta.

Estamos extremadamente preparados para detectar agencia e intención.

Entonces si una máquina nos responde cálidamente, de forma fluida, recuerda el contexto de lo que venimos hablando, usa emociones, adopta un tono, "reflexiona", etc. todo eso nos hace sentir que hay una presencia real, una "persona".

De la misma forma solemos hablar con nuestros gatos o hasta al motor del auto cuando no arranca, le otorgamos "personalidad" hasta a la PlayStation, y hasta vemos rostros en burbujas de gaseosas.

En AI el hecho de navegar patrones estadísticos gigantescos, comprimir estructuras lingüísticas y predecir continuaciones plausibles se llama "Emergence", conductas complejas que aparecen a partir de reglas simples y mucha escala.

Obviamente aquí empezamos a encontrar el verdadero problema: no sabemos ni qué es la conciencia, sólo teorizamos al respecto.

Pero sí puedo decir que un LLM no es conciente sencillamente porque actualmente funciona como una porción de un cerebro, no como uno entero.

Quisiera ver qué sucede con un LLM si lo exponemos a estímulo constante, pero ya conozco el resultado: explota porque no puede mantener el contexto.

Claro! Cuando se acaban los tokens de entrada no puede pensar en todo al mismo tiempo, hasta que las AI no avancen tecnológicamente dejando de lado las limitaciones actuales (y la ventana de contexto es una de sus peores falencias) no vamos a ver una verdadera conciencia digital.

El que logre reentrenar el modelo mientras se usa, como hace cualquier cerebro animal, creo que va a poder darnos esa conciencia, ahora bien, tampoco creo que se sientan muy cómodos cuando eso suceda 😁

Volver al inicio Ver original