Amazon ha eliminado KiroRank, el panel con el que medía y clasificaba el consumo de inteligencia artificial entre sus desarrolladores, después de comprobar que el sistema incentivaba el uso improductivo en lugar del útil. El vicepresidente sénior Dave Treadwell ha pedido explícitamente a los empleados que no usen la IA «solo por el hecho de usarla».

El marcador que salió mal

Amazon puso en marcha KiroRank, un panel interno integrado en su plataforma de desarrollo Kiro, con el objetivo de que más del 80 % de sus ingenieros utilizasen herramientas de inteligencia artificial cada semana. El sistema medía el consumo de tokens de cada empleado y publicaba esas cifras en forma de clasificación interna, vinculándolas a las evaluaciones de desempeño.

Tokenmaxxing: cuando la métrica se convierte en el objetivo

La presión para escalar posiciones en el ranking derivó en una práctica que los propios empleados bautizaron como tokenmaxxing: ejecutar tareas sin valor real —repetitivas, personales o directamente carentes de sentido— con el único fin de acumular tokens y mejorar la posición en el marcador. El efecto colateral fue un aumento significativo de los costes de infraestructura en la nube de la propia empresa. Empleados consultados por medios especializados reconocieron sentir «mucha presión para usar estas herramientas», independientemente de si la tarea lo requería.

El giro de Dave Treadwell

Dave Treadwell, vicepresidente sénior de Amazon, comunicó esta semana el cierre de KiroRank. En su mensaje reconoció que el panel se había construido «con buenas intenciones», pero que había acabado generando costes innecesarios. Su instrucción fue directa: «Por favor, no uséis la IA solo por el mero hecho de usar la IA».

La métrica que viene: despliegues normalizados

Para sustituir al marcador de tokens, Amazon ha anunciado que medirá los llamados normalized deployments: líneas de código generadas con IA que efectivamente se integran en productos en producción. El cambio traslada el foco del volumen de consumo al impacto real en el trabajo entregado.

No es un caso aislado

Meta ha experimentado una dinámica similar en su organización interna, donde empleados competían por puntuaciones de consumo de IA en tableros equivalentes. El patrón confirma una tendencia más amplia: las métricas de adopción basadas en volumen de uso generan incentivos perversos que acaban penalizando a la propia empresa que las impone.

El análisis de Telecomatik

El error de Amazon es instructivo a escala pequeña: medir la adopción de IA por el número de veces que se usa, en lugar de por el problema que resuelve, produce el efecto contrario al buscado. Para una pyme, la pregunta correcta no es «¿cuánto usamos la IA esta semana?» sino «¿qué tarea concreta tardábamos X horas y ahora tardamos Y?». Definir ese caso de uso antes de implantar la herramienta evita tanto el gasto superfluo como la frustración del equipo.

Vía: Xataka

Fuentes consultadas:

Amazon cierra su marcador interno de uso de IA tras descubrir que sus ingenieros lo manipulaban para inflar estadísticas