Los LLMs no recuerdan (las personas tampoco): estrategias para trabajar con memoria limitada

Mis “take away”  de la lectura de esta entrada de blog de Ethan Mollick:

  1. Los LLM son aduladores y lisonjeros por naturaleza, tienes que pedirles que sean críticos o “destructivos” para intentar que hagan análisis más ecuánimes. Pero nunca tendrás la seguridad de que te detecten todos los errores o te manifiesten abiertamente todas las cosas negativas, sobre todo si están analizando una propuesta que es un bodrio sideral
  2. Los LLM no tienen memoria a largo plazo. Cada plataforma tiene estrategias distintas para lidiar con el problema de superar la ventana de contexto. ChatGPT usa un FIFO (que, si estás conversando de manera iterativa profundizando sobre el mismo concepto, te da buen resultado porque realmente lo que importa es lo último en lo que estás trabajando). Claude hace “borrón y cuenta nueva”, pero antes, cuando detecta que se queda sin contexto, compacta la conversación (y la documentación subida), la guarda, inicia una nueva instancia y coge como punto de partida el resumen y, a partir de ahí, empieza a trabajar de nuevo. La forma en que trabaja CLAUDE es exactamente el modo que yo trabajo cuando tengo tareas con tiempo fragmentado (Que no puedo completar en una sesión de trabajo), por eso supongo que me gustan más los resultados que me da Claude que los de ChatGPT
  3. Además de lo anterior, el uso de Skills y Agents permite aliviar el problema de la memoria de contexto. Solo se activa lo que necesitas para una tarea y, además, puedes activar “hilos” en paralelo (cada uno con su propia memoria de contexto libre para ese hilo) que se comunican entre sí (los resultados de unos son las entradas para otros). Es una forma modular y analítica de resolver tareas (algo que yo también hago de manera natural: divido en subtareas que me caben en tiempo fragmentado y guardo la “preparación” intermedia para alimentar otras tareas)

 

He tenido que rebuscar un poco para clarificar los conceptos de skill y agent, este es mi resumen:

  • Skill (instrucciones/prompts y herramientas para realizar una tarea concreta)
    • Instrucción: descripción de cuándo usar el skill (ej. “Usa esto cuando la usuaria pregunte por X”)
    • Herramienta: un trozo de código, una API o una función (ej. buscar en Google, calcular una hipoteca)
  • Agent (deciden (razonar, planificar) qué herramienta usar, en qué orden las usan y qué hacer si algo sale mal). Puedes activar varios agentes en paralelo
    • Sigue un ciclo o un proceso: Analiza la meta: “¿Qué me han pedido?”; Planifica: “¿Qué pasos necesito y qué Skills debo usar?”; Ejecuta: Usa una Skill; Observa: “¿El resultado es lo que esperaba?”; Itera: Repite hasta terminar
Imagen generada con Gemini nano banana
Imagen generada con ChatGPT5.2

Visitas: 9

Reflexion sobre tecnologia

He leído varios blogs estos días donde me ha parecido que sus autoras-es se quejaban de que los “copilotos IA” están mal diseñados y que son los culpables de todos los malos usos que se les están dando. Igual no es lo que querían decir, pero es el mensaje que me ha calado.

Esto me ha llevado a dos reflexiones:

  1. Mejor llamarle herramienta porque no es un copiloto, por mucho que sus desarrolladores quieran denominarlo así porque vende mejor o más
  2. El problema no es del “copiloto”. El problema es del piloto. Si el piloto decide estrellar el barco contra el iceberg, no es problema del barco ni del iceberg. Las tecnologías no son «neutras», eso es cierto, pero el uso (o no uso) que decide darles cada persona es lo que determina el impacto.

Visitas: 3

Hechos, inferencias, opiniones y percepciones (no es todo lo mismo)

Como diría Alejandro Sanz, no es lo mismo. Por mucho que en el día a día, en las conversaciones o en las decisiones, eso que llamamos “la gente” (que no deja de ser un eufemismo para evitar reconocer que “la gente”, como hacienda, somos todos) parece querer convencernos, y convencerse, de que sus opiniones son inferencias basadas en hechos, cuando son solo opiniones.

Como estas tres palabras representan claramente cosas distintas, voy a detallar en esta entrada qué son y dar algunos ejemplos de cada una, para intentar, en la medida de lo posible, que en el futuro llamemos a las cosas por su nombre, evitando considerarlas como sinónimos.

Hechos

Un hecho es una afirmación que describe algo que ha ocurrido o está ocurriendo. Los hechos pueden comprobarse mediante observación directa, medición, documentación o evidencia empírica, de modo que son verificables de manera objetiva e independiente de las opiniones (o de la persona que observa el hecho). De modo que diferentes observadores pueden llegar al mismo resultado al porque describen “qué es” o “qué pasó”, y no “qué debería ser” o “qué les gustaría que fuera”.

Ejemplos de hechos: “la temperatura es de 25°C”, “María tiene 30 años”, “el experimento produjo 50ml de solución”, “la empresa tuvo pérdidas de 1 millón de euros en 2024”.

Inferencias

Las inferencias son conclusiones lógicas que se derivan de hechos (evidencias, datos o premisas disponibles) mediante un proceso de razonamiento. Las inferencias pueden evaluarse y resultar correctas o incorrectas. Su validez depende de la calidad del razonamiento y de la (veracidad) de las evidencias o premisas usadas en el razonamiento.

Por ejemplo: “si llueve, las calles estarán mojadas” o “como las ventas disminuyeron un 30% este trimestre, probablemente necesitamos revisar nuestra estrategia de marketing”.

Debemos tener en cuenta que los hechos pueden interpretarse de diferentes maneras. Es decir, podemos extraer diferentes inferencias. El hecho “Las ventas bajaron un 30%” es verificable, pero las interpretaciones sobre por qué bajaron (“fue por la mala estrategia de marketing”) ya son una inferencia que debe contrastarse adicionalmente (no basta que el hecho sea verificado y cierto para que la inferencia lo sea).

Opiniones

Las opiniones son juicios de valor o puntos de vista personales que reflejan preferencias, creencias, sentimientos o valoraciones subjetivas. Las opiniones están influidas por experiencias personales, valores, cultura y emociones. Pueden ser válidas para quien las expresa, pero no pueden demostrarse como verdaderas o falsas de manera objetiva.

Por ejemplo: “esta clase es aburrida”, “el lean es mejor que la Gestión de Operaciones tradicional”, o “deberíamos invertir más en formación de empleados”. 

Percepciones

Interpretaciones subjetivas e inmediatas de la realidad, filtradas por nuestros sentidos, experiencias y marcos mentales. A diferencia de los hechos, dos personas pueden tener percepciones distintas del mismo evento. A diferencia de las opiniones, no siempre son juicios de valor conscientes. A diferencia de las inferencias, no requieren razonamiento deliberado.

La clave está en reconocer que “yo percibo X” no significa que X sea un hecho, pero tampoco invalida la experiencia de quien percibe.

Visitas: 7

¿Te da miedo que la IA sea mejor que tus estudiantes? A mí no

He comparado la respuesta de Claude-sonnet-4 y las de 4 grupos de estudiantes de máster (5 personas en cada grupo) con un caso que he preparado como diagnóstico inicial para comprobar las competencias de mis estudiantes el primer día de clase.

Mis estudiantes han estado trabajando 2 horas sobre un caso de 5 páginas donde su tarea estaba descrita en un párrafo y el resto era información de contextualización.

El Prompt usado con Claude-sonnet-4 en poe.com era simplemente el párrafo de descripción de la tarea a realizar sin ningún contexto adicional (ni de nivel de estudios, ni de contexto… nada). 

“resuelve este caso “”Formas parte de un proyecto que pretende alinear el uso de Inteligencia Artificial (IA) con los valores y objetivos estratégicos de la UPV, de modo que la IA ayude a construir
en lugar de minar el futuro que queremos ser.
Como grupo, debéis manifestar vuestro punto de vista, como estudiantes universitarios,
sobre cómo percibís la IAgen, explorar los problemas o inquietudes que os genera en los
diferentes usos o funciones en las que os afecta como estudiantes en la universidad y
clasificarlos/filtrarlos. Para acabar proponiendo un listado de recomendaciones (o guías)
de uso que sugerís para resolver las causas que originan los problemas que consideráis
como principales y un plan para la implementación de esas recomendaciones.”””

Todos los grupos de estudiantes, en lugar de hacer unas guías para estudiantes, han hecho recomendaciones para la universidad o sus equipos directivos. Claude-sonnet-4 ha cometido exactamente el mismo error en la primera iteración. No obstante, su informe ha sido mucho mejor que el de cualquiera de los grupos.

Le he pedido a la IA una segunda iteración: “las recomendaciones que has dado son para la institución, no has respetado la tarea que era crear recomendaciones para los estudiantes. Por otra parte, ajusta el reporte al modelo triple diamante”. En este caso ha clavado las recomendaciones, aunque su interpretación de lo que era el “framework” de triple diamante dejaba mucho que desear, pero le hubiera puesto un 5 o un 6 de nota a ese ejercicio (los ejercicios de mis estudiantes no creo que pasen de un 2 o un 3, pero a ellos no les he dado la oportunidad de repetirlo).

Conclusión:

Cuando les pido a mis estudiantes, a PRINCIPIO de curso que resuelvan un caso y les valoro en base a los resultados de aprendizaje que esperaría que tuvieran a FINAL de curso, la IA generativa les da “mil vueltas” (o por lo menos una decena).

Lo interesante aquí es qué pasará al final del curso cuando mis estudiantes hayan superado los resultados de aprendizaje esperados. La IA generativa no mejorará su nota de 5-6 (salvo que estemos ante un nuevo modelo), entonces creo que serán mis estudiantes los que le darán mil vueltas a la IA generativa.

Visitas: 29

DECIDE – Design and Evaluation of Collaborative Intervention for Decision Enhancement

Extended Title: Action research on designing materials, protocol, and feasibility of a complex intervention to foster critical thinking and apply the triple diamond framework in group decision-making.

This project aims to enhance students’ critical thinking and decision-making skills by developing, testing, and refining a structured group decision-making framework called the triple diamond. It focuses on identifying misconceptions that hinder students’ use of this framework and improving pedagogical interventions through active, collaborative learning and evidence-based methodologies.

  • Project scope and participants: The innovation will be implemented across multiple courses in engineering, logistics, and business master’s programs, involving diverse student groups facing recurring difficulties in applying structured decision-making methods.
  • Problem identification: Students consistently rely on intuitive rather than structured approaches in group decisions, struggling to apply the triple diamond framework despite repeated instruction and practice. This issue is persistent and mirrors challenges observed in professional settings.
  • Theoretical foundations: The project integrates concepts of misconceptions, knowledge elicitation, threshold concepts, and decoding the discipline to reveal and address barriers to expert-like thinking in decision processes. It emphasizes the reorganization of knowledge fragments rather than the mere replacement of incorrect ideas.  
  • Learning objectives: Students will learn to manage group decision processes using the triple diamond, define tasks and prioritization criteria explicitly, analyze innovation competencies, and develop reasoned, evidence-based reports, all enhancing critical thinking skills.
  • Methodology: The project employs active and collaborative learning through structured three-hour classroom dynamics complemented by autonomous preparatory work. It incorporates innovative visual case representations, reflective learning journals, and think-aloud protocols to elicit student thinking and identify misconceptions.
  • Expected outcomes: These include identifying common misconceptions, adapting and developing rubrics for assessment, quantifying students’ valuation of innovation competencies, improving decision quality and reducing cognitive biases, and evaluating the impact of different case presentation formats on engagement and critical thinking.
  • Work plan and tools: The two-year plan details tasks such as material development, rubric adaptation, protocol design, experimental validation, and dissemination through academic articles and conferences. Project management uses O365 tools with regular team meetings and quality control processes.
  • Evaluation strategy: Evaluation includes measuring the number and categorization of misconceptions, rubric validation, analysis of student preferences and clusters, transferability assessments, pre-post intervention comparisons, and engagement metrics using established models. Data collection involves think-aloud sessions, forum analyses, and observations.
  • Impact and dissemination: The project aims to improve teaching and learning by making decision-making processes transparent and evidence-based, enabling transfer across disciplines and formats, including MOOCs. Results will be shared via conferences, indexed publications, online platforms, and social media, ensuring broad accessibility and adoption.

#PI-DECIDE

Visitas: 27