El costo oculto de no saber pedir:
estructuras de instrucción y pérdida de valor en sistemas LLM

Una aproximación formal a la degradación del output cuando la estructura del prompt se aleja del vector de expectativa del modelo.

César Uribe 14 mayo 2025
Resumen El rendimiento de un modelo de lenguaje no depende únicamente de sus parámetros ni de su corpus de entrenamiento; depende, de manera crítica, de la estructura semántica de la instrucción que recibe. Este artículo propone una función de desviación δ(p, p*) que cuantifica la distancia entre el prompt efectivo y el prompt óptimo teórico, y examina las condiciones bajo las cuales dicha desviación supera un umbral de tolerancia τ, produciendo outputs cualitativamente degradados.

01Introducción: el problema de la traducción intencional

Cuando un profesional interactúa con un sistema de lenguaje, ocurre una operación que rara vez se nombra con precisión: la intención humana, difusa y cargada de contexto implícito, debe traducirse a un conjunto finito de tokens que el modelo pueda procesar. Esa traducción tiene estructura; y esa estructura tiene consecuencias.

La hipótesis central de este trabajo es que la mayor parte de la pérdida de valor en el uso cotidiano de modelos LLM no proviene de limitaciones del modelo, sino de ineficiencias en la capa de instrucción. Dicho de otro modo: el costo no está en el sistema; está en el operador.

La claridad no es una virtud de la escritura; es una condición de posibilidad del pensamiento transmisible.

1.1 Antecedentes y motivación

La literatura reciente sobre prompt engineering ha proliferado de manera notable1, pero en su mayor parte permanece en el nivel de heurísticas empíricas: "sé específico", "da ejemplos", "indica el formato". Lo que falta es una arquitectura que permita razonar sobre la estructura del prompt como un objeto formal, con propiedades medibles.

Representación abstracta de flujo de información en sistemas de lenguaje
Figura 1. Representación conceptual del flujo semántico desde la intención del emisor hasta el output del modelo. La degradación ocurre en la capa de codificación del prompt.

02Marco formal: función de rendimiento y desviación

Definimos el rendimiento de un prompt p aplicado a un modelo M con un objetivo O como la función escalar:

R = A_L(p)

donde:
  A_L  = alineación semántica del prompt p con la estructura
         de respuesta óptima del modelo L
  p    = prompt efectivo (lo que el usuario escribe)
  p*   = prompt estructuralmente óptimo (referencia teórica)

La función de desviación δ mide la distancia entre ambos:

δ(p, p*) = 1 - A_L(p) / A_L(p*)

Si δ > τ  →  degradación observable del output
Si δ ≤ τ  →  output dentro del rango de tolerancia

2.1 Componentes estructurales de la instrucción base

El prompt óptimo p* se construye sobre seis componentes en la estructura que denominamos Str_base. Cada componente reduce la ambigüedad en una dimensión semántica diferente:

flowchart TD
  P["Prompt Efectivo p"] --> S{{"Str_base"}}
  S --> O["Objetivo\nQué se espera obtener"]
  S --> Sa["Salida\nFormato y extensión"]
  S --> A["Advertencias\nLímites y restricciones"]
  S --> C["Contexto\nMarco situacional"]
  S --> E["Ejemplos\nAnclaje semántico"]
  S --> T["Tono\nRegistro y audiencia"]
  O & Sa & A & C & E & T --> R["R = A_L(p)"]
  style P fill:#EFEBe4,stroke:#2A5C5A,color:#1C1917
  style S fill:#2A5C5A,stroke:#2A5C5A,color:#F9F6F1
  style R fill:#EFEBe4,stroke:#2A5C5A,color:#1C1917
    

Figura 2. Arquitectura de los seis componentes de Str_base y su contribución a la función de rendimiento.

03Evidencia empírica: variación del output según completitud estructural

La siguiente tabla resume los resultados de una evaluación comparativa realizada sobre 240 prompts categorizados según el número de componentes Str_base presentes. El puntaje de calidad fue determinado mediante evaluación humana doble ciega en escala 1–10.

Componentes presentes n prompts Calidad media Desv. estándar δ promedio
1 (solo objetivo) 40 4.2 1.84 0.58
2–3 componentes 80 6.1 1.21 0.39
4–5 componentes 80 7.8 0.97 0.22
6 componentes (Str_base completa) 40 9.1 0.44 0.09
Fuente: evaluación interna. Modelo evaluado: claude-sonnet-4. Evaluadores: n=3 por prompt.

Los datos revelan una relación monótona entre completitud estructural y calidad de output. La reducción más significativa de varianza ocurre al pasar de 4–5 a 6 componentes, lo que sugiere que los últimos componentes operan principalmente como reductores de ambigüedad residual.

Figura 3. Calidad media del output (escala 1–10) por nivel de completitud estructural. Barras de error: ±1 desv. estándar. Visualización: D3.js v7.


04Conclusiones y líneas de trabajo futuro

La formalización del prompt como objeto estructural con propiedades medibles abre una línea de investigación que hasta ahora ha permanecido mayormente implícita en la práctica del prompting. La función δ(p, p*) propuesta aquí es una primera aproximación que deberá ser validada en condiciones controladas.

Las implicaciones para la formación de profesionales son directas: enseñar a construir prompts no es enseñar a "hablar con la IA"; es enseñar a reducir la función de desviación de manera sistemática, componente por componente, hasta que el output converja hacia la intención original del emisor.

Trabajos futuros deberían explorar la interacción entre los componentes, la variación de τ entre modelos, y la aplicación de Str_base a prompts de sistema en contextos de agentes autónomos.

prompt engineering LLM semántica formal IA aplicada OSAC
  1. Para una revisión representativa véase Wei et al. (2022) sobre chain-of-thought prompting, y el survey de Liu et al. (2023) sobre técnicas de prompt engineering sistematizadas.