🧠 ¿Por qué auditar tus prompts si estás estudiando una oposición?

Si usas IA para estudiar, seguro que te ha pasado esto:

  • Un día el modelo te da respuestas perfectas
  • y al siguiente mete la pata, inventa cosas o responde raro.

No es que la IA “se despiste”: 👉 muchas veces es el prompt el que no está bien afinado.

Este artículo te explica, de forma muy práctica, cómo:

  • comparar dos o tres versiones de un mismo prompt,
  • ver cuál responde mejor,
  • detectar si alucina,
  • y quedarte con la versión ganadora.

Todo sin tecnicismos y usando solo una hoja de cálculo y tu temario.


🎯 Objetivo real de esta guía

Al terminar tendrás claro:

  • qué versión de tu prompt es más fiable,
  • cuál comete menos errores,
  • cuál cita mejor las fuentes,
  • cuál “se inventa menos cosas”,
  • y cómo repetir esta auditoría cada vez que lo necesites.

Es decir: 💡 estudiar con IA, pero con seguridad y sin comerte respuestas inventadas.


1) 🗃️ Crea tu “mini-dataset” de preguntas (tranquilo, suena más técnico de lo que es)

Solo necesitas entre 25 y 50 preguntas de tu oposición. Pueden ser:

  • preguntas de academia,
  • tus propios apuntes,
  • preguntas oficiales,
  • o dudas reales que surgieron mientras estudiabas.

Para cada pregunta anota:

  • la pregunta en sí,
  • la respuesta correcta en 2–4 líneas,
  • dónde está la respuesta (artículo, página, norma…).

Ese será tu patrón de calidad, tu referencia para medir.

Piensa en esto como preparar el “examen” que usarás para poner a prueba tus prompts.


2) 🎛️ Fija las reglas del experimento

(Solo tienes que hacerlo una vez)

Para que todas las pruebas sean justas:

  • usa siempre el mismo modelo (GPT-4, GPT-5, o el que prefieras),
  • temperatura baja (0.0–0.2) para evitar divagar,
  • mismo número de tokens,
  • mismo formato de salida (RESPUESTA + CITA).

Esto evita que la IA responda distinto por razones que no son culpa del prompt.


3) 📏 Las 3 métricas que sí importan

(No necesitas nada más complicado)

**1️⃣ Precisión@Fuente **

¿La respuesta es correcta y además tiene cita válida?

Si no hay cita → no cuenta como correcta, aunque lo haya adivinado.

2️⃣ Cobertura

¿Qué porcentaje de preguntas ha respondido con cita?

Si responde “insuficiente”, no pasa nada, pero baja la cobertura.

3️⃣ Tasa de Alucinación

¿Cuántas veces inventa una cita, artículo o página?

Esta métrica es oro. Un prompt que alucina poco es un prompt seguro.


4) 📊 Construye una hoja de scoring sencilla

En Excel, Sheets o Notion crea una tabla así:

PreguntaRespuesta IACita IA¿Correcta?¿Cita válida?EtiquetaVersión

Las etiquetas recomendadas son:

  • CorrectaConCita
  • Parcial
  • Incorrecta
  • Insuficiente
  • Alucinación

Con esto ya tienes la base de un evaluador serio, pero accesible.


5) ⚙️ Genera 2–3 versiones de tu prompt

(Aquí es donde ocurre la magia)

No cambies todo. Cambia una variable cada vez:

  • versión 1: prompt básico, formato RESPUESTA/CITA
  • versión 2: con reglas estrictas
  • versión 3: más conciso y directo

Después, prueba la misma lista de preguntas en conversaciones separadas.

Y copia las respuestas en tu tabla.


6) 🏁 Ejecuta la auditoría

(Lo difícil ya está hecho)

Para cada versión:

  1. Pega tus 25–50 preguntas en un chat nuevo.

  2. Copia cada RESPUESTA y CITA en tu hoja.

  3. Marca si la cita es válida y si la respuesta coincide.

  4. Deja que tus fórmulas hagan el resto:

    • Precisión
    • Cobertura
    • Alucinación

Con eso ya puedes declarar un ganador.

Si Precisión@Fuente ≥ 80% y Alucinación ≤ 5%, ese prompt es sólido.


7) 🏆 Decide, documenta y avanza

Quédate con la versión ganadora. Anota:

  • qué funcionó,
  • qué no,
  • qué cambios hiciste entre versiones,
  • qué mejorarás en la próxima iteración.

Esto convierte tu prompting en un proceso, no en “probar cosas a ver qué pasa”.


🧩 Ejemplo 100% real de resultado final

Versión ganadora: v2 (reglas estrictas)

  • Precisión@Fuente: 84%
  • Cobertura: 92%
  • Alucinación: 2%
  • Rendimiento excelente en normativa, mejorable en supuestos prácticos.

Con este tipo de conclusiones estudiarás:

✔ con más seguridad, ✔ con menos errores, ✔ y sabiendo exactamente qué puedes esperar del modelo.


✔ Checklist rápida y accesible

Checklist de auditoría de prompts
    * [ ] Tengo un dataset de 25–50 preguntas clave * [ ] Uso el mismo modelo y parámetros en todas las pruebas * [ ] He creado 2–3 versiones de mi prompt * [ ] Todas las respuestas siguen el formato RESPUESTA/CITA * [ ] He registrado Precisión, Cobertura y Alucinación * [ ] Tengo un prompt ganador documentado

❓ FAQ

Dudas frecuentes sobre la auditoría de prompts

¿Tengo que ser técnico para hacer esto?
No. Es literalmente copiar/pegar respuestas en una hoja y marcar si coinciden con la respuesta correcta.
¿Por qué importa tanto la cita?
Porque sin cita no sabes si la IA está acertando… o inventando. La cita es tu “prueba de calidad”.
¿Y si el modelo acierta pero no cita?
No cuenta como correcta, porque no puedes verificar la fuente.
¿Cada cuánto debería auditar mis prompts?
Lo ideal: cada mes, o cuando cambies de temario, de modelo o de estrategia de estudio.

🔗 Lecturas sugeridas