🧠 ¿Por qué auditar tus prompts si estás estudiando una oposición?
Si usas IA para estudiar, seguro que te ha pasado esto:
- Un día el modelo te da respuestas perfectas…
- y al siguiente mete la pata, inventa cosas o responde raro.
No es que la IA “se despiste”: 👉 muchas veces es el prompt el que no está bien afinado.
Este artículo te explica, de forma muy práctica, cómo:
- comparar dos o tres versiones de un mismo prompt,
- ver cuál responde mejor,
- detectar si alucina,
- y quedarte con la versión ganadora.
Todo sin tecnicismos y usando solo una hoja de cálculo y tu temario.
🎯 Objetivo real de esta guía
Al terminar tendrás claro:
- qué versión de tu prompt es más fiable,
- cuál comete menos errores,
- cuál cita mejor las fuentes,
- cuál “se inventa menos cosas”,
- y cómo repetir esta auditoría cada vez que lo necesites.
Es decir: 💡 estudiar con IA, pero con seguridad y sin comerte respuestas inventadas.
1) 🗃️ Crea tu “mini-dataset” de preguntas (tranquilo, suena más técnico de lo que es)
Solo necesitas entre 25 y 50 preguntas de tu oposición. Pueden ser:
- preguntas de academia,
- tus propios apuntes,
- preguntas oficiales,
- o dudas reales que surgieron mientras estudiabas.
Para cada pregunta anota:
- la pregunta en sí,
- la respuesta correcta en 2–4 líneas,
- dónde está la respuesta (artículo, página, norma…).
Ese será tu patrón de calidad, tu referencia para medir.
Piensa en esto como preparar el “examen” que usarás para poner a prueba tus prompts.
2) 🎛️ Fija las reglas del experimento
(Solo tienes que hacerlo una vez)
Para que todas las pruebas sean justas:
- usa siempre el mismo modelo (GPT-4, GPT-5, o el que prefieras),
- temperatura baja (0.0–0.2) para evitar divagar,
- mismo número de tokens,
- mismo formato de salida (RESPUESTA + CITA).
Esto evita que la IA responda distinto por razones que no son culpa del prompt.
3) 📏 Las 3 métricas que sí importan
(No necesitas nada más complicado)
**1️⃣ Precisión@Fuente **
¿La respuesta es correcta y además tiene cita válida?
Si no hay cita → no cuenta como correcta, aunque lo haya adivinado.
2️⃣ Cobertura
¿Qué porcentaje de preguntas ha respondido con cita?
Si responde “insuficiente”, no pasa nada, pero baja la cobertura.
3️⃣ Tasa de Alucinación
¿Cuántas veces inventa una cita, artículo o página?
Esta métrica es oro. Un prompt que alucina poco es un prompt seguro.
4) 📊 Construye una hoja de scoring sencilla
En Excel, Sheets o Notion crea una tabla así:
| Pregunta | Respuesta IA | Cita IA | ¿Correcta? | ¿Cita válida? | Etiqueta | Versión |
|---|
Las etiquetas recomendadas son:
- CorrectaConCita
- Parcial
- Incorrecta
- Insuficiente
- Alucinación
Con esto ya tienes la base de un evaluador serio, pero accesible.
5) ⚙️ Genera 2–3 versiones de tu prompt
(Aquí es donde ocurre la magia)
No cambies todo. Cambia una variable cada vez:
- versión 1: prompt básico, formato RESPUESTA/CITA
- versión 2: con reglas estrictas
- versión 3: más conciso y directo
Después, prueba la misma lista de preguntas en conversaciones separadas.
Y copia las respuestas en tu tabla.
6) 🏁 Ejecuta la auditoría
(Lo difícil ya está hecho)
Para cada versión:
Pega tus 25–50 preguntas en un chat nuevo.
Copia cada RESPUESTA y CITA en tu hoja.
Marca si la cita es válida y si la respuesta coincide.
Deja que tus fórmulas hagan el resto:
- Precisión
- Cobertura
- Alucinación
Con eso ya puedes declarar un ganador.
Si Precisión@Fuente ≥ 80% y Alucinación ≤ 5%, ese prompt es sólido.
7) 🏆 Decide, documenta y avanza
Quédate con la versión ganadora. Anota:
- qué funcionó,
- qué no,
- qué cambios hiciste entre versiones,
- qué mejorarás en la próxima iteración.
Esto convierte tu prompting en un proceso, no en “probar cosas a ver qué pasa”.
🧩 Ejemplo 100% real de resultado final
Versión ganadora: v2 (reglas estrictas)
- Precisión@Fuente: 84%
- Cobertura: 92%
- Alucinación: 2%
- Rendimiento excelente en normativa, mejorable en supuestos prácticos.
Con este tipo de conclusiones estudiarás:
✔ con más seguridad, ✔ con menos errores, ✔ y sabiendo exactamente qué puedes esperar del modelo.
✔ Checklist rápida y accesible
- * [ ] Tengo un dataset de 25–50 preguntas clave
* [ ] Uso el mismo modelo y parámetros en todas las pruebas
* [ ] He creado 2–3 versiones de mi prompt
* [ ] Todas las respuestas siguen el formato RESPUESTA/CITA
* [ ] He registrado Precisión, Cobertura y Alucinación
* [ ] Tengo un prompt ganador documentado
