8 MIN LECTURA · Pedro Thomaz

Cómo hacer que tu sitio sea citable por la IA: una guía práctica de Generative Engine Optimization

Para que tu sitio sea citado por ChatGPT, Claude y Perplexity, escribe contenido en forma de respuesta, sirve HTML semántico limpio y JSON-LD, y publica un directorio llms.txt y un llms-full.txt dinámico. Esta es la lista de comprobación práctica que aplicamos en nuestro propio sitio.

Cómo hacer que tu sitio sea citable por la IA: una guía práctica de Generative Engine Optimization

Si quieres que tu sitio sea citado por ChatGPT, Claude o Perplexity, la jugada de mayor apalancamiento es escribir contenido donde la respuesta vaya primero y, después, hacer que esa respuesta sea trivialmente legible por máquinas: HTML semántico limpio, JSON-LD, URLs estables y un directorio llms.txt respaldado por un volcado de contenido completo. Eso es Generative Engine Optimization (GEO), y es sobre todo la disciplina de eliminar toda excusa que un sistema de recuperación tenga para ignorarte.

Reconstruimos este sitio exactamente en torno a esa idea. Sirve un llms.txt, un llms-full.txt generado dinámicamente y JSON-LD completo en cada artículo — y a continuación explicamos por qué importa cada pieza, qué implementamos realmente y qué sigue siendo genuinamente incognoscible.

¿Qué es la Generative Engine Optimization y en qué se diferencia del SEO?

La Generative Engine Optimization es la práctica de estructurar tu contenido para que los modelos de lenguaje lo encuentren, lo ingieran limpiamente y lo citen con precisión al responder a la pregunta de un usuario. El SEO optimiza para una lista ordenada de diez enlaces azules que un humano pulsa. El GEO optimiza para un párrafo sintetizado que una IA escribe en tu nombre, donde el premio es ser la fuente que parafrasea o enlaza.

Ambos se solapan más de lo que admite el bombo. Una página rápida, rastreable y bien estructurada siempre fue buen SEO, y también es buen GEO. Pero los modos de fallo difieren. En el SEO clásico puedes ganar con backlinks y cobertura de palabras clave aunque la página sea un caos de analizar. En el GEO, la analizabilidad es todo el juego. Un modelo que tiene que pelear con tu marcado, ejecutar tu JavaScript o adivinar qué afirma realmente tu página elegirá discretamente a un competidor cuyo contenido se lee como una respuesta limpia.

La otra diferencia es la intención. El SEO asume que el humano llegará a tu página y la leerá. El GEO asume que el humano quizá nunca vea tu página — el modelo la lee por él. Eso cambia cómo escribes. Ya no escribes para seducir un clic; escribes para ser citado correctamente por una máquina que no tiene paciencia para preámbulos.

Escribe contenido en forma de respuesta

La técnica más importante no cuesta nada: empieza por la respuesta. Abre cada página y cada sección con una o dos frases que enuncien directamente la conclusión y luego amplía. Los sistemas de recuperación fragmentan tu contenido y ordenan los fragmentos según cómo responden a una consulta. Un fragmento que abre con "En el acelerado panorama digital de hoy..." no responde a nada. Un fragmento que abre con "La Generative Engine Optimization es la práctica de..." es una cita lista para usar.

Por eso abrimos este propio artículo con una lede definitoria y ponemos la pregunta objetivo en el primer

. Escribimos los encabezados como preguntas que una persona realmente escribiría y hacemos que la primera frase bajo cada encabezado sea una respuesta autosuficiente. Si lees solo la primera frase de cada sección, deberías quedarte igualmente con la idea general. Esa restricción — a veces llamada "pirámide invertida" en periodismo — resulta ser exactamente lo que recompensa un pipeline RAG.

La claridad definitoria también importa. Di claramente qué es una cosa antes de discutir sus compensaciones. Los modelos que buscan una definición agarran la frase que parece una.

Sirve HTML limpio y semántico — y no escondas contenido tras JavaScript

Renderiza tu contenido en el servidor. Es la regla que la mayoría de los equipos rompe sin darse cuenta. Si el cuerpo de tu artículo solo aparece tras una hidratación de React, estás apostando a que todos los rastreadores — el GPTBot de OpenAI, el ClaudeBot de Anthropic, el PerplexityBot de Perplexity, más los recuperadores en tiempo real que se disparan en el momento de la consulta — ejecutan JavaScript de forma fiable. Muchos no lo hacen, o lo hacen con un presupuesto que se agota antes de que tu contenido se pinte.

Este sitio no tiene paso de build y renderiza todo en el servidor con PHP 8.3 en alojamiento compartido OVH, con Cloudflare delante. No hay brecha de hidratación porque no hay hidratación. El HTML que llega a un bot es el HTML que ve un humano. Usa etiquetas semánticas reales —

,
    ,
    , <article> — no una sopa de <div> anidados. La estructura es información: un modelo usa tu jerarquía de encabezados para entender qué es una sección, qué es una lista y qué es un inciso.

    Una trampa específica de Cloudflare que vale la pena nombrar: las reglas agresivas de lucha contra bots pueden bloquear rastreadores de IA legítimos junto con los malos. Comprueba que tu firewall y tu robots.txt no están devolviendo discretamente 403 a los mismos recuperadores que quieres que te citen.

    Añade JSON-LD: BlogPosting, FAQPage, Breadcrumb

    Los datos estructurados dan a las máquinas una descripción inequívoca e independiente del idioma de tu página. Adjuntamos un @graph JSON-LD a cada artículo del diario que contiene tres tipos de nodo: BlogPosting (con headline, author, datePublished, dateModified, publisher y mainEntityOfPage), BreadcrumbList para la ruta Inicio → Diario → Artículo, y FAQPage cuando el artículo contiene un FAQ real.

    El nodo FAQPage se genera automáticamente: nuestra plantilla escanea el HTML renderizado en busca del encabezado del FAQ, extrae cada pregunta

    y el párrafo que le sigue, y emite un par Question/Answer correspondiente. Eso significa que los datos estructurados nunca pueden divergir del contenido visible — se derivan de la misma fuente. Esta es la forma:

    {
      "@context": "https://schema.org",
      "@type": "BlogPosting",
      "headline": "Cómo hacer que tu sitio sea citable por la IA",
      "datePublished": "2026-06-05",
      "dateModified": "2026-06-05",
      "author": { "@type": "Organization", "name": "Amplified Creations" },
      "mainEntityOfPage": "https://amplifiedcreations.com/es/journal/make-your-site-answerable-by-ai/"
    }

    Incluye dateModified, no solo datePublished. La frescura es una señal que tanto la búsqueda como los sistemas generativos ponderan, y una fecha de modificación honesta le dice a un sistema de recuperación que tu contenido se mantiene y no está abandonado.

    Publica un directorio llms.txt y un llms-full.txt dinámico

    Un archivo llms.txt en la raíz de tu dominio es un directorio conciso en Markdown de tus páginas más importantes, escrito para un LLM y no para un navegador. Piénsalo como un mapa del sitio curado con prosa: quién eres, qué haces y enlaces a las páginas que importan, cada uno con una descripción de una línea. Nuestro llms.txt abre con un resumen del estudio en blockquote y luego lista cada servicio, producto, caso de estudio y página de política con una breve glosa.

    El archivo complementario, llms-full.txt, es donde está el verdadero apalancamiento. En lugar de obligar a un modelo a rastrear cuarenta páginas y reensamblarlas, sirves un documento limpio en texto plano con el contenido completo. El nuestro no es un archivo estático — es un script PHP que extrae datos en vivo de nuestro Cockpit CMS, despoja el HTML a texto plano y renderiza el sitio entero (equipo, servicios, productos, casos de estudio, extractos del diario, FAQ, estadísticas, stack) como Markdown estructurado con una marca temporal de generación. Por ser dinámico, nunca queda obsoleto: publica un nuevo caso de estudio en el CMS y aparece en el volcado en la siguiente petición, en caché durante una hora.

    Algunas notas de implementación por haber enviado el nuestro:

    • Sírvelo como text/plain. Sin envoltorio HTML, sin cromo de navegación, sin banner de cookies. Solo contenido.
    • Usa URLs absolutas en todas partes. Un modelo que ingiere el volcado fuera de contexto necesita saber dónde vive cada cosa.
    • Decodifica entidades y quita etiquetas en el servidor para que el texto sea genuinamente plano — & en un feed se lee como ruido.
    • Cachéalo. Fijamos Cache-Control: public, max-age=3600; regenerar en cada petición es un desperdicio cuando el contenido cambia como mucho una vez al día.
    • Referencia ambos archivos entre sí y desde tu robots.txt para que sean descubribles.

    El estándar llms.txt es joven y aún no lo honra cada proveedor de modelos. Lo enviamos igualmente porque el coste es casi nulo y la desventaja es inexistente: en el peor de los casos, es un directorio limpio y rico en enlaces que los rastreadores ordinarios también disfrutan.

    URLs canónicas estables e internacionalización limpia

    Elige una URL canónica por pieza de contenido y nunca la muevas. Los sistemas generativos cachean y citan URLs; un enlace que da 404 seis meses después es una cita perdida y una pequeña mella en la confianza. Servimos un <link rel="canonical"> en cada página y mantenemos nuestra i18n en prefijos de URL limpios — /en/, /pt/, /es/ — con traducciones nativas completas y no traducciones destrozadas por máquina. Cada locale recibe estructura HTML idéntica y JSON-LD idéntico, de modo que un modelo que recupera la página en español ve la misma forma que vio en inglés.

    Algo que corregimos deliberadamente: dejamos de redirigir automáticamente a los visitantes a una ruta localizada según el idioma de su navegador. Las redirecciones forzadas confunden a los rastreadores y rompen el contrato una-URL-un-recurso del que dependen tanto la búsqueda como los sistemas generativos.

    Sé honesto sobre lo que no puedes medir

    Esta es la verdad incómoda que los proveedores de GEO disimulan: en su mayoría no puedes ver tus referencias de IA. Cuando ChatGPT parafrasea tu página en una respuesta sin enlace, no hay entrada en tus logs. Cuando sí enlaza, el referente a menudo se elimina o es genérico. Los recuperadores en tiempo real pueden golpear tu servidor, pero una ingesta en tiempo de entrenamiento ocurrió hace meses y no dejó rastro. La analítica privada y sin cookies — que usamos — amplía aún más la brecha de atribución, y aceptamos esa compensación por principio.

    Así que trata el GEO como la disciplina de largo plazo que es. Estás optimizando para un canal cuya conversión no puedes instrumentar por completo. Mide lo que puedas — aumento de la búsqueda de marca, tráfico directo a páginas profundas, el ocasional referente de IA rastreable — y por lo demás confía en el mecanismo. El contenido limpio, en forma de respuesta y bien estructurado siempre fue la apuesta correcta; los motores generativos solo subieron el premio.

    La lista de comprobación práctica

    • Abre cada página y sección con una respuesta de una a dos frases; formula los encabezados como preguntas reales.
    • Renderiza el contenido en el servidor; nunca escondas el cuerpo del artículo tras hidratación JavaScript.
    • Usa HTML semántico — encabezados, listas y blockquotes reales, no sopa de <div>.
    • Emite JSON-LD: BlogPosting con dateModified, BreadcrumbList y FAQPage derivado de tu FAQ visible.
    • Añade una sección de FAQ genuina con

      en forma de pregunta respondidos en la primera frase.

    • Publica llms.txt (directorio curado) y llms-full.txt (contenido completo en texto plano, idealmente dinámico).
    • Mantén las URLs canónicas estables para siempre; usa prefijos i18n limpios con traducciones completas.
    • Comprueba que Cloudflare y robots.txt no estén bloqueando a GPTBot, ClaudeBot o PerplexityBot.
    • Fija dateModified con honestidad y mantén el contenido actualizado.
    • Acepta que la atribución es parcial; optimiza el mecanismo, no el panel.

    Preguntas frecuentes

    ¿Qué es llms.txt y lo necesito?

    llms.txt es un archivo Markdown en la raíz de tu dominio que da a los LLM un directorio conciso y curado de tus páginas más importantes. No lo necesitas estrictamente — el estándar es joven y aún no lo honra cada proveedor — pero cuesta casi nada enviarlo y sirve además como un índice limpio y rico en enlaces que los rastreadores ordinarios aprovechan. Recomendamos combinarlo con un llms-full.txt que sirva tu contenido completo en texto plano.

    ¿Cuál es la diferencia entre GEO y SEO?

    El GEO optimiza para ser citado dentro de una respuesta generada por IA, mientras que el SEO optimiza para posicionar en una lista de enlaces que un humano pulsa. Comparten fundamentos como páginas rápidas, rastreables y estructuradas, pero el GEO pone una prima mucho mayor en la analizabilidad por máquina y el contenido en forma de respuesta, porque el modelo a menudo lee tu página en nombre del usuario y el usuario nunca la visita.

    ¿El JSON-LD ayuda de verdad a que la IA cite mi sitio?

    Sí — los datos estructurados dan a las máquinas una descripción inequívoca e independiente del idioma de tu página, lo que reduce la posibilidad de que un modelo la malinterprete o la omita. Adjuntamos schema BlogPosting, BreadcrumbList y FAQPage a cada artículo, con el FAQPage generado directamente desde el FAQ visible para que ambos nunca puedan divergir.

    ¿Por qué importa la renderización en el servidor para el GEO?

    Porque muchos rastreadores de IA y recuperadores en tiempo real o no ejecutan JavaScript o lo hacen con un presupuesto que se agota antes de que aparezca el contenido renderizado en el cliente. Si el cuerpo de tu artículo solo existe tras la hidratación, te arriesgas a servir una página vacía a los mismos bots que quieres que te citen. El HTML renderizado en el servidor garantiza que el bot ve lo que ve el humano.

    ¿Puedo medir con qué frecuencia la IA cita mi contenido?

    Solo parcialmente, y deberías planificar en torno a ello. La mayoría de las referencias de IA son invisibles — las respuestas parafraseadas no llevan enlace, los referentes suelen eliminarse y la ingesta en tiempo de entrenamiento no deja entrada en los logs. Mide indicadores indirectos como el aumento de la búsqueda de marca y el tráfico directo a páginas profundas, pero trata el GEO como una inversión de largo plazo en contenido limpio y bien estructurado, no como un canal totalmente instrumentado.