Por Qué Construimos Nuestro Propio Pipeline de Blog con Claude, GPT-4o y Winston AI
La mayoría de las agencias externalizan su contenido o contratan a un escritor junior para producir posts SEO que parecen generados por una tostadora. Lo intentamos. No funcionó. Así que construimos algo diferente -- un pipeline de múltiples modelos de IA que redacta, humaniza, califica y publica artículos a un ritmo que ningún escritor individual podría igualar, mientras mantiene un estándar de calidad que realmente refleja cómo pensamos sobre desarrollo web.
Esta es la historia de cómo publicamos 91 artículos en menos de tres meses, las herramientas y modelos específicos que conectamos, y cada lección difícil que aprendimos en el camino.
Tabla de Contenidos
- El Problema Con el Contenido de Agencias
- Arquitectura de Nuestro Pipeline de Blog
- Por Qué Claude Opus 4 Para Primeros Borradores
- El Paso de Humanización GPT-4o
- Detección de Winston AI y el Umbral del 85%
- El Flujo de Trabajo Completo Paso a Paso
- Lo Que 91 Artículos Nos Enseñaron Sobre Contenido IA
- Desglose de Costos y Datos de Rendimiento
- Herramientas Que Evaluamos y Rechazamos
- Preguntas Frecuentes

El Problema Con el Contenido de Agencias
Aquí hay una verdad que nadie en el mundo de las agencias quiere decir en voz alta: la mayoría de las tiendas de desarrollo son terribles en marketing de contenidos. No somos la excepción -- o al menos, no lo éramos.
Teníamos el problema clásico. Nuestro equipo sabe cómo construir cosas con Next.js, Astro, y varios sistemas de gestión de contenido headless. Enviamos productos reales para clientes reales. ¿Pero escribir sobre eso? ¿Consistentemente? ¿A un ritmo que realmente mueva la aguja del SEO? Eso es un músculo completamente diferente.
Intentamos contratar escritores freelance. La profundidad técnica era superficial. Intentamos que los desarrolladores escribieran posts. Producían un artículo brillante y luego desaparecían en un sprint durante seis semanas. Intentamos generación básica de IA con ChatGPT -- el resultado parecía que un artículo de Wikipedia tuviera un bebé con un folleto de marketing.
Así que nos preguntamos: ¿y si tratáramos la producción de contenido como un problema de ingeniería de software? ¿Y si construyéramos un pipeline?
Arquitectura de Nuestro Pipeline de Blog
El pipeline tiene cinco etapas. Cada etapa tiene un modelo o herramienta específica responsable de ella, y cada una produce un resultado medible que alimenta la siguiente etapa.
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ Investigación│────▶│ Claude Opus │────▶│ GPT-4o │
│ y Gen Brief │ │ Primer Borrador│ │ Humanizador │
└─────────────┘ └──────────────┘ └─────────────┘
│
▼
┌─────────────┐
│ Winston AI │
│ Detección │
└─────────────┘
│
▼
┌─────────────┐
│ Edición │
│ Humana y │
│ Publicación │
└─────────────┘
Etapa 1: Investigación y Generación de Brief
Utilizamos una combinación de Ahrefs para investigación de palabras clave y la API de Tavily para análisis competitivo en tiempo real. El brief es un documento JSON estructurado que incluye:
- Palabra clave objetivo y palabras clave secundarias
- Los 10 artículos competidores principales (títulos, conteos de palabras, estructuras H2)
- Preguntas de "Personas También Preguntan" raspadas de Google
- Un esquema propuesto con conteo de palabras objetivo por sección
Este brief se convierte en la solicitud de entrada para Claude.
Etapa 2: Primer Borrador Claude Opus
Claude Opus 4 escribe el primer borrador. Más sobre por qué abajo.
Etapa 3: Paso de Humanización GPT-4o
El borrador se procesa a través de GPT-4o con una solicitud del sistema cuidadosamente ajustada diseñada para hacer que la escritura suene como si una persona real la hubiera escrito.
Etapa 4: Detección de Winston AI
Evaluamos cada artículo a través de Winston AI. Si no alcanza nuestro umbral, vuelve a pasar por el humanizador con parámetros diferentes.
Etapa 5: Edición Humana y Publicación
Una persona real lee cada artículo. Verifica la precisión técnica, añade anécdotas personales donde sea apropiado, y maneja el formato final.
Por Qué Claude Opus 4 Para Primeros Borradores
Probamos cada modelo principal para generación de primeros borradores. Aquí está lo que encontramos:
| Modelo | Profundidad Técnica (1-10) | Calidad de Estructura (1-10) | Conteo Promedio de Palabras | Puntuación de Detección de IA (Winston) | Costo por Artículo |
|---|---|---|---|---|---|
| GPT-4o | 7 | 8 | 2,400 | 32% humano | $0.18 |
| Claude Opus 4 | 9 | 9 | 3,100 | 28% humano | $0.42 |
| Claude Sonnet 4 | 8 | 8 | 2,600 | 35% humano | $0.08 |
| Gemini 2.5 Pro | 7 | 7 | 2,800 | 30% humano | $0.14 |
| Llama 3.1 405B | 6 | 6 | 2,200 | 41% humano | $0.03 |
Claude Opus 4 ganó en las dos dimensiones que nos importaban más: profundidad técnica y calidad estructural. Las puntuaciones de detección de IA fueron realmente peores que la salida bruta de GPT-4o, pero eso no importaba porque no íbamos a publicar salida bruta de ningún modelo.
Lo difícil de cuantificar sobre Claude Opus en una tabla es esto: sigue instrucciones complejas más fielmente que cualquier otra cosa que hayamos probado. Cuando decimos "escribe como un desarrollador senior compartiendo conocimiento adquirido con dificultad", Claude realmente cambia su registro. GPT-4o tiende a volver a una voz de asistente útil sin importar cuánto lo presiones. Gemini produce contenido técnico decente pero se pone extrañamente formal en lugares.
La diferencia de costo es real -- Opus es aproximadamente 2-5x más caro por token que las alternativas. Pero cuando factorizas el tiempo ahorrado en reescrituras, es la opción más barata en general.
La Solicitud del Sistema Que Marcó la Diferencia
Iteramos en nuestra solicitud del sistema Claude durante aproximadamente tres semanas antes de aterrizar en algo que consistentemente produjo buena salida. Algunas cosas que aprendimos:
Prohibir frases específicas funciona mejor que pedir un tono. En lugar de decir "escribe en un tono casual", mantenemos una lista de palabras y frases prohibidas. Cosas como "comprehensive," "leverage," "in today's digital landscape" -- las señales claras de contenido generado por IA.
Forzar restricciones estructurales produce mejor contenido. Especificamos estructuras de encabezados exactas, requieren bloques de código, demandan tablas markdown. Claude Opus sigue estas restricciones casi perfectamente.
Proporcionar contexto real vence instrucciones genéricas. Alimentamos investigación competitiva real. Le decimos a Claude qué cubren los artículos de mayor rango y dónde se quedan cortos. Esto produce contenido genuinamente diferenciado.
def generate_first_draft(brief: dict) -> str:
system_prompt = load_prompt("claude_writer_v14.txt")
messages = [
{"role": "user", "content": format_brief(brief)}
]
response = anthropic_client.messages.create(
model="claude-opus-4-20250514",
max_tokens=8192,
system=system_prompt,
messages=messages,
temperature=0.7 # ligeramente creativo, no caótico
)
return response.content[0].text
Nos conformamos con una temperatura de 0.7. Menor que eso y la escritura se siente robótica. Mayor y Claude comienza a inventar cosas -- alucinando características de frameworks, inventando endpoints de API que no existen.

El Paso de Humanización GPT-4o
Aquí es donde las cosas se ponen interesantes. Y un poco raras.
Después de que Claude produce un primer borrador técnicamente sólido, lo pasamos a través de GPT-4o con una solicitud del sistema completamente diferente. El trabajo de esta solicitud no es añadir información -- es hacer que la escritura se sienta más humana.
¿Qué significa eso realmente en la práctica? Algunas transformaciones específicas:
- Variación de la longitud de las oraciones. Los modelos de IA tienden a escribir oraciones que son todas aproximadamente de la misma longitud. Los humanos no hacen eso. Instruimos a GPT-4o para mezclar oraciones cortas y directas con las más largas.
- Transiciones imperfectas. Los posts de blog reales no tienen un flujo perfectamente perfecto de párrafo a párrafo. A veces simplemente saltas al siguiente pensamiento. El humanizador añade estos descansos naturales.
- Inserciones en primera persona. "En nuestra experiencia," "Hemos encontrado que," "Pasé una semana depurando esto" -- estos pequeños toques hacen una enorme diferencia en las puntuaciones de detección de IA.
- Contracciones. Claude Opus tiende a escribir "do not" y "it is" incluso cuando se le instruye lo contrario. El paso de humanización captura estos y los convierte.
def humanize_draft(draft: str) -> str:
system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
response = openai_client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": f"Humaniza este artículo preservando toda la precisión técnica y estructura:\n\n{draft}"}
],
temperature=0.8
)
return response.choices[0].message.content
¿Por qué GPT-4o para este paso en lugar de Claude? Honestamente, es porque GPT-4o es mejor en sonar casual. La fortaleza de Claude es la precisión técnica y el seguimiento de instrucciones. La fortaleza de GPT-4o es imitar patrones de escritura humana. Estamos jugando a las fortalezas de cada modelo.
El Enfoque de Doble Modelo No Fue Nuestra Primera Idea
Inicialmente intentamos hacerlo todo con un modelo único. Una solicitud, un paso, una salida. Los resultados fueron mediocres en todos los aspectos. El borrador era fuerte técnicamente pero robótico, o conversacional pero superficial.
Dividir el pipeline en etapas especializadas fue el gran avance. Es el mismo principio detrás de los microservicios -- cada componente hace una cosa bien.
Detección de Winston AI y el Umbral del 85%
Elegimos Winston AI como nuestra herramienta de detección después de probar cinco detectores de contenido IA diferentes. Aquí está por qué:
| Detector | Consistencia (misma entrada, misma puntuación?) | Tasa de Falsos Positivos | ¿API Disponible? | Precio/mes |
|---|---|---|---|---|
| Winston AI | Alta | Baja (~3%) | Sí | $18/mes |
| Originality.ai | Alta | Media (~8%) | Sí | $15/mes |
| GPTZero | Media | Media (~7%) | Sí | $10/mes |
| Copyleaks | Media | Baja (~4%) | Sí | $8/mes |
| Sapling | Baja | Alta (~12%) | Sí | Nivel Gratis |
Winston AI nos dio las puntuaciones más consistentes en todas las ejecuciones. Si alimentas el mismo artículo dos veces, obtienes casi la misma puntuación humana. Eso importa cuando estás construyendo un pipeline automatizado -- necesitas comportamiento más o menos determinístico para tomar decisiones.
Nuestro umbral es una puntuación humana del 85%. Por debajo de eso, el artículo vuelve a pasar por el humanizador con parámetros ajustados (temperatura más alta, énfasis de instrucción diferente). Si falla una segunda vez, una persona reescribe manualmente las secciones marcadas.
En la práctica, aproximadamente el 70% de los artículos pasan en el primer paso del humanizador. Otro 20% pasa en el segundo. Los restantes 10% necesitan intervención manual.
def check_detection(article: str) -> dict:
result = winston_client.scan(text=article)
return {
"human_score": result.score, # 0-100
"passed": result.score >= 85,
"flagged_sentences": result.flagged_sentences
}
El campo flagged_sentences es oro. En lugar de re-ejecutar el artículo completo, podemos dirigirnos solo a las oraciones que activaron el detector. Esto ahorra tokens y produce mejores resultados.
El Flujo de Trabajo Completo Paso a Paso
Aquí está lo que realmente sucede cuando queremos publicar un artículo nuevo:
Selección de palabras clave -- Extraemos de nuestro calendario de contenido (mantenido en Notion) y hacemos referencias cruzadas con puntuaciones de dificultad de palabras clave de Ahrefs. Nos dirigimos a KD < 30 para nuevos temas.
Investigación competitiva -- Nuestro script golpea la API de búsqueda de Tavily y extrae los 10 mejores resultados. Extrae encabezados, conteos de palabras, y brechas de contenido.
Generación de brief -- Una llamada Claude Sonnet 4 (más barata que Opus para esta tarea) genera un brief estructurado a partir de los datos de investigación.
Primer borrador -- Claude Opus 4 produce el artículo. Toma aproximadamente 45-90 segundos dependiendo de la longitud.
Paso de humanización -- GPT-4o reescribe para voz y naturalidad. Otros 30-60 segundos.
Puntuación de detección -- Winston AI califica la salida. Los resultados regresan en aproximadamente 10 segundos.
Loop o proceder -- Si la puntuación < 85%, vuelve al paso 5 con parámetros modificados. Máximo 2 reintentos.
Revisión humana -- Un miembro del equipo lee el artículo, verifica hechos, añade capturas de pantalla o diagramas, y formatea para nuestro CMS.
Publicar -- El artículo se publica en vivo a través de nuestro pipeline de CMS headless.
Tiempo total por artículo: aproximadamente 35 minutos de atención humana. Las etapas de IA toman aproximadamente 3 minutos de tiempo de cómputo.
Lo Que 91 Artículos Nos Enseñaron Sobre Contenido IA
Hemos estado ejecutando este pipeline desde enero de 2025. Aquí están los patrones que emergieron:
El Contenido Técnico Funciona Mejor
Nuestros artículos de mejor rendimiento son piezas profundamente técnicas sobre frameworks y herramientas específicas. Los artículos sobre patrones de desarrollo Next.js u optimización de rendimiento Astro consistentemente superan contenido genérico "qué es CMS headless".
Esto tiene sentido. El contenido genérico generado por IA está en todas partes ahora. Los algoritmos de clasificación de Google claramente favorecen la especificidad y la profundidad. Nuestro pipeline está diseñado para producir exactamente ese tipo de contenido.
Los Primeros 30 Artículos Fueron Ásperos
No voy a pretender que lo clavamos desde el primer día. El primer lote de artículos tuvo problemas:
- Voz inconsistente en artículos
- Algunas estadísticas alucinadas (Claude citaba confiadamente un "informe de Gartner 2024" que no existía)
- Ejemplos de código que no se compilaban
- Estructuras de sección repetitivas
Los arreglamos a través de iteración de solicitud y revisión humana más estricta. La solicitud del sistema ahora está en la versión 14. Cada versión abordaba modos específicos de fallo que identificamos en contenido publicado.
La Detección de IA Es Un Objetivo Móvil
Winston AI actualizó su modelo de detección dos veces durante nuestra ejecución de tres meses. Cada vez, nuestras puntuaciones cayeron 5-10 puntos y tuvimos que ajustar la solicitud del humanizador. Esta es una carrera armamentística continua, y si estás construyendo algo similar, planifica el mantenimiento.
La Revisión Humana Es Innegociable
Intentamos saltarnos la revisión humana para un lote de 5 artículos como experimento. Dos de ellos tenían errores de hecho que nos habrían avergonzado. Uno hacía referencia a una API que fue deprecada en 2023. Otro afirmaba que Next.js 15 soportaba una característica que en realidad aún está en RFC.
Cada artículo obtiene ojos humanos. Período.
Desglose de Costos y Datos de Rendimiento
Aquí están los números reales de nuestra ejecución de 91 artículos:
| Métrica | Valor |
|---|---|
| Artículos totales publicados | 91 |
| Conteo promedio de palabras | 2,847 |
| Costos totales de API de IA | $127.40 |
| Costo promedio por artículo (solo IA) | $1.40 |
| Suscripción de Winston AI (3 meses) | $54.00 |
| Suscripción de Ahrefs (3 meses) | $297.00 |
| Costos de API de Tavily | $42.00 |
| Tiempo de revisión humana (promedio por artículo) | 35 min |
| Horas humanas totales | ~53 horas |
| Artículos pasando Winston en primer intento | 64 (70%) |
| Artículos necesitando reescritura manual | 9 (10%) |
| Puntuación promedio de IA humana de Winston (final) | 89% |
| Aumento del tráfico orgánico (ene-mar 2025) | +340% |
| Aumento de páginas indexadas | +86 |
Los $1.40 por artículo en costos de IA son notablemente bajos. El gasto real es tiempo humano -- 53 horas en tres meses para revisión y edición. Pero compara eso con lo que cobra un escritor técnico freelance. A $0.15/palabra para contenido técnico de calidad, un artículo de 2,847 palabras costaría aproximadamente $427. Estamos produciendo contenido de calidad comparable por aproximadamente $35 en tiempo humano (a una tarifa de $40/hora) más $1.40 en costos de IA.
Eso es una reducción de costo del 91%. Y la salida es más técnicamente precisa porque los modelos de IA tienen conocimiento más amplio que cualquier escritor freelance único.
Herramientas Que Evaluamos y Rechazamos
No todo lo que intentamos hizo su camino al pipeline final:
- Jasper AI -- Demasiado enfocado en copia de marketing. No podía producir la profundidad técnica que necesitábamos. También caro a $59/mes para su tier de negocio.
- Copy.ai -- Problemas similares a Jasper. Excelente para copia de anuncios, no para artículos técnicos de 3,000 palabras.
- Undetectable.ai -- Intentamos esto como un humanizador en lugar de GPT-4o. La salida era gramaticalmente incómoda y a veces cambió el significado técnico de las oraciones. Rechazo tajante.
- Surfer SEO -- Buena herramienta, pero preferimos construir nuestro propio análisis de SEO con datos de Ahrefs. El editor de contenido de Surfer se sentía demasiado restrictivo.
- Perplexity API -- Probamos esto para la etapa de investigación. Los resultados fueron buenos pero el formato de cita no se integraba bien con nuestra estructura de brief. Podríamos revisar.
Preguntas Frecuentes
¿No es esto solo spam de contenido? No. Cada artículo pasa por revisión humana para precisión técnica y utilidad genuina. No estamos girando contenido o publicando páginas delgadas. Cada pieza se dirige a una palabra clave específica con profundidad real. La IA maneja el trabajo pesado de generación del primer borrador, pero el juicio editorial es enteramente humano. Verifica nuestro contenido en todo el sitio -- nos mantenemos al mismo estándar que querríamos de un blog técnico que leemos.
¿Por qué no simplemente contratar escritores? Todavía usamos escritores humanos para ciertas piezas -- casos de estudio, piezas de opinión, y cualquier cosa que requiera experiencia directa del cliente. Pero para explicadores técnicos y artículos de comparación, nuestro pipeline produce mejores primeros borradores que la mayoría de los escritores freelance porque los modelos de IA tienen conocimiento técnico más amplio y actual. La economía también hace posible publicar a un volumen que sería prohibitivamente caro con freelancers solos.
¿Penaliza Google el contenido generado por IA? La posición oficial de Google desde su actualización de marzo de 2024 es que evalúan la calidad del contenido independientemente de cómo se produzca. Penalizan contenido de baja calidad, producido masivamente -- ya sea generado por IA o escrito por una granja de contenido en un idioma que el escritor no habla nativamente. Nuestro contenido se clasifica porque es genuinamente útil, técnicamente preciso y bien estructurado. Hemos visto mejoras consistentes en indexación y clasificación en nuestros 91 artículos.
¿Qué significa exactamente la puntuación de IA humana de Winston? Winston AI analiza patrones de texto -- perplejidad, explosividad, variación de estructura de oraciones, distribución de vocabulario -- y produce una puntuación de 0 a 100 representando la probabilidad de que un humano escribió el texto. Una puntuación de 85 significa que Winston cree que hay un 85% de probabilidad de que un humano lo escribiera. Ningún detector es perfecto, pero la consistencia de Winston lo hace útil como una puerta de control de calidad en un pipeline automatizado.
¿Podrían abrir el código fuente de este pipeline? Lo hemos considerado. La lógica principal no es tan compleja -- es principalmente llamadas a API cosidas juntas con Python. El valor real está en las solicitudes, y esas se ajustan específicamente a nuestra voz y dominio técnico. Podríamos liberar una versión genérica en algún momento. Si estás interesado, ponte en contacto con nosotros.
¿Cómo manejas ejemplos de código en artículos? Esta es un área donde la revisión humana es crítica. Claude Opus genera código sintácticamente correcto aproximadamente el 90% del tiempo, pero el 10% restante incluye bugs sutiles, APIs deprecadas, o patrones que harían mueca a un desarrollador experimentado. Cada bloque de código se verifica manualmente. Para código específico del framework, a menudo lo ejecutamos localmente para confirmar que funciona.
¿Qué sucede cuando los modelos de IA se actualizan? Las actualizaciones de modelos pueden romper todo. Cuando Anthropic lanzó Claude Opus 4, nuestras solicitudes que funcionaban perfectamente en Claude 3 Opus necesitaban trabajo significativo. Mantenemos solicitudes versionadas y probamos contra un conjunto de referencia de 10 artículos cada vez que un modelo se actualiza. Presupuesta tiempo para esto -- ha sucedido tres veces en nuestra ejecución de tres meses.
¿Cuál es lo siguiente para el pipeline? Estamos trabajando en añadir generación de capturas de pantalla automatizada usando Playwright, integración con nuestro pipeline de despliegue de CMS headless para publicación de un clic, y construir un bucle de retroalimentación donde los datos de Google Search Console influyen en qué temas priorizar después. El objetivo es reducir ese tiempo de revisión humana de 35 minutos sin sacrificar calidad. Probablemente escribiremos sobre eso cuando esté hecho. Verifica nuestra página de precios si tienes curiosidad sobre cómo aplicamos pensamiento similar y sistemático a proyectos de cliente.