Claude 4 ya está aquí. El gratuito — simplemente inteligente; el de pago — programa como un senior, solo que sin vacaciones

Claude 4 ya está aquí. El gratuito — simplemente inteligente; el de pago — programa como un senior, solo que sin vacaciones

¿Qué pasa si obligas a una IA a programar durante siete horas seguidas? En Anthropic lo comprobaron.

image

La empresa Anthropic ha lanzado dos nuevos asistentes de IA de cuarta generación: Claude Sonnet 4 y Claude Opus 4. El lanzamiento tuvo lugar el 22 de mayo, con la versión menor disponible para usuarios gratuitos, mientras que la versión superior requiere una suscripción de pago. Según los resultados de pruebas independientes, Opus 4 demuestra un rendimiento notablemente superior en programación en comparación con su hermano menor.

El nuevo modelo insignia obtuvo un 72,5% en el prestigioso benchmark SWE-bench, diseñado específicamente para evaluar las capacidades de la IA en el ámbito del desarrollo de software. SWE significa Software Engineering Benchmark — un conjunto integral de tareas que imitan los desafíos reales que enfrentan los ingenieros de software en su trabajo diario.

Las pruebas demostraron una resistencia impresionante del modelo. Opus 4 es capaz de mantener un rendimiento estable durante sesiones prolongadas que requieren concentración y miles de operaciones secuenciales. Incluso se registró un caso en el que el sistema trabajó ininterrumpidamente en código durante siete horas seguidas sin pérdida de calidad en los resultados.

El equipo de Lovable —una startup especializada en la creación de aplicaciones web mediante IA— lo comprobó en la práctica. Integraron Claude en su herramienta de generación automática de código a partir de solicitudes en lenguaje natural. Tras la actualización a la cuarta versión, los ingenieros notaron cambios radicales en el rendimiento del sistema.

El número de errores en el código generado se redujo en una cuarta parte, y la velocidad general de procesamiento de solicitudes aumentó en un 40%. Las mejoras abarcaron tanto la creación de nuevos proyectos desde cero como la edición de desarrollos existentes, incluidos aquellos realizados con versiones anteriores del modelo lingüístico.

El fundador de Lovable, Anton Osika, destacó especialmente la drástica reducción de errores sintácticos en la generación de código en una publicación en la red social X.

Los errores sintácticos son especialmente dolorosos para los sistemas de generación automática de código, ya que interrumpen la estructura del programa y lo hacen inoperativo. Todos sabemos que incluso un paréntesis olvidado o un punto y coma mal colocado puede paralizar por completo la ejecución del software. En ese caso, el desarrollador debe corregir el problema manualmente.

La calidad de los distintos asistentes de IA depende en gran medida de las características específicas del proyecto y de las tareas asignadas. En casos donde no es necesario manejar grandes volúmenes de información contextual, Claude 4 ofrece mejores resultados — escribe software más limpio y funcional, con menos fallos.

La familia Claude ha mantenido durante mucho tiempo el liderazgo entre las herramientas de IA para programadores. Sin embargo, su posición se vio seriamente desafiada con la aparición de Google Gemini 2.5 Pro, que puede trabajar con ventanas de contexto de hasta un millón de tokens — unidades de información textual que el modelo retiene en memoria simultáneamente.

La ventana de contexto de Claude 4 está limitada a 200 mil tokens, lo que es cinco veces menos que su competidor. Una ventana de contexto amplia permite a la IA analizar grandes bases de código y tener en cuenta múltiples interrelaciones entre distintos componentes del programa al generar nuevos fragmentos.

Sin embargo, el tamaño de la ventana de contexto no es el único criterio para evaluar la calidad en programación. La capacidad del modelo para comprender la lógica del código, seguir principios arquitectónicos y crear soluciones elegantes suele ser más importante que la cantidad de información procesada a la vez.

La experiencia práctica demuestra que ambos modelos pueden ofrecer tanto resultados brillantes como errores graves, dependiendo del planteamiento de la tarea. La calidad del código final depende en gran medida del arte de formular solicitudes — es decir, del prompt engineering, que requiere comprender cómo funciona cada tecnología en particular.

Los desarrolladores experimentados suelen combinar distintas herramientas para obtener las mejores respuestas posibles. Modelos como OpenAI o3 o Google Gemini destacan en la planificación de la arquitectura y la estrategia general del proyecto, mientras que Claude 4 y Gemini sobresalen en la escritura directa de programas.

Una cosa está clara: la aparición de Claude 4 marca una nueva etapa en la evolución de las herramientas de automatización, ofreciendo a los desarrolladores un asistente más fiable y preciso para resolver tareas cotidianas. La reducción de errores y el aumento de velocidad abren nuevas posibilidades para un uso más eficiente de la IA en el ámbito informático. Lo que viene después — será aún más impresionante.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse