Claude 4 supera a los programadores en velocidad y calidad del código.
Anthropic continúa desarrollando su línea de modelos lingüísticos Claude, y las últimas actualizaciones son realmente impresionantes. Según la empresa Lovable, que crea una plataforma para desarrollar aplicaciones basadas en prompts, el nuevo modelo Claude 4 ha mejorado significativamente la calidad y la velocidad de generación de código. Tras la implementación de Claude 4, la cantidad de errores sintácticos en el entorno de desarrollo de Lovable disminuyó en un 25% y el rendimiento general aumentó en un 40%.
Lovable utiliza activamente los modelos Claude en su sistema «Vibe Coding», un enfoque para crear aplicaciones web basadas en inteligencia artificial, donde el elemento clave no es el código en bruto, sino el uso competente de prompts de IA. La empresa afirma que la actualización ha traído mejoras tanto en nuevos proyectos como en la edición de los ya existentes. El fundador de Lovable, Anton Osika, también confirmó que Claude 4 prácticamente eliminó la mayoría de los errores relacionados con la sintaxis de los LLM.
En este contexto, Anthropic anunció el lanzamiento de dos nuevas versiones del modelo: Claude Sonnet 4 y Claude Opus 4. La primera está disponible de forma gratuita, mientras que la segunda requiere una suscripción de pago y muestra un nivel más alto en la generación de código. Según el blog oficial de Anthropic, el modelo Opus 4 obtuvo un resultado del 72,5% en la prueba SWE-bench, un benchmark centrado en tareas de ingeniería de software.
Entre otras cosas, Opus 4 demostró un rendimiento constante en tareas que requieren miles de pasos y una concentración prolongada. En una de las pruebas, el modelo escribió código sin interrupciones durante siete horas seguidas, un logro poco común incluso entre los LLM modernos.
A pesar del creciente interés por los modelos de Google, especialmente tras el lanzamiento de Gemini 1.5 Pro con una ventana de contexto de 1 millón de tokens, Claude sigue siendo una de las mejores soluciones específicamente para tareas de programación. Claude 4, a diferencia de Gemini, tiene una ventana limitada a 200 mil tokens, pero incluso eso no le impide mostrar resultados más precisos en varios proyectos, especialmente en aquellos que no requieren trabajar con un contexto extenso.
La elección del modelo adecuado depende del proyecto específico y del tipo de tarea. Algunos desarrolladores prefieren combinar las capacidades de diferentes LLM: usar, por ejemplo, ChatGPT o3 o Gemini para planificar la arquitectura y luego delegar en Claude 4 la escritura del código.
Mientras la industria prueba activamente nuevas herramientas, estos enfoques híbridos se vuelven cada vez más comunes, demostrando que incluso en el mundo de la IA, una buena ingeniería comienza con la elección correcta de herramientas.