Narrador, poeta y analista: ChatGPT-4o y sus nuevos talentos

21:15 / 22.11.2024

Lee rap como Eminem, cuenta historias mejor que tu abuela...

OpenAI ha lanzado una actualización de su modelo lingüístico ChatGPT-4o, presentado en mayo de 2024. Los principales cambios afectan a los algoritmos de procesamiento de texto: el sistema ha recibido un mecanismo mejorado para generar lenguaje escrito y nuevas herramientas para manejar datos de los usuarios.

En el núcleo de la actualización se encuentra una arquitectura renovada para el procesamiento del lenguaje natural. Con la misma capacidad de cómputo, el modelo procesa solicitudes el doble de rápido que GPT-4-Turbo. En pruebas de comprensión contextual, el sistema muestra una mejor capacidad para mantener un estilo coherente a lo largo de todo el texto.

Los usuarios fueron los primeros en notar cambios en la creación de textos literarios. Uno de ellos probó el modelo de una forma inusual: le pidió escribir un rap al estilo de Eminem sobre mecánica cuántica. ChatGPT-4o reprodujo todos los detalles, incluida la técnica característica del artista de rimas internas, algo que nunca había logrado otro modelo lingüístico.

También se ampliaron las capacidades de trabajar con archivos. Al cargar hojas de cálculo, el sistema ahora analiza no solo los datos, sino también las relaciones entre ellos, las fórmulas y el formato condicional. Al trabajar con imágenes, el modelo reconoce detalles en diferentes planos y puede describir su disposición mutua.

Los ingenieros de OpenAI también implementaron un nuevo módulo de reconocimiento de voz. El Advanced Voice Mode analiza flujos de audio en tiempo real, permitiendo usar el modelo para traducción simultánea. La IA reconoce el 95% de las palabras en discursos con acento marcado y es capaz de procesar 17 idiomas sin pérdida de calidad.

Merece especial atención la capacidad del modelo para analizar patrones de entonación. ChatGPT-4o identifica en el habla marcador del estado emocional: ritmo, pausas y cambios de tono. Basándose en estos elementos, el sistema ajusta el estilo de las respuestas, adaptándose al carácter del diálogo.

Paralelamente a la versión principal, los desarrolladores lanzaron GPT-4o-mini, una versión ligera enfocada en la velocidad de respuesta. En pruebas de razonamiento lógico MMLU, obtuvo un 82%, superando a Gemini 1.5 Flash por un 3% y a Claude 3 Haiku por un 7%. La versión mini es especialmente eficiente en tareas de generación de código gracias a su menor carga sobre el procesador.

Durante las pruebas, GPT-4o-mini mostró alta velocidad trabajando con lenguajes de programación populares. El modelo genera código funcional en Python, JavaScript y Java en fracciones de segundo, considerando el contexto del proyecto y las convenciones adoptadas en él.

El acceso a las nuevas funciones se distribuye según niveles de suscripción. Los usuarios de la versión gratuita tienen un número limitado de consultas a GPT-4o, después de lo cual el sistema cambia a la versión mini. Los suscriptores de Plus, Teams y Enterprise tienen un límite ampliado, hasta cinco veces mayor que el básico.

En el núcleo del progreso está la optimización de los procesos de cálculo. GPT-4o utiliza un nuevo método de procesamiento de tokens, lo que permite reducir a la mitad la carga en los servidores mientras mantiene la calidad de las respuestas. Esto es especialmente evidente al trabajar con textos largos y consultas analíticas complejas.

Noticias sobre el tema

Administradores, revisen los registros: msbuild.exe e InstallUtil podrían no estar de su lado

El teorema de Nyquist-Shannon contra Google: matemáticos descubren cómo vulnerar Gemini a través de los píxeles

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

Narrador, poeta y analista: ChatGPT-4o y sus nuevos talentos

Noticias sobre el tema

Administradores, revisen los registros: msbuild.exe e InstallUtil podrían no estar de su lado

El teorema de Nyquist-Shannon contra Google: matemáticos descubren cómo vulnerar Gemini a través de los píxeles

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

Primer ransomware con IA de la historia. Cómo PromptLock genera código malicioso en tiempo real

«Solo quería ganar un dinero extra» — un militar contó cómo vendió a su patria por cine gratis

La nota en el diploma es una ilusión: un joven demostró que el destino de cualquier estudiante puede cambiarse en cuestión de minutos

Millones de usuarios instalan virus siguiendo las “recomendaciones” de ChatGPT

¿Cómo identificar a un profesional de ciberseguridad fraudulento? El CEO de Coinbase responde

15 países: un único estándar. Google introduce licencias para aplicaciones de criptomonedas