¿Qué es GPT-4? Explorando sus casos de uso en un negocio
Fecha de publicación • May 23, 2024
En abril, el Chatbot Arena de LMSYS vio a "im-also-a-good-gpt2-chatbot" en su ranking de las mejores IAs generativas.
El mismo modelo de IA ha sido revelado como GPT-4o. El “GPT2” en el nombre no indica el modelo anterior de OpenAI, “GPT-2”. Por el contrario, indica una nueva arquitectura para los modelos GPT, y “2” sugiere un cambio importante en el diseño del modelo.
Los equipos de ingeniería de OpenAI consideran que es un gran cambio para justificar la asignación de un nuevo número de versión. Aún así, los equipos de marketing lo presentan modestamente como una continuación del GPT-4 en lugar de una revisión completa.
Veamos qué hay de nuevo en GPT-4, qué ofrece y cómo usarlo en un negocio.
¿Qué es GPT-4o?
GPT-4o es el último modelo de IA generativa insignia de OpenAI. La “O” en GPT-4o significa “Omni”, que significa “todo” en latín. Esto complementa las capacidades mejoradas del modelo para manejar texto, habla y video.
Facilita la interacción de los usuarios con la IA. Las iteraciones anteriores de los modelos de IA generativa de OpenAI se centraban en hacer el modelo más inteligente. GPT-4o lo hace más sencillo de usar y mucho más rápido en la respuesta.
Puedes hacer preguntas a ChatGPT, alimentado por GPT-4o, e interrumpirlo mientras responde. El modelo escuchará cuando lo interrumpas y reformulará la respuesta en tiempo real según la entrada proporcionada. Puede captar matices en la voz del usuario y generar diferentes salidas emocionales de voz, incluido el canto.
El CTO de OpenAI dice: “GPT-4o razona a través de voz, texto y visión. Esto es increíblemente importante porque estamos viendo el futuro de la interacción entre humanos y máquinas.”
¿Qué ofrece GPT-4o?
A continuación se presentan algunos de los aspectos destacados del GPT-4o.
- Experiencia de usuario mejorada. Las interacciones con la IA se han vuelto más naturales y fáciles.
- Capacidades multilingües. GPT-4o muestra un mejor rendimiento en alrededor de 50 idiomas. Esto lo hace más accesible globalmente.
- Rendimiento mejorado. GPT-4o es aproximadamente dos veces más rápido que GPT-4 Turbo. Cuesta la mitad del precio de su versión anterior mientras ofrece límites de tasa más altos.
- Capacidades de voz mejoradas. Debido al riesgo de mal uso, las características vocales mejoradas no están disponibles para todos los clientes, pero OpenAI ha comenzado a ofrecer soporte a un pequeño grupo de socios de confianza.
- Disponibilidad del nivel gratuito. GPT-4o está disponible en el nivel gratuito para ChatGPT. Los suscriptores de ChatGPT Plus tienen límites de mensajes 5 veces mayores. Si se alcanzan los límites de tasa en GPT-4o, el modelo cambia automáticamente a GPT-3.5.
- Experiencia de usuario mejorada. OpenAI ofrece una pantalla de inicio más conversacional y un diseño de mensajes en la web. La versión de escritorio de ChatGPT con GPT-4o para macOS (lanzada en fases para usuarios de ChatGPT Plus) permite a los usuarios hacer preguntas mediante un atajo de teclado. La versión para Windows del aplicativo llegará a finales de este año.
- Ofrece conversaciones naturales. El modelo maneja interrupciones mientras ajusta su respuesta y tono en consecuencia. Las conversaciones suceden a un ritmo natural. Sin embargo, puede haber pausas breves en las que el modelo razona sobre las respuestas.
¿Sabías que? Puedes aprovechar GPT-4o para equipar tu sitio web para vender mejor y más rápido. Descubre cómo usar GPT-4o como un agente de ventas.
Riesgos y preocupaciones con GPT-4o
Las políticas de IA generativa en las empresas aún están en sus primeras etapas. El Reglamento de la Unión Europea es el único marco legal significativo. Debes tomar tu propia decisión sobre qué constituye una IA segura.
OpenAI utiliza un marco de preparación para decidir si un modelo puede ser lanzado al público. Prueba el modelo para seguridad cibernética, amenazas biológicas, químicas, radiológicas o nucleares potenciales, capacidad de persuasión y autonomía del modelo. La puntuación del modelo es la calificación más alta (Baja, Media, Alta o Crítica) que recibe en cualquier categoría.
GPT-4o tiene una preocupación media y evita el nivel de riesgo más alto que podría desestabilizar la civilización humana.
Como todas las IAs generativas, GPT-4o puede no comportarse siempre exactamente como pretendías. Sin embargo, en comparación con los modelos anteriores, GPT-4o muestra mejoras significativas. Puede presentar algunos riesgos, como llamadas fraudulentas con deepfake. Para mitigar estos riesgos, la salida de audio está disponible solo en voces predefinidas.
GPT-4o vs. modelos anteriores de IA generativa de OpenAI
GPT-4o ofrece mejores capacidades de imagen y texto para analizar el contenido de la entrada. En comparación con los modelos anteriores, GPT-4o es mejor para responder a preguntas complejas como: “¿Cuál es la marca de la camiseta que lleva puesta una persona?” Por ejemplo, este modelo puede mirar un menú en otro idioma y traducirlo.
Los modelos futuros ofrecerán capacidades mucho más avanzadas, como ver un evento deportivo y explicar sus reglas.
Aquí está lo que ha cambiado en GPT-4o en comparación con otros modelos de IA generativa de OpenAI.
- Tono de voz
Los sistemas anteriores de OpenAI combinaban Whisper, GPT-4 Turbo y Text-to-Speech en un pipeline con un motor de razonamiento. Tenían acceso solo a palabras habladas y descartaban el tono de voz, ruidos de fondo y sonidos de múltiples hablantes. Esto limitaba la capacidad del GPT-4 Turbo para expresar diferentes emociones o estilos de habla.
Con GPT-4o, un solo modelo razona a través de texto y audio. Esto hace que el modelo sea más receptivo al tono y la información de audio disponible en el fondo, generando respuestas de mayor calidad con diferentes estilos de habla.
- Baja latencia
La latencia promedio del modo de voz de GPT-4o es de 0,32 segundos. Esto es nueve veces más rápido que el promedio de 2,8 segundos del GPT-3.5 y 17 veces más rápido que el promedio de 5,4 segundos del GPT-4.
El tiempo de respuesta promedio de un humano es de 0,21 segundos. Por lo tanto, el tiempo de respuesta de GPT-4o está más cerca del tiempo humano. Esto lo hace adecuado para la traducción en tiempo real de la voz.
- Mejor tokenización
Los tokens son unidades de texto que un modelo puede entender. Cuando trabajas con un modelo de lenguaje grande (LLM), el texto del prompt se convierte primero en tokens. Cuando escribes en inglés, tres palabras consumen cerca de cuatro tokens.
Si se necesitan menos tokens para representar un idioma, se requieren menos cálculos y la velocidad de generación de texto aumenta. Además, esto reduce el costo para los usuarios de la API, ya que los cargos son por token de entrada o salida.
En GPT-4o, los idiomas indios como Hindi, Marathi, Tamil, Telugu, Gujarati y otros se han beneficiado, mostrando especialmente una reducción en los tokens. El árabe muestra una reducción de 2x, mientras que los idiomas del Este Asiático observan una reducción de 1,4x a 1,7x en tokens.
GPT-4o vs. otros modelos de IA generativa
GPT-4 Turbo, Claude 3 Opus y Gemini Pro 1.5 serían los principales contendientes para comparar con GPT-4o. Llama 3 400B podría ser un contendiente en el futuro, pero aún no está terminado.
A continuación, se presenta una comparación de GPT-4o con los modelos mencionados basada en diferentes parámetros.
- Massive Multitask Language Understanding (MMLU). Esta prueba incluye tareas de matemáticas elementales, historia de EE.UU., ciencias de la computación, derecho y más. Para alcanzar alta precisión en esta prueba, los modelos deben poseer un amplio conocimiento mundial y habilidad para resolver problemas. GPT-4o se desempeña mejor que otros modelos de IA.
- Graduate-Level Google-Proof Q&A (GPQA). Preguntas de opción múltiple escritas por expertos en biología, física y química. Las preguntas son de alta calidad y extremadamente difíciles: expertos con o que están buscando doctorado en las respectivas áreas alcanzan un 74% de precisión. GPT-4o ofrece un mejor desempeño que otros modelos.
- MATH. Problemas de matemáticas de secundaria. El rendimiento del GPT-4o se encontró como mejor que el de otros modelos.
- HumanEval. Prueba la corrección funcional del código de computadora usado para la generación de código. El rendimiento del GPT-4o fue mejor que el de otros modelos.
- Multilingual Grade School Math (MSGM). Problemas de matemáticas de escuela primaria traducidos a diez idiomas, incluyendo idiomas sub-representados como Bengalí y Swahili. Claude 3 Opus tuvo un mejor desempeño que el GPT-4o en MSGM.
- Discrete Reasoning Over Paragraphs (DROP). Preguntas que requieren entender párrafos completos, como agregar, contar o clasificar valores, extendidos en varias oraciones. GPT-4 Turbo tuvo un mejor desempeño que GPT-4o en DROP.
El desempeño fluctúa solo por algunos puntos porcentuales cuando comparas GPT-4 Turbo y GPT-4o. Sin embargo, estos benchmarks
de LLM no comparan el rendimiento de la IA en problemas multimodales. El concepto es nuevo y las formas de medir la capacidad de un modelo para razonar a través de texto, audio y video aún están por desarrollarse.
El desempeño del GPT-4o es impresionante y muestra un futuro prometedor para el entrenamiento multimodal.
Casos de uso de GPT-4o
GPT-4o puede razonar a través de texto, audio y video de manera efectiva. Esto hace que el modelo sea adecuado para una variedad de casos de uso, por ejemplo:
- Visión computacional en tiempo real e interacción natural
GPT-4o ahora puede interactuar contigo como si conversaras con humanos. Necesitas gastar menos tiempo escribiendo, haciendo la conversación más natural. Proporciona información rápida y precisa.
Con mayor velocidad y capacidades audiovisuales, OpenAI presenta varios casos de uso en tiempo real donde puedes interactuar con la IA utilizando la vista del mundo. Esto abre oportunidades para navegación, traducción, instrucciones guiadas y comprensión de información visual compleja.
Por ejemplo, GPT-4o puede funcionar en desktops, móviles y potencialmente wearables en el futuro. Puedes mostrar una visualización o pantalla de escritorio para hacer preguntas, en lugar de escribir o alternar entre diferentes modelos y pantallas.
Por otro lado, la capacidad de GPT-4o para entender la entrada de video desde una cámara y describir verbalmente la escena puede ser increíblemente útil para personas con discapacidad visual. Funcionaría como una función de descripción auditiva para la vida real, ayudándoles a entender mejor su entorno.
- Aplicaciones empresariales
GPT-4o conecta las entradas de tus dispositivos de forma fluida, facilitando la interacción con el modelo. Con modalidades integradas y rendimiento mejorado, las empresas pueden usarlo para construir aplicaciones personalizadas de visión.
Puedes usarlo donde los modelos de código abierto no están disponibles y cambiar a modelos personalizados para pasos adicionales para reducir costos.
Usa GPT-4o para generar leads en tu negocio
GPT-4o mejora el rendimiento y la velocidad. Chatsimple permite a los usuarios conectar un agente de ventas de IA alimentado por GPT-4o a un sitio web. Actualmente, permite que los visitantes de tu sitio respondan a preguntas complejas, capturen leads y agenden reuniones más rápido.
Con Chatsimple, puedes entrenar a estos agentes para responder preguntas de visitantes altamente complejas. En el futuro, Chatsimple podría aprovechar las capacidades de GPT-4o para razonar a través de texto, video y audio para entrenar agentes de ventas de IA en múltiples formatos de medios.
Hasta entonces, deja que tus visitantes obtengan la ayuda que necesitan con los agentes de ventas de IA de Chatsimple antes de llegar a la etapa de conectarse con un vendedor.
Prueba Chatsimple y deja que tus visitantes experimenten la velocidad de GPT-4o al responder preguntas relacionadas con tus productos o servicios.
---