A OpenAI, um dos principais fornecedores da era da IA generativa, anunciou o GPT-4o em 13 de maio de 2024, durante o evento de atualizações de primavera da empresa. Esta versão atualizada do modelo de linguagem grande (LLM) foi projetada para oferecer respostas rápidas em tempo real em áudio, vídeo e texto. A fundação do sucesso e popularidade da OpenAI é a família de modelos GPT, incluindo o GPT-3 e o GPT-4, junto com o serviço de IA conversacional ChatGPT.
Durante o evento, a OpenAI lançou múltiplos vídeos demonstrando as capacidades intuitivas de resposta e saída de voz do modelo. A apresentação ao vivo no YouTube mostrou o GPT-4o conversando naturalmente e rapidamente com três funcionários da OpenAI, resolvendo equações matemáticas e interpretando emoções faciais. Além disso, o GPT-4o cantou um conto de fadas inventado com uma voz robótica e traduziu verbalmente uma conversa entre um falante de italiano e outro de inglês.
O que é o GPT-4o?
O GPT-4o é o modelo principal da tecnologia de LLM da OpenAI. O “o” significa Omni, representando as múltiplas modalidades do modelo para texto, visão e áudio. Este modelo marca uma nova evolução para o GPT-4, lançado pela primeira vez em março de 2023, e não é a primeira atualização desde então. Em novembro de 2023, a OpenAI lançou o GPT-4 Turbo, que ofereceu melhorias significativas.
O acrônimo GPT significa Generative Pre-Trained Transformer, uma arquitetura de rede neural fundamental para a IA generativa. O GPT-4o vai além do GPT-4 Turbo em termos de capacidades e desempenho. Pode ser utilizado para geração de texto, como sumarização e perguntas e respostas baseadas em conhecimento, além de ser capaz de raciocinar, resolver problemas matemáticos complexos e programar. A introdução de respostas rápidas de entrada de áudio, com tempo médio de resposta de 320 milissegundos, e uma voz gerada por IA que soa humana são alguns dos avanços significativos.
Capacidades do GPT-4o
O GPT-4o combina modalidades de texto, imagem e áudio em um único modelo, permitindo compreender e responder a qualquer combinação desses tipos de dados. Isso possibilita interações mais naturais e intuitivas com os usuários. Aqui estão algumas das capacidades do GPT-4o:
- Interações em Tempo Real: O modelo pode engajar em conversas verbais em tempo real sem atrasos perceptíveis.
- Perguntas e Respostas Baseadas em Conhecimento: Capaz de responder a perguntas com base em uma vasta base de conhecimento.
- Sumarização e Geração de Texto: Executa tarefas comuns de LLM, incluindo sumarização e geração de texto.
- Raciocínio e Geração Multimodal: Processa e responde a combinações de dados de texto, voz e visão.
- Processamento de Linguagem e Áudio: Suporta mais de 50 idiomas diferentes.
- Análise de Sentimento: Entende o sentimento do usuário em diferentes modalidades de texto, áudio e vídeo.
- Nuances de Voz: Gera fala com nuances emocionais, eficaz para aplicações que requerem comunicação sensível.
- Análise de Conteúdo de Áudio: Pode ser aplicado em sistemas ativados por voz, análise de conteúdo de áudio e narrativas interativas.
- Tradução em Tempo Real: Suporta tradução em tempo real de um idioma para outro.
- Compreensão e Visão de Imagens: Analisa imagens e vídeos, fornecendo explicações e análises detalhadas.
- Análise de Dados: Habilita a análise de dados contidos em gráficos e cria gráficos de dados com base em análises ou prompts.
- Uploads de Arquivos: Suporta uploads de arquivos para análise específica de dados.
- Memória e Consciência Contextual: Mantém o contexto ao longo de conversas mais longas.
- Janela de Contexto Ampla: Suporta até 128.000 tokens, mantendo a coerência em conversas ou documentos extensos.
- Redução de Alucinações e Segurança Aprimorada: Projetado para minimizar a geração de informações incorretas ou enganosas, com protocolos de segurança aprimorados.
A Corrida Armamentista de IA Generativa
O lançamento do GPT-4o ocorreu na véspera de um lançamento igualmente chamativo esperado do Google, um concorrente da OpenAI e seu parceiro, a Microsoft, na arena de IA generativa. A conferência de desenvolvedores Google I/O estava marcada para abrir na terça-feira.
Observadores esperavam que o gigante da tecnologia e pioneiro em IA aumentasse ainda mais a corrida armamentista de IA generativa de alto risco, que viu OpenAI, Google, Microsoft, Meta, Amazon e fornecedores menores como Anthropic, Cohere e Mistral competirem para igualar e superar uns aos outros de forma constante nos últimos dois anos.
OpenAI vs. Google
Tanto o Gemini quanto o GPT-4o são modelos multimodais, o que significa que geram conteúdo em texto, áudio, vídeo e imagem. No entanto, o Google sofreu um golpe sério em sua imagem pública em fevereiro, quando o gerador de imagens do Gemini produziu imagens absurdamente imprecisas de pessoas, incluindo soldados negros em uniformes nazistas.
O Google rapidamente desligou o gerador de imagens. Desde então, o mundo da tecnologia tem aguardado para ver quando o fornecedor o religaria e com quais medidas de segurança para prevenir um desastre semelhante.
Como Usar o GPT-4o
Existem várias maneiras pelas quais usuários e organizações podem utilizar o GPT-4o:
- ChatGPT Free: O modelo estará disponível para os usuários gratuitos do ChatGPT, substituindo o padrão atual. No entanto, os usuários gratuitos terão acesso restrito a mensagens e não terão acesso a recursos avançados, como visão, uploads de arquivos e análise de dados.
- ChatGPT Plus: Usuários do serviço pago da OpenAI terão acesso total ao GPT-4o, sem as restrições de recursos presentes para usuários gratuitos.
- Acesso via API: Desenvolvedores podem acessar o GPT-4o através da API da OpenAI, permitindo a integração total das capacidades do modelo em aplicações.
- Aplicações Desktop: A OpenAI integrou o GPT-4o em aplicações desktop, incluindo um novo aplicativo para macOS lançado em 13 de maio.
- Custom GPTs: Organizações podem criar versões personalizadas do GPT-4o adaptadas às necessidades específicas de negócios ou departamentos, potencialmente oferecidas via GPT Store da OpenAI.
- Microsoft OpenAI Service: Usuários podem explorar as capacidades do GPT-4o em modo de pré-visualização no Microsoft Azure OpenAI Studio, especificamente projetado para lidar com entradas multimodais, incluindo texto e visão.
Com o lançamento do GPT-4o, a OpenAI continua a moldar o futuro da interação humano-máquina, oferecendo um modelo que combina rapidez, precisão e versatilidade em uma única plataforma poderosa.