22 de novembro de 2024 09:31

Dona do ChatGPT, OpenAI anuncia novas ferramentas para assistentes de voz com IA e mais

A OpenAI anunciou, durante seu evento anual para desenvolvedores realizado na segunda-feira (30), grandes atualizações para as ferramentas que permitem integrar seus modelos de inteligência artificial em aplicativos de terceiros.

Uma das principais atualizações em seu catálogo de ferramentas para devs é a API Realtime, já disponível em versão beta pública, que suporta modos de conversação em voz utilizando seis vozes predefinidas. Ela permitirá que desenvolvedores criem recursos semelhantes ao Modo Avançado de Voz do ChatGPT, ideais para assistência rápida ao usuário.

A empresa afirma que a nova ferramenta simplifica o desenvolvimento de assistentes de voz baseados em inteligência artificial generativa (como o ChatGPT e Google Gemini), que antes exigia o uso de vários modelos para reconhecimento de fala, processamento de texto e conversão de texto em fala. Agora, todo o processo pode ser feito com uma única API.

Anteriormente, para criar uma experiência de assistente de voz, os desenvolvedores precisavam transcrever áudio com um modelo de reconhecimento automático de fala, passar o texto para um modelo de texto para inferência ou raciocínio e, em seguida, reproduzir a saída do modelo usando um modelo de conversão de texto em fala.

Essa abordagem, no entanto, geralmente resultava em perda de “emoção” da voz, que ganhava um aspecto mais robótico, além de uma latência perceptível. Com a API Chat Completions, os desenvolvedores podem lidar com todo o processo com uma única chamada de API, embora a empresa reconheça que as respostas ainda são proferidas de forma mais lenta do que uma conversa humana.

Há também planos para adicionar recursos de entrada e saída de áudio à API Chat Completions, permitindo que os desenvolvedores insiram texto ou áudio e recebam respostas em qualquer um dos formatos.

 

 

Outra ferramenta apresentada é a “Model Distillation” (“destilação de modelos”, em tradução literal), que oferece aos desenvolvedores uma maneira de personalizar modelos de linguagem compactos, como o GPT-4o mini, usando saídas de modelos mais avançados, como GPT-4o e o1-preview, para resultados mais precisos ao executar modelos mais simples.

Além disso, a empresa introduziu um recurso chamado de Prompt Caching, que promete acelerar a inferência ao memorizar solicitações utilizadas com frequência pelo usuário. Conforme o modelo é utilizado pelo usuário, a ferramenta permite reduzir os tokens de entrada em 50%, garantindo tempos de processamento mais rápidos e redução de custos.

Finalmente, a gigante de inteligência artificial revelou ter ampliado suas capacidades com uma função de “aprimoramento de visão” para o GPT-4o, permitindo que os desenvolvedores personalizem o modelo ao alimentá-lo com imagens e determinados textos para “ensiná-lo” a reconhecer objetos, comidas e outros conteúdos em uma imagem de entrada.

De acordo com a OpenAI, essa ferramenta abre um leque de possibilidades para adaptar o modelo para pesquisa visual, detecção mais precisa de objetos para veículos autônomos e, futuramente, análise de imagens médicas otimizada.

 

 

De acordo com a OpenAI, essa ferramenta abre um leque de possibilidades para adaptar o modelo para pesquisa visual, detecção mais precisa de objetos para veículos autônomos e, futuramente, análise de imagens médicas otimizada.

A API Realtime já está disponível em beta pública para todos os desenvolvedores pagantes. A API Chat Completions será atualizada “nas próximas semanas”. O Prompt Caching já está integrado às versões mais recentes do GPT-4o, GPT-4o mini, o1-preview e o1-mini. Já o Model Distillation pode ser experimentado por todos os desenvolvedores. Finalmente, o aprimoramento de visão está disponível para devs pagantes.

 

 

 

 

O site Achei No Sudoeste é um guia comercial com notícias e informações sobre o bairro. Nosso foco é divulgar e facilitar a população em geral sobre a pluralidade de segmentos existentes. O Setor Sudoeste possui um comércio bem misto e interessante que muitas vezes não está à vista de quem circula pelas quadras e avenidas.

Copyright © 2024 - Achei no Sudoeste