OpenAI presenta GPT-4o. l’ Assistente vocale potenziato da Chatgpt
GPT-4o rappresenta un significativo progresso verso un’interazione uomo-computer più naturale, accettando come input qualsiasi combinazione di testo, audio e immagini e generando output in qualsiasi combinazione di questi formati. Questo modello può rispondere agli input audio in soli 232 millisecondi, con una media di 320 millisecondi, un tempo di risposta paragonabile a quello umano in una conversazione.
Eguaglia le prestazioni di GPT-4 Turbo per quanto riguarda il testo in inglese e il codice, con significativi miglioramenti nel testo in lingue diverse dall’inglese, risultando anche molto più veloce e con un costo inferiore del 50% nell’API. GPT-4o eccelle particolarmente nella comprensione visiva e audio rispetto ai modelli esistenti.
Con GPT-4o, è stato addestrato un nuovo modello end-to-end che integra testo, visione e audio, il che significa che tutti gli input e gli output sono processati dalla stessa rete neurale. Essendo il primo modello che combina tutte queste modalità, siamo solo agli inizi dell’esplorazione delle sue potenzialità e dei suoi limiti.
Le capacità di GPT-4o sono state esplorate in vari contesti, dimostrando una versatilità e una naturalezza di interazione mai viste prima. Le possibilità che si aprono con un modello così avanzato sono molteplici, e il futuro delle interazioni uomo-computer sembra molto promettente.
GPT-4o sarà rilasciato per tutti gratuitamente in base al profilo nativo con limitazioni. Puoi trovare tutti video dalla pagina ufficiale di Youtube.
