OpenAI faz testes e diz que ChatGPT-5 já se compara a humanos em várias funções

OpenAI Apresenta Resultados de Benchmark de Inteligência Artificial

A OpenAI, empresa líder em desenvolvimento de inteligência artificial, apresentou recentemente os resultados de um benchmark chamado GPDval, que visa comparar o desempenho de ferramentas de IA com o de humanos em diversas tarefas. O objetivo é garantir que a inteligência artificial geral (AGI) beneficie toda a humanidade, ao mesmo tempo em que se comunica com transparência os avanços desses sistemas.

O GPDval foi realizado com foco em tarefas reais e “economicamente valiosas” de 44 ocupações, divididas em 9 setores, incluindo imóveis, governo, fabricação, serviços profissionais, assistência médica e social, finanças e seguros, comércio varejista, comércio atacadista e informação. A empresa selecionou profissionais com média de 14 anos de experiência em cada uma das ocupações analisadas para criar tarefas que representassem seu trabalho diário.

Método do GPDval

As mesmas atividades foram realizadas por modelos de IA, como o GPT-5, o GPT-4 e o Claude Opus 4.1, da Anthropic. Para avaliar o desempenho, o benchmark contou com um grupo de “classificadores” especialistas, também das mesmas ocupações. Eles compararam os resultados produzidos pelas IAs com os de humanos, sem saber quem era o autor.

Os resultados mostraram que os melhores modelos de fronteira atuais já estão se aproximando da qualidade do trabalho produzido por especialistas do setor. O Claude Opus 4.1 foi o que mais se destacou, apresentando desempenho igual ou superior ao de especialistas em 47,55% das tarefas. Já o GPT-5 High — versão aprimorada do GPT-5 — obteve resultados iguais ou melhores que os humanos em 38,76% dos casos.

O GPT-5 se destacou em precisão, como na busca de conhecimento específico de domínio.
O Claude Opus 4.1 se destacou em estética, como formatação de documentos e layout de slides.

No entanto, a OpenAI ressalta que o GPDval tem algumas limitações, já que não analisa cenários em que um modelo de IA precisa construir o contexto da tarefa ou melhorar sua atuação após receber feedback de um cliente. Além disso, as tarefas nem sempre são claramente definidas com um prompt e arquivos de referência, o que pode afetar a precisão dos resultados.

Este conteúdo pode conter links de compra.

Fonte: link