A OpenAI anunciou, na última terça-feira (5), a chegada do gpt-oss-120b e gpt-oss-20b, novos modelos de linguagem open-weight avançados de inteligência artificial (IA) que oferecem desempenho potente para aplicativos a um baixo custo. Conforme divulgado pela companhia, os softwares de última geração têm capacidades semelhantes às da série O, principalmente quando medidas por benchmarks. Além disso, caso o sistema não consiga realizar uma determinada tarefa, como processar uma imagem, os desenvolvedores poderão conectá-lo aos modelos fechados mais potentes da companhia para executar a ação.
Com o lançamento do gpt-oss, a OpenAI espera ganhar a simpatia dos desenvolvedores e do governo Trump, que observam a China ganhar destaque no espaço de código aberto. Após o CEO Sam Altman afirmar que a companhia esteve “do lado errado da história”, a empresa recalculou a rota para enfrentar a pressão crescente de laboratórios chineses de IA — incluindo DeepSeek, Qwen, do Alibaba, e Moonshot AI — que desenvolveram alguns dos modelos abertos mais capazes e populares do mundo. Nas próximas linhas, entenda mais detalhes sobre o lançamento do gpt-oss.
🔍ChatGPT pode tirar do papel aquele projeto que você vive adiando; saiba como
🔔 Canal do TechTudo no WhatsApp: acompanhe as principais notícias, tutoriais e reviews
Novo modelo de linguagem do ChatGPT promete oferecer desempenho para desenvolvimento de aplicativos por um baixo custo
Reprodução/Internet
📝Vale a pena usar o ChatGPT para estudar? Veja no fórum do TechTudo
Quais as diferenças entre os novos modelos?
A principal diferença entre gpt-oss-120b e gpt-oss-20b é a quantidade de parâmetros que cada um oferece. Basicamente, parâmetros são as configurações que um modelo de linguagem grande pode ajustar para fornecer uma resposta. A nomenclatura é um pouco confusa aqui, mas gpt-oss-120b é um modelo com 117 bilhões de parâmetros, enquanto seu irmão menor tem 21 bilhões.
Na prática, isso significa que o gpt-oss-120b requer um hardware mais potente para ser executado, com a OpenAI recomendando uma única GPU de 80 GB para uso eficiente. A boa notícia é que a empresa afirma que qualquer computador moderno com 16 GB de RAM pode executar o gpt-oss-20b. Como resultado, o usuário pode usar o modelo menor para executar algo, como um Code Vibe no seu próprio computador sem precisar de conexão com a internet. Além disso, a OpenAI está disponibilizando os modelos por meio da licença Apache 2.0, dando aos usuários bastante flexibilidade para modificar os sistemas de acordo com suas necessidades.
A OpenAI afirma que seus modelos abertos foram treinados com processos semelhantes aos de seus modelos proprietários. Cada modelo aberto utiliza a combinação de especialistas (MoE) para explorar menos parâmetros para cada pergunta, tornando-o mais eficiente. Para o gpt-oss-120b, que possui 117 bilhões de parâmetros no total, a OpenAI afirma que o modelo ativa somente 5,1 bilhões de parâmetros por token.
A empresa também afirma que seu modelo aberto foi treinado usando aprendizado por reforço (RL) de alta computação — um processo pós-treinamento para ensinar modelos de IA a distinguir o certo do errado em ambientes simulados usando grandes clusters de GPUs Nvidia. Isso também foi usado para treinar a série O de modelos da OpenAI, e os modelos abertos têm um processo de cadeia de pensamento semelhante, no qual consomem tempo e recursos computacionais adicionais para processar suas respostas.
Como resultado do processo de pós-treinamento, a OpenAI afirma que seus modelos abertos de IA se destacam no desenvolvimento de agentes de IA e conseguem chamar ferramentas como pesquisa na web ou execução de código Python como parte de seu processo de cadeia de pensamento. No entanto, a empresa afirma que seus modelos abertos são somente textos, o que significa que não conseguirão processar ou gerar imagens e áudio como os outros modelos.
A OpenAI adiou o lançamento de seus modelos abertos diversas vezes nos últimos meses, em parte para lidar com questões de segurança. Além das políticas de segurança típicas da empresa, a empresa preocupou-se principalmente em investigar se agentes mal-intencionados poderiam ajustar seus modelos gpt-oss para serem mais úteis em ataques cibernéticos ou na criação de armas biológicas, ou químicas.
O que é um modelo de IA de pesos abertos?
Todos os modelos de IA têm pesos, que são características ou elementos. Os modelos são treinados para atribuir mais peso, ou valor, a determinadas conexões. Um modelo de pesos abertos faz exatamente o que o nome indica: os pesos são disponibilizados publicamente, conforme definido pela Comissão Federal de Comércio (FTC). Os desenvolvedores podem ver esses pesos e como eles são usados na criação de modelos de IA.
Por exemplo, um chatbot é desenvolvido para ser ótimo em prever a próxima palavra lógica em uma frase. Ele é treinado para encadear palavras em seus resultados que frequentemente aparecem lado a lado em seus dados de treinamento, presumivelmente em uma ordem lógica. Palavras que aparecem lado a lado com mais frequência podem receber mais peso do que palavras que não aparecem lado a lado com frequência.
Esses pesos são somente números, mas os modelos de pesos abertos também vêm com um mapa. Os modelos de pesos abertos são voltados principalmente para desenvolvedores, que podem integrar o modelo a projetos existentes, como ajudar a construir agentes de IA. É possível usar as especificações para executar o modelo localmente em seu laptop, o que pode ajudar a aliviar preocupações com a privacidade que surgem, por exemplo, ao usar IA por meio do aplicativo móvel de uma empresa. Os pesquisadores também terão uma visão mais clara de como a IA funciona internamente.
Como esses modelos se comparam?
Os novos modelos de pesos abertos vêm em dois tamanhos: 120 bilhões de parâmetros (128 especialistas e uma janela de contexto de 128 mil) e 20 bilhões de parâmetros (32 especialistas, mas a mesma janela de contexto de 128 mil). Especialistas se referem ao número de sub-redes neurais que um modelo possui, e janelas de contexto descrevem quanta informação um modelo pode processar e incluir em suas respostas. Os números maiores para ambos indicam que um modelo é capaz de respostas mais sofisticadas e uma capacidade de processamento mais potente.
Em termos de desempenho, a OpenAI relata que o modelo 120B “alcançou quase a paridade” com seu modelo de raciocínio mais recente, o o4-mini, em benchmarks de raciocínio de núcleo, enquanto rodava em uma única GPU de 80 gigabytes. O modelo de pesos abertos 20B teve desempenho semelhante ao o3-mini e rodou em um dispositivo de 16 gigabytes — ou seja, este modelo de pesos abertos menor pode rodar razoavelmente bem em laptops e alguns smartphones. (Como todos os modelos de IA rodam localmente, sua velocidade dependerá da potência do seu dispositivo.)
Os modelos estarão disponíveis sob a licença Apache 2.0, um tipo de licença amigável ao código aberto. Você pode conferir as especificações mais detalhadas no cartão do modelo e no artigo sobre treinamento de segurança, obter dicas das diretrizes para desenvolvedores da OpenAI e conferir os pesos agora mesmo no HuggingFace e no GitHub.
Pesos abertos x IA de código aberto
Os modelos de pesos abertos estão relacionados à IA de código aberto, mas não são o mesmo. O conceito de código aberto refere-se a softwares sem proprietários, cujo código-fonte está disponível publicamente e pode ser usado por praticamente qualquer pessoa sob licenças de código aberto. A Open Source Initiative, uma organização sem fins lucrativos que defende o software de código aberto, define IA de código aberto como “um sistema disponibilizado sob termos que concedem aos usuários a liberdade de usá-lo, estudá-lo, modificá-lo e compartilhá-lo”.
Para modelos de pesos abertos, os tipos de informações não divulgadas são os dados com os quais o modelo foi treinado e o código usado para treiná-lo. Dados de treinamento são um ponto de discórdia entre empresas de IA e os humanos que criam conteúdo; as empresas de IA estão ávidas por conteúdo de alta qualidade gerado por humanos para refinar e aprimorar seus modelos. Algumas empresas coletam esses dados por meio de contratos de licenciamento, mas alguns editores e criadores entraram com ações judiciais alegando que empresas de IA estão adquirindo ilegalmente seu conteúdo protegido por direitos autorais.
Dados de treinamento, independentemente de sua origem, são um dos bens mais valiosos de uma empresa de IA. Mas provavelmente não serão incluídos em nenhuma versão do modelo de pesos abertos.
Com informações de TechCrunch, Engadget e CNET
Mais do TechTudo
Veja também: 6 concorrentes do ChatGPT que você deveria testar
6 concorrentes do ChatGPT que você deveria testar