Interação por Voz: O Futuro da Tecnologia
A interação com a tecnologia está prestes a sofrer uma grande mudança, migrando das telas sensíveis ao toque para comandos de voz complexos e contextuais. De acordo com o cofundador e CEO da ElevenLabs, Mati Staniszewski, a voz está se tornando a próxima grande interface para a inteligência artificial (IA), permitindo que os dispositivos realizem tarefas sem que o usuário precise olhar para eles.
Os modelos de voz evoluíram além da simples imitação da fala humana e agora trabalham em conjunto com a capacidade de raciocínio de grandes modelos de linguagem (LLMs). Isso permite uma mudança fundamental na forma como as pessoas interagem com máquinas. A visão de futuro apresentada por Staniszewski projeta um cenário onde a dependência visual dos smartphones diminui, e os telefones podem voltar para os bolsos, permitindo que as pessoas se imergam no mundo real ao seu redor, com a voz como o mecanismo que controla a tecnologia.
Abordagem Híbrida de Processamento
Para viabilizar esse futuro, a ElevenLabs trabalha em uma abordagem híbrida de processamento, mesclando o processamento em nuvem com a execução direta no dispositivo (on-device). Isso permitirá que a IA funcione em novos hardwares, como fones de ouvido e óculos inteligentes, com menor latência.
A ElevenLabs recentemente anunciou uma rodada de financiamento Série D de US$ 500 milhões, liderada pela Sequoia Capital, com participação da Andreessen Horowitz (a16z) e da ICONIQ Capital. O capital será utilizado para acelerar o desenvolvimento da “ElevenAgents”, a plataforma de agentes conversacionais da empresa.
Concorrência no Mercado
A visão da ElevenLabs se alinha a movimentos agressivos das Big Techs, que buscam transformar assistentes passivos em agentes ativos. A Apple adquiriu recentemente a Q.ai, uma startup israelense especializada em reconhecimento de fala e áudio, em um negócio avaliado em até US$ 2 bilhões. Já o Google avança com o desenvolvimento de recursos para que o Gemini controle aplicativos diretamente no sistema Android.
Essas mudanças indicam que o futuro da interação com a tecnologia está se tornando cada vez mais baseado em comandos de voz, permitindo que as pessoas usem seus dispositivos de forma mais natural e intuitiva.
Este conteúdo pode conter links de compra.
Fonte: link