Empresa enfrenta desafios técnicos para atualizar Alexa com IA generativa, adiando o lançamento do assistente de voz que promete revolucionar a tecnologia de assistência pessoal
A Amazon está se preparando para relançar seu assistente digital Alexa, alimentado por voz, como um “agente” de inteligência artificial que pode completar tarefas práticas, enquanto o grupo de tecnologia corre para resolver os desafios que têm afetado a reforma de IA do sistema.
A empresa de US$ 2,4 trilhões tem buscado nos últimos dois anos redesenhar a Alexa, seu sistema de conversação incorporado em 500 milhões de dispositivos de consumo em todo o mundo, para que o “cérebro” do software seja substituído por IA generativa.
Rohit Prasad, que lidera a equipe de inteligência artificial geral (AGI) da Amazon, disse ao Financial Times que o assistente de voz ainda precisa superar vários obstáculos técnicos antes do lançamento.
Isso inclui resolver o problema das “alucinações” ou respostas fabricadas, a velocidade de resposta ou “latência” e a confiabilidade. “As alucinações têm que ser próximas de zero”, disse Prasad. “Ainda é um problema aberto na indústria, mas estamos trabalhando muito nisso.”
A visão dos líderes da Amazon é transformar a Alexa, que atualmente é usada apenas para um conjunto limitado de tarefas simples, como tocar música e configurar alarmes, em um produto “agente” que atue como um concierge personalizado. Isso poderia incluir desde sugerir restaurantes até configurar as luzes no quarto com base nos ciclos de sono de uma pessoa.
O redesenho da Alexa está em andamento desde o lançamento do ChatGPT da OpenAI, apoiado pela Microsoft, no final de 2022. Enquanto Microsoft, Google, Meta e outros rapidamente incorporaram IA generativa em suas plataformas de computação e aprimoraram seus serviços de software, críticos questionam se a Amazon conseguirá resolver suas dificuldades técnicas e organizacionais a tempo de competir com seus rivais.
De acordo com vários funcionários que trabalharam nas equipes de assistente de voz da Amazon nos últimos anos, o esforço foi repleto de complicações e segue anos de pesquisa e desenvolvimento em IA.
Vários ex-trabalhadores disseram que a longa espera para o lançamento foi, em grande parte, devido às dificuldades inesperadas envolvidas na transição e combinação dos algoritmos mais simples e pré-definidos nos quais a Alexa foi construída, com modelos de linguagem grandes mais poderosos, mas imprevisíveis.
Em resposta, a Amazon disse que está “trabalhando arduamente para permitir uma assistência ainda mais proativa e capaz” em seu assistente de voz. A empresa acrescentou que uma implementação técnica dessa escala, em um serviço ativo e em uma suíte de dispositivos usados por clientes ao redor do mundo, era sem precedentes e não tão simples quanto sobrepor um LLM ao serviço da Alexa.
Prasad, o ex-arquitetor-chefe da Alexa, disse que o lançamento dos modelos internos da Amazon, Amazon Nova, no mês passado — liderados pela sua equipe AGI — foi em parte motivado pelas necessidades específicas de velocidade, custo e confiabilidade ótimos, para ajudar aplicativos de IA como a Alexa “a chegar até o último trecho, que é realmente difícil”.
Para operar como um agente, o “cérebro” da Alexa precisa ser capaz de acessar centenas de softwares e serviços de terceiros, disse Prasad.
“Às vezes subestimamos quantos serviços estão integrados à Alexa, e é um número gigantesco. Esses aplicativos recebem bilhões de solicitações por semana, então, quando você tenta fazer com que ações confiáveis aconteçam rapidamente… você precisa ser capaz de fazer isso de maneira muito econômica”, acrescentou.
A complexidade vem do fato de os usuários da Alexa esperarem respostas rápidas e níveis extremamente altos de precisão. Essas qualidades estão em desacordo com a natureza probabilística inerente da IA generativa atual, um software estatístico que prevê palavras com base em padrões de fala e linguagem.
Alguns ex-funcionários também apontam dificuldades em preservar os atributos originais do assistente, incluindo sua consistência e funcionalidade, enquanto o infundem com novos recursos generativos, como criatividade e diálogos livres.
Devido à natureza mais personalizada e conversacional dos LLMs, a empresa também planeja contratar especialistas para moldar a personalidade, voz e dicção da IA, para que ela permaneça familiar aos usuários da Alexa, de acordo com uma pessoa familiarizada com o assunto.
Um ex-membro sênior da equipe da Alexa disse que, embora os LLMs sejam sofisticados, eles vêm com riscos, como produzir respostas “completamente inventadas algumas vezes”.
“Na escala em que a Amazon opera, isso pode acontecer um grande número de vezes por dia”, disse ele, prejudicando sua marca e reputação.
Em junho, Mihail Eric, ex-cientista de aprendizado de máquina na Alexa e membro fundador de sua equipe de “modelagem conversacional”, disse publicamente que a Amazon “deixou a bola cair” ao não se tornar “a líder de mercado inequívoca em IA conversacional” com a Alexa.
Eric disse que, apesar de ter um forte talento científico e “enormes” recursos financeiros, a empresa foi “completamente afetada por problemas técnicos e burocráticos”, sugerindo que “os dados foram mal anotados” e “a documentação era inexistente ou desatualizada”.
De acordo com dois ex-funcionários que trabalharam em IA relacionada à Alexa, a tecnologia histórica que sustentava o assistente de voz era inflexível e difícil de mudar rapidamente, sobrecarregada por uma base de código desorganizada e uma equipe de engenharia “distribuída demais”.
O software original da Alexa, construído sobre a tecnologia adquirida da start-up britânica Evi em 2012, era uma máquina de perguntas e respostas que funcionava pesquisando dentro de um universo definido de fatos para encontrar a resposta correta, como o clima do dia ou uma música específica na sua biblioteca de músicas.
A nova Alexa usa um conjunto de diferentes modelos de IA para reconhecer e traduzir consultas por voz e gerar respostas, além de identificar violações de políticas, como respostas inadequadas e alucinações. Construir o software para traduzir entre os sistemas legados e os novos modelos de IA tem sido um grande obstáculo na integração da Alexa com LLMs.
Os modelos incluem o software interno da Amazon, incluindo os mais recentes modelos Nova, além do Claude, o modelo de IA da start-up Anthropic, na qual a Amazon investiu US$ 8 bilhões nos últimos 18 meses.
“[A] coisa mais desafiadora sobre os agentes de IA é garantir que eles sejam seguros, confiáveis e previsíveis”, disse o CEO da Anthropic, Dario Amodei, ao FT no ano passado.
O software de IA do tipo agente precisa chegar ao ponto “onde… as pessoas realmente possam confiar no sistema”, acrescentou. “Uma vez que chegarmos a esse ponto, então liberaremos esses sistemas.”
Um funcionário atual disse que mais etapas ainda são necessárias, como sobrepor filtros de segurança infantil e testar integrações personalizadas com a Alexa, como luzes inteligentes e o campainha Ring.
“A confiabilidade é o problema — fazer com que funcione perto de 100% do tempo”, acrescentou o funcionário. “É por isso que vemos a gente… ou a Apple ou o Google lançando lentamente e de forma incremental.”
Diversos terceiros desenvolvendo “habilidades” ou recursos para a Alexa disseram que não sabem quando o novo dispositivo com IA generativa será lançado e como criar novas funções para ele.
“Estamos esperando pelos detalhes e compreensão”, disse Thomas Lindgren, cofundador do desenvolvedor de conteúdo sueco Wanderword. “Quando começamos a trabalhar com eles, eram muito mais abertos… depois com o tempo, mudaram.”
Outro parceiro disse que, após um período inicial de “pressão” que a Amazon colocou sobre os desenvolvedores para começar a se preparar para a próxima geração da Alexa, as coisas ficaram quietas.
Um desafio contínuo para a equipe da Alexa da Amazon — que foi impactada por grandes demissões em 2023 — é como ganhar dinheiro. Descobrir como tornar os assistentes “baratos o suficiente para funcionar em grande escala” será uma tarefa importante, disse Jared Roesch, cofundador do grupo de IA generativa OctoAI.
As opções em discussão incluem criar um novo serviço de assinatura da Alexa ou obter uma parte das vendas de bens e serviços, disse um ex-funcionário da Alexa.
Prasad disse que o objetivo da Amazon era criar uma variedade de modelos de IA que pudessem atuar como “blocos de construção” para uma variedade de aplicativos além da Alexa.
“O que estamos sempre fundamentados é no cliente e na IA prática, não estamos fazendo ciência pelo bem da ciência”, disse Prasad. “Estamos fazendo isso… para entregar valor e impacto para o cliente, o que nesta era de IA generativa está se tornando mais importante do que nunca, porque os clientes querem ver um retorno sobre o investimento.”
Com informações do Financial Times*