Pesquisar
- Publicado
- Autores
-
A equipe de Robocat
O novo agente da fundação aprende a operar diferentes braços robóticos, resolve tarefas de apenas 100 demonstrações e melhora com dados auto-gerados.
Os robôs estão rapidamente se tornando parte de nossa vida cotidiana, mas geralmente são programados apenas para executar bem tarefas específicas. Embora aproveitar os recentes avanços na IA possa levar a robôs que poderiam ajudar de muitas outras maneiras, o progresso na construção de robôs de uso geral é mais lento em parte devido ao tempo necessário para coletar dados de treinamento do mundo real.
Nosso último artigo Introduz um agente de IA auto-improvisado para robótica, Robocat, que aprende a executar uma variedade de tarefas em diferentes braços e, em seguida, auto-gera novos dados de treinamento para melhorar sua técnica.
Pesquisas anteriores exploraram como desenvolver Robôs que podem aprender a multitarefas em escala e Combine o entendimento dos modelos de linguagem com os recursos do mundo real de um robô auxiliar. Robocat é o primeiro agente a resolver e se adaptar a várias tarefas e fazê -lo em diferentes robôs reais e reais.
Robocat aprende muito mais rápido do que outros modelos de última geração. Ele pode adquirir uma nova tarefa com apenas 100 demonstrações, pois se baseia em um conjunto de dados grande e diversificado. Essa capacidade ajudará a acelerar a pesquisa da robótica, pois reduz a necessidade de treinamento supervisionado pelo ser humano e é um passo importante para criar um robô de uso geral.
Como Robocat se melhora
O Robocat é baseado em nosso modelo multimodal Gato (espanhol para “CAT”), que pode processar linguagem, imagens e ações em ambientes físicos e simulados. Combinamos a arquitetura de Gato com um grande conjunto de dados de treinamento de sequências de imagens e ações de vários robôs, resolvendo centenas de tarefas diferentes.
Após essa primeira rodada de treinamento, lançamos o Robocat em um ciclo de treinamento de “auto-aperfeiçoamento” com um conjunto de tarefas inéditas. O aprendizado de cada nova tarefa seguiu cinco etapas:
- Colete 100-1000 demonstrações de uma nova tarefa ou robô, usando um braço robótico controlado por um humano.
- Tune Robocat nessa nova tarefa/braço, criando um agente spin-off especializado.
- O agente spin-off pratica nessa nova tarefa/braço em média 10.000 vezes, gerando mais dados de treinamento.
- Incorpore os dados de demonstração e dados auto-gerados no conjunto de dados de treinamento existente do Robocat.
- Treine uma nova versão do Robocat no novo conjunto de dados de treinamento.
O ciclo de treinamento da Robocat, impulsionado por sua capacidade de gerar dados de treinamento adicionais autonomamente.
A combinação de todo esse treinamento significa que o mais recente Robocat é baseado em um conjunto de dados de milhões de trajetórias, de braços robóticos reais e simulados, incluindo dados auto-gerados. Utilizamos quatro tipos diferentes de robôs e muitos braços robóticos para coletar dados baseados na visão, representando as tarefas que o robocat seria treinado para executar.
O Robocat aprende com uma gama diversificada de tipos e tarefas de dados de treinamento: vídeos de um braço robótico real que colhe engrenagens, um braço simulado blocos de empilhamento e robocat usando um braço robótico para pegar um pepino.
Aprendendo a operar novos braços robóticos e resolver tarefas mais complexas
Com o treinamento diversificado de Robocat, ele aprendeu a operar diferentes braços robóticos dentro de algumas horas. Embora tivesse sido treinado em braços com garras dupla, foi capaz de se adaptar a um braço mais complexo com uma garra de três dedos e duas vezes mais entradas controláveis.
Esquerda: Um novo robocat robótico aprendeu a controlar
Certo: Vídeo de Robocat usando o braço para pegar engrenagens
Depois de observar 1000 manifestações controladas pelo homem, coletadas em apenas algumas horas, Robocat poderia direcionar esse novo braço destreitamente o suficiente para captar engrenagens com sucesso 86% do tempo. Com o mesmo nível de demonstrações, ele poderia se adaptar para resolver tarefas que combinavam precisão e compreensão, como remover a fruta correta de uma tigela e resolver um quebra-cabeça de correspondência de formas, necessário para um controle mais complexo.
Exemplos de tarefas Robocat podem se adaptar à solução após 500-1000 demonstrações.
O generalista auto-aprimorado
O Robocat tem um ciclo virtuoso de treinamento: quanto mais novas tarefas aprender, melhor será aprender novas tarefas adicionais. A versão inicial do Robocat foi bem -sucedida apenas 36% das vezes em tarefas inadequadas, depois de aprender a partir de 500 demonstrações por tarefa. Mas o mais recente Robocat, que havia treinado em uma maior diversidade de tarefas, mais que dobrou essa taxa de sucesso nas mesmas tarefas.
A grande diferença de desempenho entre o robocat inicial (uma rodada de treinamento) em comparação com a versão final (treinamento extenso e diversificado, incluindo auto-aperfeiçoamento) após as duas versões terem sido ajustadas em 500 demonstrações de tarefas invisíveis anteriormente.
Essas melhorias foram devidas à crescente amplitude de experiência de Robocat, semelhante à maneira como as pessoas desenvolvem uma gama mais diversificada de habilidades à medida que aprofundam seu aprendizado em um determinado domínio. A capacidade do Robocat de aprender de forma independente e se auto-melhorar rapidamente, especialmente quando aplicada a diferentes dispositivos robóticos, ajudará a pavimentar o caminho para uma nova geração de agentes robóticos mais úteis e de uso geral.