Ao estudar demonstrações e aprender com o feedback humano e com as suas próprias tentativas no mundo real, um novo sistema ensina aos robôs como realizar tarefas complicadas com uma taxa de sucesso de 100%. Além disso, os robôs são ensinados a uma velocidade impressionante.
Nos últimos anos, a robótica tem procurado resolver o desafio de como ensinar às máquinas atividades imprevisíveis ou complicadas, em oposição a uma única ação previsível e repetitiva.
Para resolver este dilema, a equipa de Sergey Levines, do Laboratório de IA Robótica e Aprendizagem, da UC Berkeley, concentrou-se no que é chamado “aprendizagem por reforço” e crio um sistema, chamado Human-in-the-Loop Sample Efficient Robotic Reinforcement Learning (HiL-SERL).
Por via desta, um robô tenta realizar uma tarefa no mundo real e, usando o feedback a partir de câmaras, aprende com os seus erros para, eventualmente, dominar uma habilidade.
Um estudo recente explora esta adição da intervenção humana para acelerar esse processo. Com um rato especial que controla o robô, um humano pode corrigir o caminho do robô e estas correções podem ser integradas na sua memória.
Robô executa melhor e mais rápido graças aos humanos
Através da aprendizagem por reforço, o robô analisa o conjunto de todas as suas tentativas — assistidas e não assistidas, bem-sucedidas e malsucedidas —, por forma a executar cada vez melhor a sua tarefa.
Segundo o investigador, nos seus testes, um humano precisou de intervir cada vez menos à medida que o robô aprendia com a experiência: “Eu precisava de cuidar do robô talvez nos primeiros 30% ou algo assim, e então, gradualmente, eu podia realmente prestar menos atenção”.
Então, os investigadores observaram uma mesa onde uma torre de 39 blocos de Jenga estava perfeitamente empilhada. Depois, um robô, com o seu único membro dobrado, avançou em direção à torre, atingindo precisamente o ponto certo da torre para fazer com que um único bloco caísse, enquanto o resto da torre permanecia estruturalmente intacto.
Esta tarefa, conhecida como “Jenga whipping” e praticada por pessoas com destreza e reflexos, foi dominada por robôs, graças ao novo método de treino da equipa.
Entretanto, a equipa submeteu o seu sistema robótico a uma série de tarefas complicadas, indo além do Jenga: o robô virou um ovo numa frigideira; passou um objeto de um braço para o outro; e montou uma ndo, um painel de instrumentos de carro e uma correia.
Os investigadores selecionaram estes desafios, porque eram variados e, segundo Jianlan Luo, primeiro autor do estudo e investigador pós-doutorado na UC Berkeley, representavam “todos os tipos de incerteza ao realizar tarefas robóticas no complexo mundo real”.
No final do treino, que incluiu, também, a adaptabilidade em caso de acidentes, como deixar cair um objeto, o robô conseguia executar essas tarefas corretamente 100% das vezes.
Os investigadores compararam os seus resultados com um método comum, conhecido como “clonagem comportamental”, treinado com a mesma quantidade de dados de demonstração: o seu novo sistema tornou os robôs mais rápidos e precisos.
Segundo Luo, estas métricas de competência são cruciais, pois tanto os consumidores comuns quanto os industriais não querem comprar um robô inconsistente.
Um dos principais objetivos deste projeto é tornar a tecnologia tão acessível e fácil de usar quanto um iPhone. Acredito firmemente que quanto mais pessoas puderem usá-la, maior será o impacto que poderemos causar.
Disse Luo, revelando que o próximo passo passará por pré-treinar o sistema com recursos básicos de manipulação de objetos, eliminando a necessidade de aprender esses recursos do zero e, em vez disso, avançar diretamente para a aquisição de habilidades mais complexas.