Ciência

Robôs aprendem a cozinhar assistindo ao YouTube

  umdrobotics.jpg

Quando se trata de ensinar robôs a fazer as coisas, existem algumas diferenças muito importantes. Um humano sabe o que você quer dizer quando diz 'eu preciso de uma xícara'. Um robô precisa ser ensinado que isso significa que ele tem que se virar, ir até o armário, abri-lo, tirar o copo, fechar o armário, voltar, voltar para você, manobrar o copo sobre o banco e soltar o copo.

Esta é uma das partes-chave para descobrir o aprendizado de máquina: como você pode programar um robô para que ele possa intuir que um copo de plástico, um copo e uma caneca podem ser classificados sob o termo geral 'copo'? Como você pode projetar um robô que seja capaz de ensinar a si mesmo?

Uma maneira, como pesquisadores do Instituto de Estudos Avançados de Computação da Universidade de Maryland estão descobrindo, é o YouTube. Mais especificamente, tutoriais de culinária no YouTube. Ao assistir a esses vídeos, os robôs são capazes de aprender a complicada série de movimentos de preensão e manipulação necessários para cozinhar, observando o que os humanos fazem na Internet.

'Escolhemos vídeos de culinária porque todo mundo já fez isso', disse o professor de ciência da computação da UMD e diretor do Laboratório de Visão Computacional da UMIACS, Yiannis Aloimonos. 'Mas cozinhar é complexo em termos de manipulação, as etapas envolvidas e as ferramentas que você usa. Se você quer cortar um pepino, por exemplo, você precisa pegar a faca, colocá-la no lugar, fazer o corte e observar os resultados para certifique-se de fazê-los corretamente.'



Artigos relacionados

  • Robo Brain está aprendendo com a internet
  • O robô que pode ser programado conversando com ele
  • A IA aprende como uma criança de verdade

O robô usa vários sistemas-chave para aprender com os vídeos do YouTube. A visão computacional, com dois sistemas de reconhecimento diferentes, permite que o robô processe visualmente como o apresentador pega algo, a inteligência artificial processa essas informações e, finalmente, a análise de linguagem o ajuda a entender comandos falados e traduzi-los em uma ação.

Desta forma, o robô pode reunir passos individuais de vários vídeos e atribuir-lhes regras de acordo com sua programação, reunindo-os na ordem correta.

'Estamos tentando criar uma tecnologia para que os robôs possam eventualmente interagir com os humanos', disse a pesquisadora associada da UMIACS, Cornelia Fermüller. “Para isso, precisamos de ferramentas para que os robôs possam captar as ações de um humano e rastreá-las em tempo real. Estamos interessados ​​em entender todos esses componentes. Como uma ação é realizada por humanos? são os processos cognitivos por trás disso?'

A diferença, disse a equipe, entre sua pesquisa e os esforços anteriores é que eles estão se concentrando no objetivo, não nas etapas. O robô pode usar seu banco de dados de ações para juntá-las e atingir o objetivo, em vez de copiar literalmente, passo a passo, uma série de ações.

É um sistema que aparentemente funciona. De acordo com papel da equipe , o módulo de reconhecimento de preensão teve uma precisão média de 77% e uma taxa média de recuperação de 76%. Para o módulo de reconhecimento de objetos, o robô alcançou uma precisão média de 93% e um recall médio de 93%. No geral, a precisão do reconhecimento de objetos foi de 79%, a compreensão foi de 91% e as ações previstas foram de 83%. A queda na precisão do reconhecimento de objetos ocorreu porque o robô não havia sido treinado em alguns objetos, como o tofu.

'Ao ter robôs flexíveis, estamos contribuindo para a próxima fase da automação. Esta será a próxima revolução industrial', disse Aloimonos. 'Teremos ambientes de fabricação inteligentes e armazéns completamente automatizados. Seria ótimo usar robôs autônomos para trabalhos perigosos - para desarmar bombas e limpar desastres nucleares como o evento de Fukushima. Demonstramos que é possível para robôs humanóides fazer nosso trabalho humano.'

A equipe apresentará sua pesquisa no Conferência da Associação para o Avanço da Inteligência Artificial em Austin, Texas, em 29 de janeiro de 2015.

window.CnetFunctions.logWithLabel('%c One Trust ', 'IFrame carregado: iframe_shortcode com classe optanon-category-C0004');