이것은 사용자가 2025-3-18 14:50에 https://app.immersivetranslate.com/pdf-pro/45be6004-76da-485f-906a-64de2425487f/을(를) 위해 저장한 이중 언어 스냅샷 페이지로, 몰입형 번역에 의해 제공된 이중 언어 지원이 있습니다. 저장하는 방법을 알아보세요?

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
저비용 하드웨어로 세밀한 바이매뉴얼 조작 학습하기

Tony Z. Zhao 1 1 ^(1){ }^{1} Vikash Kumar 3 3 ^(3){ }^{3} Sergey Levine 2 2 ^(2)quad{ }^{2} \quad Chelsea Finn 1 1 ^(1){ }^{1}
토니 자오 1 1 ^(1){ }^{1} 비카쉬 쿠마르 3 3 ^(3){ }^{3} 세르게이 레빈 2 2 ^(2)quad{ }^{2} \quad 첼시 핀 1 1 ^(1){ }^{1}
1 1 ^(1){ }^{1} Stanford University 2 2 ^(2){ }^{2} UC Berkeley 3 3 ^(3){ }^{3} Meta
1 1 ^(1){ }^{1} 스탠포드 대학교 2 2 ^(2){ }^{2} UC 버클리 3 3 ^(3){ }^{3} 메타


robots and 3D printed components. Left: The user teleoperates by backdriving the leader robots, with the follower robots mirroring the motion. Right: ALOHA is capable of precise, contact-rich, and dynamic tasks. We show examples of both teleoperated and learned skills.
로봇과 3D 프린팅 부품. 왼쪽: 사용자가 리더 로봇을 백드라이브하고 팔로워 로봇이 그 동작을 미러링하는 방식으로 원격 조작합니다. 오른쪽: 알로하는 정밀하고 접촉이 많으며 동적인 작업을 수행할 수 있습니다. 원격 조작과 학습된 기술 모두의 예를 보여줍니다.

Abstract  초록

Fine manipulation tasks, such as threading cable ties or slotting a battery, are notoriously difficult for robots because they require precision, careful coordination of contact forces, and closed-loop visual feedback. Performing these tasks typically requires high-end robots, accurate sensors, or careful calibration, which can be expensive and difficult to set up. Can learning enable low-cost and imprecise hardware to perform these fine manipulation tasks? We present a low-cost system that performs end-to-end imitation learning directly from real demonstrations, collected with a custom teleoperation interface. Imitation learning, however, presents its own challenges, particularly in highprecision domains: errors in the policy can compound over time, and human demonstrations can be non-stationary. To address these challenges, we develop a simple yet novel algorithm, Action Chunking with Transformers (ACT), which learns a generative model over action sequences. ACT allows the robot to learn 6 difficult tasks in the real world, such as opening a translucent condiment cup and slotting a battery with 8 0 9 0 % 8 0 9 0 % 80-90%\mathbf{8 0 - 9 0 \%} success, with only 10 minutes worth of demonstrations. Project website: tonyzhaozh.github.io/aloha
케이블 타이를 끼우거나 배터리를 끼우는 등의 미세 조작 작업은 정밀하고 신중한 접촉력 조정과 폐쇄 루프 시각적 피드백이 필요하기 때문에 로봇에게는 매우 어려운 작업으로 악명이 높습니다. 이러한 작업을 수행하려면 일반적으로 고급 로봇, 정확한 센서 또는 세심한 캘리브레이션이 필요하며, 이는 비용이 많이 들고 설정하기 어려울 수 있습니다. 학습을 통해 저렴하고 정밀하지 않은 하드웨어로도 이러한 정밀한 조작 작업을 수행할 수 있을까요? 유니티는 맞춤형 원격 조작 인터페이스로 수집한 실제 데모에서 직접 엔드투엔드 모방 학습을 수행하는 저비용 시스템을 소개합니다. 그러나 모방 학습은 특히 고정밀 영역에서 시간이 지남에 따라 정책의 오류가 누적될 수 있고 사람의 데모가 고정적이지 않을 수 있다는 점에서 고유한 과제를 안고 있습니다. 이러한 문제를 해결하기 위해 유니티는 액션 시퀀스를 통해 생성 모델을 학습하는 간단하면서도 새로운 알고리즘인 ACT(Action Chunking with Transformers)를 개발했습니다. ACT를 사용하면 로봇이 10분 정도의 시연만으로 반투명 조미료 컵 열기, 배터리 끼우기 등 실제 세계에서 6가지의 어려운 작업을 8 0 9 0 % 8 0 9 0 % 80-90%\mathbf{8 0 - 9 0 \%} 성공률로 학습할 수 있습니다. 프로젝트 웹사이트: tonyzhaozh.github.io/aloha

I. Introduction  I. 소개

Fine manipulation tasks involve precise, closed-loop feedback and require high degrees of hand-eye coordination to adjust and re-plan in response to changes in the environment. Examples of such manipulation tasks include opening the lid of a condiment cup or slotting a battery, which involve delicate operations such as pinching, prying, and tearing rather than broad-stroke motions such as picking and placing. Take opening the lid of a condiment cup in Figure 1 as an example, where the cup is initialized upright on the table: the right gripper needs to first tip it over, and nudge it into the opened left gripper. Then the left gripper closes gently and lifts the cup
미세 조작 작업에는 정밀한 폐쇄 루프 피드백이 필요하며 환경 변화에 따라 조정하고 다시 계획하기 위해 고도의 손과 눈의 협응력이 필요합니다. 이러한 조작 작업의 예로는 조미료 컵 뚜껑 열기, 건전지 끼우기 등이 있으며, 이러한 작업에는 집기, 놓기 등의 큰 동작보다는 꼬집기, 들어올리기, 찢기 등의 섬세한 동작이 포함됩니다. 그림 1의 조미료 컵 뚜껑을 여는 경우를 예로 들면, 컵이 테이블 위에 똑바로 세워져 있는 상태에서 오른쪽 그리퍼로 먼저 컵을 뒤집은 다음 열린 왼쪽 그리퍼로 밀어 넣어야 합니다. 그런 다음 왼쪽 그리퍼가 부드럽게 닫히고 컵을 들어 올립니다.

off the table. Next, one of the right fingers approaches the cup from below and pries the lid open. Each of these steps requires high precision, delicate hand-eye coordination, and rich contact. Millimeters of error would lead to task failure.
를 테이블에서 치웁니다. 그런 다음 오른쪽 손가락 중 하나를 컵 아래에서 컵에 다가가 뚜껑을 들어 올립니다. 이러한 각 단계에는 높은 정밀도, 섬세한 손과 눈의 협응력, 풍부한 접촉이 필요합니다. 밀리미터의 오차도 작업 실패로 이어질 수 있습니다.
Existing systems for fine manipulation use expensive robots and high-end sensors for precise state estimation [29, 60, 32, 41]. In this work, we seek to develop a low-cost system for fine manipulation that is, in contrast, accessible and reproducible. However, low-cost hardware is inevitably less precise than high-end platforms, making the sensing and planning challenge more pronounced. One promising direction to resolve this is to incorporate learning into the system. Humans also do not have industrial-grade proprioception [71], and yet we are able to perform delicate tasks by learning from closed-loop visual feedback and actively compensating for errors. In our system, we therefore train an end-to-end policy that directly maps RGB images from commodity web cameras to the actions. This pixel-to-action formulation is particularly suitable for fine manipulation, because fine manipulation often involves objects with complex physical properties, such that learning the manipulation policy is much simpler than modeling the whole environment. Take the condiment cup example: modeling the contact when nudging the cup, and also the deformation when prying open the lid involves complex physics on a large number of degrees of freedom. Designing a model accurate enough for planning would require significant research and task specific engineering efforts. In contrast, the policy of nudging and opening the cup is much simpler, since a closed-loop policy can react to different positions of the cup and lid rather than precisely anticipating how it will move in advance.
기존 미세 조작 시스템은 정밀한 상태 추정을 위해 고가의 로봇과 고급 센서를 사용합니다[29, 60, 32, 41]. 이 연구에서는 이와는 대조적으로 접근성과 재현성을 갖춘 저비용의 미세 조작 시스템을 개발하고자 합니다. 그러나 저가의 하드웨어는 필연적으로 고가의 플랫폼보다 정밀도가 떨어지기 때문에 센싱 및 계획의 어려움이 더욱 두드러집니다. 이를 해결하기 위한 한 가지 유망한 방향은 학습을 시스템에 통합하는 것입니다. 인간은 산업 수준의 고유 수용성 감각을 가지고 있지 않지만[71], 폐쇄 루프 시각 피드백을 통해 학습하고 오류를 능동적으로 보완함으로써 섬세한 작업을 수행할 수 있습니다. 따라서 저희 시스템에서는 상용 웹 카메라의 RGB 이미지를 동작에 직접 매핑하는 엔드투엔드 정책을 학습합니다. 이러한 픽셀 대 액션 공식은 특히 미세 조작에 적합하며, 미세 조작에는 종종 복잡한 물리적 속성을 가진 물체가 포함되기 때문에 전체 환경을 모델링하는 것보다 조작 정책을 학습하는 것이 훨씬 간단하기 때문입니다. 조미료 컵을 예로 들면, 컵을 밀었을 때의 접촉과 뚜껑을 열 때의 변형을 모델링하려면 많은 자유도에 대한 복잡한 물리학이 필요합니다. 계획을 세울 만큼 정확한 모델을 설계하려면 상당한 연구와 작업별 엔지니어링 노력이 필요합니다. 반면, 컵을 밀고 여는 정책은 컵이 어떻게 움직일지 미리 정확하게 예측하는 대신 컵과 뚜껑의 다양한 위치에 반응할 수 있기 때문에 훨씬 더 간단합니다.
Training an end-to-end policy, however, presents its own challenges. The performance of the policy depends heavily on the training data distribution, and in the case of fine manipulation, high-quality human demonstrations can provide tremendous value by allowing the system to learn from human dexterity. We thus build a low-cost yet dexterous teleoperation system for data collection, and a novel imitation learning algorithm that learns effectively from the demonstrations. We overview each component in the following two paragraphs.
그러나 엔드투엔드 정책을 훈련하는 데는 나름의 어려움이 있습니다. 정책의 성능은 훈련 데이터 분포에 따라 크게 좌우되며, 미세한 조작의 경우 고품질의 인간 시연은 시스템이 인간의 손재주를 통해 학습함으로써 엄청난 가치를 제공할 수 있습니다. 따라서 저희는 데이터 수집을 위한 저비용의 정교한 원격 조작 시스템과 시연을 통해 효과적으로 학습하는 새로운 모방 학습 알고리즘을 구축했습니다. 다음 두 단락에서 각 구성 요소에 대해 간략히 설명합니다.

Teleoperation system. We devise a teleoperation setup with two sets of low-cost, off-the-shelf robot arms. They are approximately scaled versions of each other, and we use jointspace mapping for teleoperation. We augment this setup with 3D printed components for easier backdriving, leading to a highly capable teleoperation system within a $ 20 k $ 20 k $20k\$ 20 \mathrm{k} budget. We showcase its capabilities in Figure 1, including teleoperation of precise tasks such as threading a zip tie, dynamic tasks such as juggling a ping pong ball, and contact-rich tasks such as assembling the chain in the NIST board #2 [4].
원격 작동 시스템. 우리는 두 세트의 저비용 기성품 로봇 팔로 원격 작동 설정을 고안합니다. 이 로봇은 서로의 크기를 대략적으로 축소한 버전으로, 원격 작동을 위해 조인트 스페이스 매핑을 사용합니다. 이 설정을 3D 프린팅 부품으로 보강하여 백드라이빙을 용이하게 함으로써 $ 20 k $ 20 k $20k\$ 20 \mathrm{k} 예산 내에서 뛰어난 성능의 원격 운영 시스템을 구축했습니다. 그림 1에서는 지퍼 타이를 끼우는 것과 같은 정밀한 작업, 탁구공을 저글링하는 것과 같은 동적 작업, NIST 보드 #2 [4]의 체인 조립과 같이 접촉이 많은 작업의 원격 작동을 포함하여 그 기능을 선보입니다.

Imitation learning algorithm. Tasks that require precision and visual feedback present a significant challenge for imitation learning, even with high-quality demonstrations. Small errors in the predicted action can incur large differences in the state, exacerbating the “compounding error” problem of imitation learning [47, 64, 29]. To tackle this, we take inspiration from action chunking, a concept in psychology that describes how sequences of actions are grouped together as a chunk, and executed as one unit [35]. In our case, the policy predicts the target joint positions for the next k k kk timesteps, rather than just one step at a time. This reduces the effective horizon of the task by k k kk-fold, mitigating compounding errors. Predicting action sequences also helps tackle temporally correlated confounders [61], such as pauses in demonstrations that are hard to model with Markovian single-step policies. To further improve the smoothness of the policy, we propose temporal ensembling, which queries the policy more frequently and averages across the overlapping action chunks. We implement action chunking policy with Transformers [65], an architecture designed for sequence modeling, and train it as a conditional VAE (CVAE) [55, 33] to capture the variability in human data. We name our method Action Chunking with Transformers (ACT), and find that it significantly outperforms previous imitation learning algorithms on a range of simulated and real-world fine manipulation tasks.
모방 학습 알고리즘. 정밀도와 시각적 피드백이 필요한 작업은 고품질 데모를 제공하더라도 모방 학습에 상당한 어려움이 있습니다. 예측된 동작의 작은 오류로 인해 상태의 차이가 크게 발생하여 모방 학습의 '복합 오류' 문제가 악화될 수 있습니다[47, 64, 29]. 이 문제를 해결하기 위해 일련의 행동을 청크로 묶어 하나의 단위로 실행하는 방법을 설명하는 심리학의 개념인 액션 청킹에서 영감을 얻었습니다 [35]. 이 정책에서는 한 번에 한 단계씩이 아니라 다음 k k kk 시간 간격의 목표 공동 위치를 예측합니다. 이렇게 하면 작업의 유효 지평이 k k kk -배로 줄어들어 복합 오류가 완화됩니다. 동작 순서를 예측하면 마르코비안 단일 단계 정책으로 모델링하기 어려운 데모의 일시 정지 등 시간적으로 상관관계가 있는 혼란 요인[61]을 해결하는 데도 도움이 됩니다. 정책의 부드러움을 더욱 개선하기 위해 정책을 더 자주 쿼리하고 겹치는 액션 청크의 평균을 구하는 시간적 앙상블을 제안합니다. 시퀀스 모델링을 위해 설계된 아키텍처인 Transformers [65]로 액션 청킹 정책을 구현하고, 이를 조건부 VAE(CVAE) [55, 33]로 훈련하여 인간 데이터의 가변성을 포착합니다. 우리는 이 방법을 ACT(액션 청킹 위드 트랜스포머)라고 명명하고, 다양한 시뮬레이션 및 실제 미세 조작 작업에서 이전의 모방 학습 알고리즘보다 훨씬 뛰어난 성능을 발휘한다는 사실을 발견했습니다.
The key contribution of this paper is a low-cost system for learning fine manipulation, comprising a teleoperation system and a novel imitation learning algorithm. The teleoperation system, despite its low cost, enables tasks with high precision and rich contacts. The imitation learning algorithm, Action Chunking with Transformers (ACT), is capable of learning precise, close-loop behavior and drastically outperforms previous methods. The synergy between these two parts allows learning of 6 fine manipulation skills directly in the real-world, such as opening a translucent condiment cup and slotting a battery with 80 90 % 80 90 % 80-90%80-90 \% success, from only 10 minutes or 50 demonstration trajectories.
이 논문의 핵심은 원격 조작 시스템과 새로운 모방 학습 알고리즘으로 구성된 미세 조작 학습을 위한 저비용 시스템입니다. 원격 조작 시스템은 저렴한 비용에도 불구하고 높은 정밀도와 풍부한 접점을 가진 작업을 가능하게 합니다. 모방 학습 알고리즘인 ACT(액션 청킹 위드 트랜스포머)는 정밀한 클로즈 루프 동작을 학습할 수 있으며 이전 방식보다 훨씬 뛰어난 성능을 발휘합니다. 이 두 부분의 시너지 효과로 10분 또는 50개의 데모 궤적만으로 반투명 조미료 컵을 열고 배터리를 80 90 % 80 90 % 80-90%80-90 \% 성공으로 끼우는 등 실제 세계에서 직접 6가지 미세 조작 기술을 학습할 수 있습니다.
Imitation learning for robotic manipulation. Imitation learning allows a robot to directly learn from experts. Behavioral cloning (BC) [44] is one of the simplest imitation learning algorithms, casting imitation as supervised learning from observations to actions. Many works have then sought to improve BC, for example by incorporating history with various architectures [39, 49, 26, 7], using a different training objective [17, 42], and including regularization [46]. Other works emphasize the multi-task or few-shot aspect of imitation learning [14, 25, 11], leveraging language [51, 52, 26, 7], or exploiting the specific task structure [43, 68, 28, 52]. Scaling these imitation learning algorithms with more data has led to impressive systems that can generalize to new objects, instructions, or scenes [15, 26, 7, 32]. In this work, we focus on building an imitation learning system that is low-cost yet capable of performing delicate, fine manipulation tasks. We tackle this from both hardware and software, by building a high-performance teleoperation system, and a novel imitation learning algorithm that drastically improves previous methods on fine manipulation tasks.
로봇 조작을 위한 모방 학습. 모방 학습을 통해 로봇은 전문가로부터 직접 학습할 수 있습니다. 행동 복제(BC)[44]는 가장 간단한 모방 학습 알고리즘 중 하나로, 관찰에서 행동에 이르기까지 모방을 지도 학습으로 전환합니다. 그 후 많은 연구에서 BC를 개선하기 위해 다양한 아키텍처에 역사를 통합하거나[39, 49, 26, 7], 다른 훈련 목표를 사용하거나[17, 42], 정규화[46]를 포함하는 등의 방법을 모색해 왔습니다. 다른 연구에서는 모방 학습의 멀티태스크 또는 소수 샷 측면을 강조하거나[14, 25, 11], 언어를 활용하거나[51, 52, 26, 7], 특정 작업 구조를 활용하기도 합니다[43, 68, 28, 52]. 이러한 모방 학습 알고리즘을 더 많은 데이터로 확장하면 새로운 객체, 명령어 또는 장면에 일반화할 수 있는 인상적인 시스템을 만들 수 있습니다[15, 26, 7, 32]. 이 연구에서는 저비용이면서도 섬세하고 정교한 조작 작업을 수행할 수 있는 모방 학습 시스템을 구축하는 데 중점을 둡니다. 고성능 원격 조작 시스템과 미세 조작 작업에 대한 기존 방법을 대폭 개선한 새로운 모방 학습 알고리즘을 구축하여 하드웨어와 소프트웨어 양쪽에서 이 문제를 해결합니다.

Addressing compounding errors. A major shortcoming of BC is compounding errors, where errors from previous timesteps accumulate and cause the robot to drift off of its training distribution, leading to hard-to-recover states [47, 64]. This problem is particularly prominent in the fine manipulation setting [29]. One way to mitigate compounding errors is to allow additional on-policy interactions and expert corrections, such as DAgger [47] and its variants [30, 40, 24]. However, expert annotation can be time-consuming and unnatural with a teleoperation interface [29]. One could also inject noise at demonstration collection time to obtain datasets with corrective behavior [36], but for fine manipulation, such noise injection can directly lead to task failure, reducing the dexterity of teleoperation system. To circumvent these issues, previous works generate synthetic correction data in an offline manner [16, 29, 70]. While they are limited to settings where lowdimensional states are available, or a specific type of task like grasping. Due to these limitations, we need to address the compounding error problem from a different angle, compatible with high-dimensional visual observations. We propose to reduce the effective horizon of tasks through action chunking, i.e., predicting an action sequence instead of a single action, and then ensemble across overlapping action chunks to produce trajectories that are both accurate and smooth.
복합 오류 해결. BC의 주요 단점은 이전 타임스텝의 오류가 누적되어 로봇이 학습 분포에서 벗어나 복구하기 어려운 상태에 이르게 하는 복합 오류입니다[47, 64]. 이 문제는 특히 미세 조작 설정에서 두드러지게 나타납니다[29]. 복합 오류를 완화하는 한 가지 방법은 DAgger [47] 및 그 변형 [30, 40, 24]과 같은 추가적인 온-정책 상호작용과 전문가 수정을 허용하는 것입니다. 그러나 전문가 주석은 원격 조작 인터페이스에서는 시간이 많이 걸리고 부자연스러울 수 있습니다[29]. 또한 데모 수집 시 노이즈를 주입하여 수정 동작이 있는 데이터 세트를 얻을 수도 있지만[36], 미세 조작의 경우 이러한 노이즈 주입은 작업 실패로 직접적으로 이어져 원격 조작 시스템의 손재주를 떨어뜨릴 수 있습니다. 이러한 문제를 피하기 위해 기존 연구에서는 오프라인 방식으로 합성 보정 데이터를 생성합니다[16, 29, 70]. 하지만 저차원 상태를 사용할 수 있는 환경이나 파악과 같은 특정 유형의 작업으로 제한됩니다. 이러한 한계로 인해 우리는 고차원 시각적 관찰과 호환되는 다른 각도에서 복소 오차 문제를 해결해야 합니다. 저희는 액션 청킹, 즉 단일 액션 대신 액션 시퀀스를 예측한 다음 겹치는 액션 청크를 앙상블하여 정확하고 부드러운 궤적을 생성함으로써 작업의 유효 지평을 줄이는 방법을 제안합니다.

Bimanual manipulation. Bimanual manipulation has a long history in robotics, and has gained popularity with the lowering of hardware costs. Early works tackle bimanual manipulation from a classical control perspective, with known environment dynamics [54, 48], but designing such models can be timeconsuming, and they may not be accurate for objects with complex physical properties. More recently, learning has been incorporated into bimanual systems, such as reinforcement learning [9, 10], imitating human demonstrations [34, 37, 59, 67, 32], or learning to predict key points that chain together
바이매뉴얼 조작. 바이매뉴얼 조작은 로봇 공학에서 오랜 역사를 가지고 있으며 하드웨어 비용이 낮아지면서 인기를 얻고 있습니다. 초기 연구에서는 알려진 환경 역학[54, 48]과 함께 고전적인 제어 관점에서 바이매뉴얼 조작을 다루었지만, 이러한 모델을 설계하는 데 시간이 오래 걸릴 수 있으며 복잡한 물리적 특성을 가진 물체에 대해서는 정확하지 않을 수 있습니다. 최근에는 강화 학습[9, 10], 인간의 시연 모방[34, 37, 59, 67, 32], 또는 서로 연결되는 핵심 포인트를 예측하는 학습과 같은 학습이 바이매뉴얼 시스템에 통합되었습니다.


ViperX 6dof Arm (follower)
ViperX 6dof Arm (팔로워)
#Dofs 6 + 6 + 6+6+ gripper   6 + 6 + 6+6+ 그리퍼
Reach  도달 750 mm  750mm
Span 1500 mm  1500mm
Repeatability  반복성 1 mm  1mm
Accuracy  정확성 5 8 mm 5 8 mm 5-8mm5-8 \mathrm{~mm}
Working Payload  작업 페이로드 750 g
#Dofs 6+ gripper Reach 750 mm Span 1500 mm Repeatability 1 mm Accuracy 5-8mm Working Payload 750 g| #Dofs | $6+$ gripper | | :--- | :--- | | Reach | 750 mm | | Span | 1500 mm | | Repeatability | 1 mm | | Accuracy | $5-8 \mathrm{~mm}$ | | Working Payload | 750 g |
Fig. 3: Left: Camera viewpoints of the front, top, and two wrist cameras, together with an illustration of the bimanual workspace of ALOHA. Middle: Detailed view of the “handle and scissor” mechanism and custom grippers. Right: Technical spec of the ViperX 6dof robot [1].
그림 3: 왼쪽: 전면, 상단 및 두 개의 손목 카메라의 카메라 시점과 ALOHA의 양방향 작업 공간 그림. 가운데: '핸들 및 가위' 메커니즘과 맞춤형 그리퍼의 상세 보기. 오른쪽: ViperX 6dof 로봇의 기술 사양 [1].

motor primitives [20, 19, 50]. Some of the works also focus on fine-grained manipulation tasks such as knot untying, cloth flattening, or even threading a needle [19, 18, 31], while using robots that are considerably more expensive, e.g. the da Vinci surgical robot or ABB YuMi. Our work turns to low-cost hardware, e.g. arms that cost around $ 5 k $ 5 k $5k\$ 5 \mathrm{k} each, and seeks to enable them to perform high-precision, closed-loop tasks. Our teleoperation setup is most similar to Kim et al. [32], which also uses joint-space mapping between the leader and follower robots. Unlike this previous system, we do not make use of special encoders, sensors, or machined components. We build our system with only off-the-shelf robots and a handful of 3D printed parts, allowing non-experts to assemble it in less than 2 hours.
모터 프리미티브 [20, 19, 50]. 일부 작업은 매듭 풀기, 천 평평하게 펴기, 심지어 바늘 꿰기[19, 18, 31]와 같은 세밀한 조작 작업에 중점을 두기도 하며, 다빈치 수술 로봇이나 ABB YuMi와 같이 상당히 고가의 로봇을 사용하기도 합니다. 저희는 개당 가격이 $ 5 k $ 5 k $5k\$ 5 \mathrm{k} 정도인 저가의 하드웨어를 사용하여 고정밀, 폐쇄 루프 작업을 수행할 수 있도록 노력하고 있습니다. 우리의 원격 작동 설정은 리더 로봇과 팔로워 로봇 간의 공동 공간 매핑을 사용하는 Kim 등[32]과 가장 유사합니다. 이 이전 시스템과 달리 우리는 특수 인코더, 센서 또는 기계 가공 부품을 사용하지 않습니다. 우리는 기성품 로봇과 소수의 3D 프린팅 부품만으로 시스템을 구축하여 비전문가도 2시간 이내에 조립할 수 있습니다.

III. ALOHA: A LOW-COST Open-SOURCE Hardware  A LOW-COST Open-SOURCE Hardware  _ " A LOW-COST Open-SOURCE Hardware "_\underline{\text { A LOW-COST Open-SOURCE Hardware }} System for Bimanual Teleoperation
III. ALOHA: A LOW-COST Open-SOURCE Hardware  A LOW-COST Open-SOURCE Hardware  _ " A LOW-COST Open-SOURCE Hardware "_\underline{\text { A LOW-COST Open-SOURCE Hardware }} 양방향 원격 조작을 위한 시스템

We seek to develop an accessible and high-performance teleoperation system for fine manipulation. We summarize our design considerations into the following 5 principles.
저희는 세밀한 조작이 가능한 접근성 높은 고성능 원격 운영 시스템을 개발하고자 합니다. 설계 고려 사항을 다음 5가지 원칙으로 요약합니다.
  1. Low-cost: The entire system should be within budget for most robotic labs, comparable to a single industrial arm.
    저렴한 비용: 전체 시스템은 대부분의 로봇 실험실의 예산 범위 내에 있어야 하며, 단일 산업용 로봇과 비슷해야 합니다.
  2. Versatile: It can be applied to a wide range of fine manipulation tasks with real-world objects.
    다용도: 실제 사물을 이용한 다양한 미세 조작 작업에 적용할 수 있습니다.
  3. User-friendly: The system should be intuitive, reliable, and easy to use.
    사용자 친화적: 시스템은 직관적이고 안정적이며 사용하기 쉬워야 합니다.
  4. Repairable: The setup can be easily repaired by researchers, when it inevitably breaks.
    수리 가능: 불가피하게 고장이 났을 때 연구원이 쉽게 수리할 수 있습니다.
  5. Easy-to-build: It can be quickly assembled by researchers, with easy-to-source materials.
    간편한 제작: 연구자가 쉽게 구할 수 있는 재료로 빠르게 조립할 수 있습니다.

    When choosing the robot to use, principles 1,4 , and 5 lead us to build a bimanual parallel-jaw grippers setup with two ViperX 6-DoF robot arms [1, 66]. We do not employ dexterous hands due to price and maintenance considerations. The ViperX arm used has a working payload of 750 g and 1.5 m span, with an accuracy of 5 8 mm 5 8 mm 5-8mm5-8 \mathrm{~mm}. The robot is modular and simple to repair: in the case of motor failure, the low-cost Dynamixel motors can be easily replaced. The robot can be purchased off-the-shelf for around $ 5600 $ 5600 $5600\$ 5600. The OEM fingers, however, are not versatile enough to handle fine manipulation tasks. We thus design our own 3D printed “see-through” fingers and fit it with gripping tape (Fig 3). This allows for good visibility
    사용할 로봇을 선택할 때 원칙 1, 4, 5에 따라 두 개의 ViperX 6-DoF 로봇 팔을 사용하는 양방향 평행 턱 그리퍼 설정을 구축하게 됩니다[1, 66]. 가격 및 유지보수 고려 사항으로 인해 손재주 있는 손을 사용하지 않습니다. 사용된 ViperX 로봇팔의 작동 페이로드는 750g, 스팬은 1.5m이며 정확도는 5 8 mm 5 8 mm 5-8mm5-8 \mathrm{~mm} 입니다. 이 로봇은 모듈식이며 수리가 간단합니다. 모터 고장의 경우 저가의 다이나믹셀 모터를 쉽게 교체할 수 있습니다. 로봇은 기성품으로 약 $ 5600 $ 5600 $5600\$ 5600 에 구입할 수 있습니다. 그러나 OEM 핑거는 미세한 조작 작업을 처리할 수 있을 만큼 다재다능하지 않습니다. 따라서 우리는 자체적으로 3D 프린팅한 "시스루" 핑거를 디자인하고 그립 테이프로 장착합니다(그림 3). 이를 통해 가시성을 확보할 수 있습니다.

    when performing delicate operations, and robust grip even with thin plastic films.
    섬세한 작업을 수행할 때나 얇은 플라스틱 필름을 사용해도 견고한 그립감을 제공합니다.
We then seek to design a teleoperation system that is maximally user-friendly around the ViperX robot. Instead of mapping the hand pose captured by a VR controller or camera to the end-effector pose of the robot, i.e. task-space mapping, we use direct joint-space mapping from a smaller robot, WidowX, manufactured by the same company and costs $ 3300 $ 3300 $3300\$ 3300 [2]. The user teleoperates by backdriving the smaller WidowX (“the leader”), whose joints are synchronized with the larger ViperX (“the follower”). When developing the setup, we noticed a few benefits of using joint-space mapping compared to task-space. (1) Fine manipulation often requires operating near singularities of the robot, which in our case has 6 degrees of freedom and no redundancy. Off-the-shelf inverse kinematics (IK) fails frequently in this setting. Joint space mapping, on the other hand, guarantees high-bandwidth control within the joint limits, while also requiring less computation and reducing latency. (2) The weight of the leader robot prevents the user from moving too fast, and also dampens small vibrations. We notice better performance on precise tasks with jointspace mapping rather than holding a VR controller. To further improve the teleoperation experience, we design a 3D-printed “handle and scissor” mechanism that can be retrofitted to the leader robot (Fig 3). It reduces the force required from the operator to backdrive the motor, and allows for continuous control of the gripper, instead of binary opening or closing. We also design a rubber band load balancing mechanism that partially counteracts the gravity on the leader side. It reduces the effort needed from the operator and makes longer teleoperation sessions (e.g. > 30 > 30 > 30>30 minutes) possible. We include more details about the setup in the project website.
그런 다음 ViperX 로봇을 중심으로 최대한 사용자 친화적인 원격 조작 시스템을 설계하고자 합니다. VR 컨트롤러나 카메라로 캡처한 손 포즈를 로봇의 엔드 이펙터 포즈에 매핑하는 작업 공간 매핑 대신, 같은 회사에서 제조한 더 작은 로봇인 위도우X의 직접 관절 공간 매핑을 사용합니다[ $ 3300 $ 3300 $3300\$ 3300 [2]. 사용자는 더 작은 위도우X("리더")를 백드라이브하여 원격 조작하고, 이 로봇의 관절은 더 큰 바이퍼X("팔로워")와 동기화됩니다. 설정을 개발할 때 작업 공간에 비해 조인트 공간 매핑을 사용할 때 몇 가지 이점을 발견했습니다. (1) 미세한 조작은 종종 로봇의 특이점 근처에서 작동해야 하는데, 우리의 경우 6개의 자유도가 있고 중복성이 없습니다. 기성품 역운동학(IK)은 이 설정에서 자주 실패합니다. 반면 조인트 공간 매핑은 조인트 한계 내에서 높은 대역폭 제어를 보장하는 동시에 계산이 덜 필요하고 지연 시간을 줄여줍니다. (2) 리더 로봇의 무게는 사용자가 너무 빨리 움직이는 것을 방지하고 작은 진동도 감쇠시킵니다. VR 컨트롤러를 잡는 것보다 조인트 스페이스 매핑을 통해 정밀한 작업을 할 때 더 나은 성능을 보였습니다. 원격 조작 경험을 더욱 개선하기 위해 리더 로봇에 장착할 수 있는 3D 프린팅 '핸들 앤 가위' 메커니즘을 설계했습니다(그림 3). 이 메커니즘은 작업자가 모터를 백드라이브하는 데 필요한 힘을 줄이고 그리퍼를 이원적으로 열거나 닫는 대신 연속적으로 제어할 수 있게 해줍니다. 또한 리더 쪽의 중력을 부분적으로 상쇄하는 고무 밴드 로드 밸런싱 메커니즘을 설계했습니다. 이를 통해 작업자의 노력이 줄어들고 더 긴 원격 작업 세션(예: > 30 > 30 > 30>30 분)이 가능합니다. 설정에 대한 자세한 내용은 프로젝트 웹사이트에 포함되어 있습니다.
The rest of the setup includes a robot cage with 20 × 20 mm 20 × 20 mm 20 xx20mm20 \times 20 \mathrm{~mm} aluminum extrusions, reinforced by crossing steel cables. There is a total of four Logitech C922x webcams, each streaming 480 × 640 480 × 640 480 xx640480 \times 640 RGB images. Two of the webcams are mounted on the wrist of the follower robots, allowing for a close-up view of the grippers. The remaining two cameras are mounted on the front and at the top respectively (Fig 3). Both the teleoperation and data recording happen at 50 Hz .
나머지 구성에는 강철 케이블을 교차하여 보강한 20 × 20 mm 20 × 20 mm 20 xx20mm20 \times 20 \mathrm{~mm} 알루미늄 돌출부가 있는 로봇 케이지가 포함됩니다. 총 4개의 로지텍 C922x 웹캠이 있으며, 각 웹캠은 480 × 640 480 × 640 480 xx640480 \times 640 RGB 이미지를 스트리밍합니다. 웹캠 중 두 개는 팔로워 로봇의 손목에 장착되어 그리퍼를 클로즈업하여 볼 수 있습니다. 나머지 두 대의 카메라는 각각 전면과 상단에 장착되어 있습니다(그림 3). 원격 작동과 데이터 기록은 모두 50Hz로 이루어집니다.
With the design considerations above, we build the bimanual teleoperation setup A L O H A A L O H A ALOHAA L O H A within a 20k USD budget, compa-
위의 설계 고려 사항을 바탕으로 20,000달러의 예산 내에서 양방향 원격 운영 설정 A L O H A A L O H A ALOHAA L O H A 을 구축합니다.

Fig. 4: Architecture of Action Chunking with Transformers (ACT). We train ACT as a Conditional VAE (CVAE), which has an encoder and a decoder. Left: The encoder of the CVAE compresses action sequence and joint observation into z z zz, the style variable. The encoder is discarded at test time. Right: The decoder or policy of ACT synthesizes images from multiple viewpoints, joint positions, and z z zz with a transformer encoder, and predicts a sequence of actions with a transformer decoder. z z zz is simply set to the mean of the prior (i.e. zero) at test time.
그림 4: 트랜스포머(ACT)를 사용한 액션 청킹의 아키텍처. ACT는 인코더와 디코더가 있는 조건부 VAE(CVAE)로 훈련합니다. 왼쪽: CVAE의 인코더는 액션 시퀀스와 공동 관찰을 스타일 변수인 z z zz 으로 압축합니다. 인코더는 테스트 시점에 폐기됩니다. 맞습니다: ACT의 디코더 또는 정책은 트랜스포머 인코더로 여러 시점, 관절 위치, z z zz 의 이미지를 합성하고 트랜스포머 디코더로 동작 시퀀스를 예측합니다. z z zz 는 단순히 테스트 시점에 이전(즉, 0)의 평균으로 설정됩니다.

Fig. 5: We employ both Action Chunking and Temporal Ensembling when applying actions, instead of interleaving observing and executing.
그림 5: 액션을 적용할 때 관찰과 실행을 인터리빙하는 대신 액션 청킹과 템포럴 앙상블을 모두 사용합니다.

rable to a single research arm such as Franka Emika Panda. ALOHA enables the teleoperation of:
프랑카 에미카 판다와 같은 단일 연구 기관에 연결할 수 있습니다. ALOHA를 통해 원격 운영이 가능합니다:
  • Precise tasks such as threading zip cable ties, picking credit cards out of wallets, and opening or closing ziploc bags.
    지퍼 케이블 타이 끼우기, 지갑에서 신용카드 꺼내기, 지퍼백 여닫기 등 정밀한 작업도 가능합니다.
  • Contact-rich tasks such as inserting 288-pin RAM into a computer motherboard, turning pages of a book, and assembling the chains and belts in the NIST board #2 [4]
    컴퓨터 마더보드에 288핀 RAM 삽입, 책 페이지 넘기기, NIST 보드 #2 [4]의 체인과 벨트 조립 등 접촉이 많은 작업[5]을 수행합니다.
  • Dynamic tasks such as juggling a ping pong ball with a real ping pong paddle, balancing the ball without it falling off, and swinging open plastic bags in the air.
    실제 탁구채로 탁구공 저글링하기, 공이 떨어지지 않게 균형 잡기, 열린 비닐봉지를 공중에 휘두르기 등 역동적인 과제를 수행합니다.

    Skills such as threading a zip tie, inserting RAM, and juggling ping pong ball, to our knowledge, are not available for existing teleoperation systems with 5-10x the budget [21, 5]. We include a more detailed price & capability comparison in Appendix A as well as more skills that A L O H A A L O H A ALOHAA L O H A is capable of in Figure 9 . To make A L O H A A L O H A ALOHAA L O H A more accessible, we open-source all software and hardware with a detailed tutorial covering 3D printing, assembling the frame to software installations. You can find the tutorial on the project website
    지퍼 타이 끼우기, RAM 삽입하기, 탁구공 저글링하기와 같은 기술은 저희가 아는 한 기존 원격 운영 시스템에서는 예산의 5~10배를 들여서 사용할 수 없습니다[21, 5]. 더 자세한 가격 및 기능 비교는 부록 A에 포함되어 있으며, A L O H A A L O H A ALOHAA L O H A 이 할 수 있는 더 많은 기술은 그림 9에 나와 있습니다. A L O H A A L O H A ALOHAA L O H A 의 접근성을 높이기 위해 모든 소프트웨어와 하드웨어를 오픈소스화하여 3D 프린팅, 프레임 조립, 소프트웨어 설치에 대한 자세한 튜토리얼을 제공합니다. 튜토리얼은 프로젝트 웹사이트에서 찾을 수 있습니다.

IV. Action Chunking with Transformers
IV. 트랜스포머를 사용한 액션 청크

As we will see in Section V, existing imitation learning algorithms perform poorly on fine-grained tasks that require high-frequency control and closed-loop feedback. We therefore develop a novel algorithm, Action Chunking with Transformers ( A C T ) ( A C T ) (ACT)(A C T), to leverage the data collected by A L O H A A L O H A ALOHAA L O H A. We first summarize the pipeline of training ACT, then dive into each of the design choices.
섹션 5에서 살펴보겠지만, 기존의 모방 학습 알고리즘은 고주파 제어와 폐쇄 루프 피드백이 필요한 세분화된 작업에서는 성능이 떨어집니다. 따라서 우리는 A L O H A A L O H A ALOHAA L O H A 에서 수집한 데이터를 활용하기 위해 새로운 알고리즘인 액션 청킹을 사용한 트랜스포머 ( A C T ) ( A C T ) (ACT)(A C T) 를 개발했습니다. 먼저 ACT를 훈련하는 파이프라인을 요약한 다음 각 설계 선택 사항에 대해 자세히 살펴봅니다.
To train ACT on a new task, we first collect human demonstrations using ALOHA. We record the joint positions of the leader robots (i.e. input from the human operator) and use them as actions. It is important to use the leader joint positions instead of the follower’s, because the amount of force applied is implicitly defined by the difference between them, through the low-level PID controller. The observations are composed of the current joint positions of follower robots and the image feed from 4 cameras. Next, we train ACT to predict the sequence of future actions given the current observations. An action here corresponds to the target joint positions for both arms in the next time step. Intuitively, ACT tries to imitate what a human operator would do in the following time steps given current observations. These target joint positions are then tracked by the low-level, high-frequency PID controller inside Dynamixel motors. At test time, we load the policy that achieves the lowest validation loss and roll it out in the environment. The main challenge that arises is compounding errors, where errors from previous actions lead to states that are outside of training distribution.
새로운 작업에 대해 ACT를 훈련시키기 위해 먼저 ALOHA를 사용하여 사람의 시범을 수집합니다. 리더 로봇의 관절 위치(즉, 인간 작업자의 입력)를 기록하고 이를 동작으로 사용합니다. 추종 로봇 대신 리더 로봇의 관절 위치를 사용하는 것이 중요한데, 이는 저수준 PID 컨트롤러를 통해 적용되는 힘의 양이 두 로봇의 차이에 의해 암시적으로 정의되기 때문입니다. 관찰 데이터는 팔로워 로봇의 현재 관절 위치와 카메라 4대의 이미지 피드로 구성됩니다. 다음으로, 현재 관찰을 바탕으로 향후 동작의 순서를 예측하도록 ACT를 학습시킵니다. 여기서 동작은 다음 시간 단계에서 양쪽 팔의 목표 관절 위치에 해당합니다. 직관적으로 ACT는 현재 관찰이 주어지면 다음 시간 단계에서 사람이 하는 동작을 모방하려고 합니다. 그런 다음 이러한 목표 관절 위치는 다이나믹셀 모터 내부의 저수준, 고주파 PID 컨트롤러에 의해 추적됩니다. 테스트 시점에 가장 낮은 유효성 검사 손실을 달성하는 정책을 로드하여 환경에 배포합니다. 이때 발생하는 주요 문제는 이전 작업의 오류로 인해 학습 분포에서 벗어난 상태가 발생하는 복합 오류입니다.

A. Action Chunking and Temporal Ensemble
A. 액션 청킹 및 템포 앙상블

To combat the compounding errors of imitation learning in a way that is compatible with pixel-to-action policies (Figure Π Π Pi\Pi ), we seek to reduce the effective horizon of long trajectories collected at high frequency. We are inspired by action chunking, a neuroscience concept where individual actions are grouped together and executed as one unit, making them more efficient to store and execute [35]. Intuitively, a chunk of actions could correspond to grasping a corner of the candy wrapper or inserting a battery into the slot. In our implementation, we fix the chunk size to be k k kk : every k k kk steps, the agent receives an observation, generates the next k k kk actions, and executes the actions in sequence (Figure 5). This implies a k k kk-fold reduction in the effective horizon of the task. Concretely, the policy models π θ ( a t : t + k s t ) π θ a t : t + k s t pi_(theta)(a_(t:t+k)∣s_(t))\pi_{\theta}\left(a_{t: t+k} \mid s_{t}\right) instead of π θ ( a t s t ) π θ a t s t pi_(theta)(a_(t)∣s_(t))\pi_{\theta}\left(a_{t} \mid s_{t}\right). Chunking can also help model non-Markovian behavior in human demonstrations. Specifically, a single-step policy would struggle with temporally correlated confounders, such as pauses in the middle of a demonstration [61], since the behavior not only depends on the state, but also the timestep. Action chunking can mitigate
픽셀 대 행동 정책(그림 Π Π Pi\Pi )과 호환되는 방식으로 모방 학습의 복합 오류를 방지하기 위해, 높은 빈도로 수집된 긴 궤적의 유효 지평을 줄이려고 노력합니다. 저희는 개별 동작을 하나의 단위로 묶어 실행하는 신경과학 개념인 액션 청킹에서 영감을 얻었으며, 이를 통해 보다 효율적으로 저장하고 실행할 수 있습니다[35]. 직관적으로 행동 청크는 사탕 포장지의 모서리를 잡거나 슬롯에 배터리를 삽입하는 것과 같은 동작에 해당할 수 있습니다. 구현에서는 청크 크기를 k k kk 로 고정하여 k k kk 단계마다 에이전트가 관찰을 수신하고 다음 k k kk 액션을 생성한 후 순차적으로 액션을 실행합니다(그림 5). 이는 작업의 유효 범위가 k k kk -배로 줄어든다는 것을 의미합니다. 구체적으로 이 정책은 π θ ( a t s t ) π θ a t s t pi_(theta)(a_(t)∣s_(t))\pi_{\theta}\left(a_{t} \mid s_{t}\right) 대신 π θ ( a t : t + k s t ) π θ a t : t + k s t pi_(theta)(a_(t:t+k)∣s_(t))\pi_{\theta}\left(a_{t: t+k} \mid s_{t}\right) 를 모델링합니다. 청킹은 인간 데모에서 비마르코비안 행동을 모델링하는 데에도 도움이 될 수 있습니다. 특히, 단일 단계 정책은 동작이 상태뿐만 아니라 시간 단계에 따라 달라지기 때문에[61] 데모 도중에 일시 정지하는 것과 같이 시간적으로 상호 연관된 교란 요인으로 인해 어려움을 겪을 수 있습니다. 액션 청킹으로 완화할 수 있는 문제
Algorithm 1 ACT Training
    Given: Demo dataset \(\mathcal{D}\), chunk size \(k\), weight \(\beta\).
    Let \(a_{t}\), ot represent action and observation at timestep \(t, \bar{o}_{t}\)
    represent \(o_{t}\) without image observations.
    Initialize encoder \(q_{\phi}\left(z \mid a_{t: t+k}, \bar{o}_{t}\right)\)
    Initialize decoder \(\pi_{\theta}\left(\hat{a}_{t: t+k} \mid o_{t}, z\right)\)
    for iteration \(n=1,2, \ldots\) do
        Sample \(o_{t}, a_{t: t+k}\) from \(\mathcal{D}\)
        Sample \(z\) from \(q_{\phi}\left(z \mid a_{t: t+k}, \bar{o}_{t}\right)\)
        Predict \(\hat{a}_{t: t+k}\) from \(\pi_{\theta}\left(\hat{a}_{t: t+k} \mid o_{t}, z\right)\)
        \(\mathcal{L}_{\text {reconst }}=\operatorname{MSE}\left(\hat{a}_{t: t+k}, a_{t: t+k}\right)\)
        \(\mathcal{L}_{\text {reg }}=D_{K L}\left(q_{\phi}\left(z \mid a_{t: t+k}, \bar{o}_{t}\right) \| \mathcal{N}(0, I)\right)\)
        Update \(\theta, \phi\) with ADAM and \(\mathcal{L}=\mathcal{L}_{\text {reconst }}+\beta \mathcal{L}_{\text {reg }}\)
Algorithm 2 ACT Inference
    Given: trained \(\pi_{\theta}\), episode length \(T\), weight \(m\).
    Initialize FIFO buffers \(\mathcal{B}[0: T]\), where \(\mathcal{B}[t]\) stores actions
    predicted for timestep \(t\).
    for timestep \(t=1,2, \ldots T\) do
        Predict \(\hat{a}_{t: t+k}\) with \(\pi_{\theta}\left(\hat{a}_{t: t+k} \mid o_{t}, z\right)\) where \(z=0\)
        Add \(\hat{a}_{t: t+k}\) to buffers \(\mathcal{B}[t: t+k]\) respectively
        Obtain current step actions \(A_{t}=\mathcal{B}[t]\)
        Apply \(a_{t}=\sum_{i} w_{i} A_{t}[i] / \sum_{i} w_{i}\), with \(w_{i}=\exp (-m * i)\)
this issue when the confounder is within a chunk, without introducing the causal confusion issue for history-conditioned policies [12].
혼동 요소가 청크 내에 있을 때 이 문제를 해결하고 기록 조건부 정책에 대한 인과 관계 혼동 문제를 도입하지 않습니다[12].
A naïve implementation of action chunking can be suboptimal: a new environment observation is incorporated abruptly every k k kk steps and can result in jerky robot motion. To improve smoothness and avoid discrete switching between executing and observing, we query the policy at every timestep. This makes different action chunks overlap with each other, and at a given timestep there will be more than one predicted action. We illustrate this in Figure 5 and propose a temporal ensemble to combine these predictions. Our temporal ensemble performs a weighted average over these predictions with an exponential weighting scheme w i = exp ( m i ) w i = exp ( m i ) w_(i)=exp(-m**i)w_{i}=\exp (-m * i), where w 0 w 0 w_(0)w_{0} is the weight for the oldest action. The speed for incorporating new observation is governed by m m mm, where a smaller m m mm means faster incorporation. We note that unlike typical smoothing, where the current action is aggregated with actions in adjacent timesteps, which leads to bias, we aggregate actions predicted for the same timestep. This procedure also incurs no additional training cost, only extra inference-time computation. In practice, we find both action chunking and temporal ensembling to be important for the success of ACT, which produces precise and smooth motion. We discuss these components in more detail in the ablation studies in Subsection VI-A
액션 청킹을 순진하게 구현하면 k k kk 단계마다 새로운 환경 관찰이 갑작스럽게 통합되어 로봇 동작이 들쑥날쑥해질 수 있습니다. 부드러움을 개선하고 실행과 관찰 사이의 불연속적인 전환을 피하기 위해 모든 시간 간격마다 정책을 쿼리합니다. 이렇게 하면 서로 다른 동작 청크가 서로 겹치게 되고, 주어진 시간 간격에서 예측된 동작이 두 개 이상 발생하게 됩니다. 그림 5에서 이를 설명하고 이러한 예측을 결합하기 위해 시간적 앙상블을 제안합니다. 시간적 앙상블은 이러한 예측에 대해 지수 가중치 체계 w i = exp ( m i ) w i = exp ( m i ) w_(i)=exp(-m**i)w_{i}=\exp (-m * i) 을 사용하여 가중 평균을 수행하며, 여기서 w 0 w 0 w_(0)w_{0} 는 가장 오래된 행동에 대한 가중치입니다. 새로운 관측값을 통합하는 속도는 m m mm 에 의해 결정되며, m m mm 가 작을수록 통합 속도가 빨라집니다. 현재 동작이 인접한 시간 간격의 동작과 합산되어 편향이 발생하는 일반적인 스무딩과 달리, 동일한 시간 간격에 대해 예측된 동작을 합산한다는 점에 유의하세요. 이 절차는 추가 학습 비용도 발생하지 않으며 추론 시간 계산만 추가됩니다. 실제로 정확하고 부드러운 동작을 생성하는 ACT의 성공을 위해서는 동작 청킹과 시간적 앙상블이 모두 중요하다는 것을 알게 되었습니다. 이러한 구성 요소에 대해서는 하위 섹션 VI-A의 제거 연구에서 더 자세히 설명합니다.

B. Modeling human data
B. 휴먼 데이터 모델링

Another challenge that arises is learning from noisy human demonstrations. Given the same observation, a human can use different trajectories to solve the task. Humans will also be more stochastic in regions where precision matters less [38]. Thus, it is important for the policy to focus on regions where high precision matters. We tackle this problem by training our
또 다른 도전 과제는 시끄러운 인간의 시연을 통해 학습하는 것입니다. 동일한 관찰이 주어졌을 때 인간은 다른 궤적을 사용하여 과제를 해결할 수 있습니다. 또한 인간은 정밀도가 덜 중요한 영역에서 더 확률적일 수 있습니다[38]. 따라서 정책은 높은 정밀도가 중요한 영역에 초점을 맞추는 것이 중요합니다. 저희는 이 문제를 해결하기 위해

action chunking policy as a generative model. Specifically, we train the policy as a conditional variational autoencoder (CVAE) [55], to generate an action sequence conditioned on current observations. The CVAE has two components: a CVAE encoder and a CVAE decoder, illustrated on the left and right side of Figure 4 respectively. The CVAE encoder only serves to train the CVAE decoder (the policy) and is discarded at test time. Specifically, the CVAE encoder predicts the mean and variance of the style variable z z zz 's distribution, which is parameterized as a diagonal Gaussian, given the current observation and action sequence as inputs. For faster training in practice, we leave out the image observations and only condition on the proprioceptive observation and the action sequence. The CVAE decoder, i.e. the policy, conditions on both z z zz and the current observations (images + joint positions) to predict the action sequence. At test time, we set z z zz to be the mean of the prior distribution i.e. zero to deterministically decode. The whole model is trained to maximize the log-likelihood of demonstration action chunks, i.e. min θ s t , a t : t + k D log π θ ( a t : t + k s t ) min θ s t , a t : t + k D log π θ a t : t + k s t min_(theta)-sum_(s_(t),a_(t:t+k)in D)log pi_(theta)(a_(t:t+k)∣s_(t))\min _{\theta}-\sum_{s_{t}, a_{t: t+k} \in D} \log \pi_{\theta}\left(a_{t: t+k} \mid s_{t}\right), with the standard VAE objective which has two terms: a reconstruction loss and a term that regularizes the encoder to a Gaussian prior. Following [23], we weight the second term with a hyperparameter β β beta\beta. Intuitively, higher β β beta\beta will result in less information transmitted in z z zz [62]. Overall, we found the CVAE objective to be essential in learning precise tasks from human demonstrations. We include a more detailed discussion in Subsection VI-B
액션 청킹 정책을 생성 모델로 사용합니다. 구체적으로, 현재 관측값에 따라 조건이 지정된 액션 시퀀스를 생성하기 위해 조건부 변동 자동 인코더(CVAE)[55]로 정책을 훈련합니다. CVAE에는 그림 4의 왼쪽과 오른쪽에 각각 표시된 것처럼 CVAE 인코더와 CVAE 디코더라는 두 가지 구성 요소가 있습니다. CVAE 인코더는 CVAE 디코더(정책)를 학습시키는 역할만 하며 테스트 시점에 폐기됩니다. 구체적으로 CVAE 인코더는 현재 관찰 및 동작 시퀀스를 입력으로 주어 대각선 가우시안으로 파라미터화된 스타일 변수 z z zz 분포의 평균과 분산을 예측합니다. 실제로 더 빠른 훈련을 위해 이미지 관찰은 생략하고 고유 수용성 관찰과 동작 시퀀스만 조건으로 설정합니다. CVAE 디코더, 즉 정책은 z z zz 과 현재 관찰(이미지 + 관절 위치)을 모두 조건으로 하여 동작 시퀀스를 예측합니다. 테스트 시에는 결정론적으로 디코딩하기 위해 z z zz 를 사전 분포의 평균, 즉 0으로 설정합니다. 전체 모델은 재구성 손실과 인코더를 가우스 선행으로 정규화하는 두 개의 항으로 구성된 표준 VAE 목표를 사용하여 데모 액션 청크의 로그 가능성을 최대화하도록 훈련됩니다(즉, min θ s t , a t : t + k D log π θ ( a t : t + k s t ) min θ s t , a t : t + k D log π θ a t : t + k s t min_(theta)-sum_(s_(t),a_(t:t+k)in D)log pi_(theta)(a_(t:t+k)∣s_(t))\min _{\theta}-\sum_{s_{t}, a_{t: t+k} \in D} \log \pi_{\theta}\left(a_{t: t+k} \mid s_{t}\right) ). 23]에 따라 하이퍼파라미터 β β beta\beta 를 사용하여 두 번째 항에 가중치를 부여합니다. 직관적으로 β β beta\beta 가 높을수록 z z zz 에서 전송되는 정보가 줄어듭니다[62]. 전반적으로 CVAE 목표는 사람의 시연을 통해 정확한 작업을 학습하는 데 필수적인 것으로 나타났습니다. 보다 자세한 논의는 하위 섹션 VI-B에 포함되어 있습니다.

C. Implementing ACT  C. 법 시행

We implement the CVAE encoder and decoder with transformers, as transformers are designed for both synthesizing information across a sequence and generating new sequences. The CVAE encoder is implemented with a BERT-like transformer encoder [13]. The inputs to the encoder are the current joint positions and the target action sequence of length k k kk from the demonstration dataset, prepended by a learned “[CLS]” token similar to BERT. This forms a k + 2 k + 2 k+2k+2 length input (Figure 4 left). After passing through the transformer, the feature corresponding to “[CLS]” is used to predict the mean and variance of the “style variable” z z zz, which is then used as input to the decoder. The CVAE decoder (i.e. the policy) takes the current observations and z z zz as the input, and predicts the next k k kk actions (Figure 4 right). We use ResNet image encoders, a transformer encoder, and a transformer decoder to implement the CVAE decoder. Intuitively, the transformer encoder synthesizes information from different camera viewpoints, the joint positions, and the style variable, and the transformer decoder generates a coherent action sequence. The observation includes 4 RGB images, each at 480 × 640 480 × 640 480 xx640480 \times 640 resolution, and joint positions for two robot arms ( 7 + 7 = 14 7 + 7 = 14 7+7=147+7=14 DoF in total). The action space is the absolute joint positions for two robots, a 14-dimensional vector. Thus with action chunking, the policy outputs a k × 14 k × 14 k xx14k \times 14 tensor given the current observation. The policy first process the images with ResNet18 backbones [22], which convert 480 × 640 × 3 480 × 640 × 3 480 xx640 xx3480 \times 640 \times 3 RGB images into 15 × 20 × 512 15 × 20 × 512 15 xx20 xx51215 \times 20 \times 512 feature maps. We then flatten along the spatial dimension to obtain a sequence of 300 × 512 300 × 512 300 xx512300 \times 512. To preserve the spatial information, we add a 2 D sinusoidal
트랜스포머는 시퀀스 전체에서 정보를 합성하고 새로운 시퀀스를 생성하도록 설계되었기 때문에 CVAE 인코더와 디코더를 트랜스포머로 구현합니다. CVAE 인코더는 BERT와 유사한 트랜스포머 인코더로 구현됩니다[13]. 인코더에 대한 입력은 데모 데이터 세트의 현재 관절 위치와 길이 k k kk 의 목표 동작 시퀀스이며, 여기에 BERT와 유사한 학습된 "[CLS]" 토큰이 앞에 붙습니다. 이렇게 하면 k + 2 k + 2 k+2k+2 길이 입력이 형성됩니다(그림 4 왼쪽). 트랜스포머를 통과한 후 "[CLS]"에 해당하는 피처를 사용하여 "스타일 변수" z z zz 의 평균과 분산을 예측한 다음 디코더에 입력으로 사용합니다. CVAE 디코더(즉, 정책)는 현재 관측값과 z z zz 를 입력으로 삼아 다음 k k kk 동작을 예측합니다(그림 4 오른쪽). CVAE 디코더를 구현하기 위해 ResNet 이미지 인코더, 트랜스포머 인코더, 트랜스포머 디코더를 사용합니다. 직관적으로 트랜스포머 인코더는 다양한 카메라 시점, 관절 위치, 스타일 변수의 정보를 합성하고, 트랜스포머 디코더는 일관된 동작 시퀀스를 생성합니다. 관찰에는 각각 480 × 640 480 × 640 480 xx640480 \times 640 해상도의 RGB 이미지 4개와 두 로봇 팔의 조인트 위치(총 7 + 7 = 14 7 + 7 = 14 7+7=147+7=14 DoF)가 포함됩니다. 동작 공간은 두 로봇의 절대 관절 위치로, 14차원 벡터입니다. 따라서 액션 청킹을 사용하면 정책은 현재 관측값이 주어진 k × 14 k × 14 k xx14k \times 14 텐서를 출력합니다. 이 정책은 먼저 ResNet18 백본[22]으로 이미지를 처리하여 480 × 640 × 3 480 × 640 × 3 480 xx640 xx3480 \times 640 \times 3 RGB 이미지를 15 × 20 × 512 15 × 20 × 512 15 xx20 xx51215 \times 20 \times 512 피처 맵으로 변환합니다. 그런 다음 공간 차원을 따라 평탄화하여 300 × 512 300 × 512 300 xx512300 \times 512 시퀀스를 얻습니다. 공간 정보를 보존하기 위해 2차원 정현파를 추가합니다.

position embedding to the feature sequence [8]. Repeating this for all 4 images gives a feature sequence of 1200 × 512 1200 × 512 1200 xx5121200 \times 512 in dimension. We then append two more features: the current joint positions and the “style variable” z z zz. They are projected from their original dimensions to 512 through linear layers respectively. Thus, the input to the transformer encoder is 1202 × 512 1202 × 512 1202 xx5121202 \times 512. The transformer decoder conditions on the encoder output through cross-attention, where the input sequence is a fixed position embedding, with dimensions k × 512 k × 512 k xx512k \times 512, and the keys and values are coming from the encoder. This gives the transformer decoder an output dimension of k × 512 k × 512 k xx512k \times 512, which is then down-projected with an MLP into k × 14 k × 14 k xx14k \times 14, corresponding to the predicted target joint positions for the next k k kk steps. We use L1 loss for reconstruction instead of the more common L2 loss: we noted that L1 loss leads to more precise modeling of the action sequence. We also noted degraded performance when using delta joint positions as actions instead of target joint positions. We include a detailed architecture diagram in Appendix C
위치를 특징 시퀀스에 임베딩합니다[8]. 4개의 이미지 모두에 대해 이 작업을 반복하면 1200 × 512 1200 × 512 1200 xx5121200 \times 512 크기의 피처 시퀀스가 됩니다. 그런 다음 현재 관절 위치와 "스타일 변수" z z zz 두 개의 특징을 더 추가합니다. 이들은 각각 원래 치수에서 선형 레이어를 통해 512로 투영됩니다. 따라서 트랜스포머 인코더에 대한 입력은 1202 × 512 1202 × 512 1202 xx5121202 \times 512 입니다. 트랜스포머 디코더는 입력 시퀀스가 k × 512 k × 512 k xx512k \times 512 치수의 고정 위치 임베딩이고 키와 값이 인코더에서 나오는 교차주의를 통해 인코더 출력에 대한 조건을 설정합니다. 이렇게 하면 트랜스포머 디코더에 출력 치수가 k × 512 k × 512 k xx512k \times 512 가 되고, 다음 k k kk 단계의 예측된 목표 관절 위치에 해당하는 k × 14 k × 14 k xx14k \times 14 로 MLP를 통해 다운 투영됩니다. 재구성에 일반적인 L2 손실 대신 L1 손실을 사용하는 이유는 L1 손실이 동작 순서를 더 정밀하게 모델링할 수 있다는 점에 주목했기 때문입니다. 또한 목표 관절 위치 대신 델타 관절 위치를 액션으로 사용할 때 성능이 저하되는 것을 확인했습니다. 자세한 아키텍처 다이어그램은 부록 C에 포함되어 있습니다.
We summarize the training and inference of ACT in Algorithms 1 and 2. The model has around 80 M parameters, and we train from scratch for each task. The training takes around 5 hours on a single 11G RTX 2080 Ti GPU, and the inference time is around 0.01 seconds on the same machine.
알고리즘 1과 2에서 ACT의 훈련과 추론을 요약합니다. 모델에는 약 80만 개의 파라미터가 있으며, 각 작업에 대해 처음부터 학습합니다. 훈련은 단일 11G RTX 2080 Ti GPU에서 약 5시간이 소요되며, 추론 시간은 동일한 머신에서 약 0.01초가 소요됩니다.

V. EXPERIMENTS  V. 실험

We present experiments to evaluate ACT’s performance on fine manipulation tasks. For ease of reproducibility, we build two simulated fine manipulation tasks in MuJoCo [63], in addition to 6 real-world tasks with A L O H A A L O H A ALOHAA L O H A. We provide videos for each task on the project website
미세 조작 과제에 대한 ACT의 성능을 평가하기 위한 실험을 소개합니다. 재현성을 높이기 위해 A L O H A A L O H A ALOHAA L O H A 로 6개의 실제 작업과 더불어 MuJoCo [63]에서 두 개의 시뮬레이션 미세 조작 작업을 구축했습니다. 프로젝트 웹사이트에서 각 작업에 대한 동영상을 제공합니다.

A. Tasks  A. 작업

All 8 tasks require fine-grained, bimanual manipulation, and are illustrated in Figure 6 For Slide Ziploc, the right gripper needs to accurately grasp the slider of the ziploc bag and open it, with the left gripper securing the body of the bag. For Slot Battery, the right gripper needs to first place the battery into the slot of the remote controller, then using the tip of fingers to delicately push in the edge of the battery, until it is fully inserted. Because the spring inside the battery slot causes the remote controller to move in the opposite direction during insertion, the left gripper pushes down on the remote to keep it in place. For Open Cup, the goal is to open the lid of a small condiment cup. Because of the cup’s small size, the grippers cannot grasp the body of the cup by just approaching it from the side. Therefore we leverage both grippers: the right fingers first lightly tap near the edge of the cup to tip it over, and then nudge it into the open left gripper. This nudging step requires high precision and closing the loop on visual perception. The left gripper then closes gently and lifts the cup off the table, followed by the right finger prying open the lid, which also requires precision to not miss the lid or damage the cup. The goal of Thread Velcro is to insert one end of a velcro cable tie into the small loop attached to other end. The left gripper needs to first pick up the velcro tie from the
8가지 작업 모두 세밀한 양손 조작이 필요하며 그림 6에 설명되어 있습니다. 슬라이드 지퍼락의 경우 오른쪽 그리퍼로 지퍼락 백의 슬라이더를 정확하게 잡고 열어야 하며 왼쪽 그리퍼로 백의 몸체를 고정해야 합니다. 슬롯 배터리의 경우 오른쪽 그리퍼로 먼저 배터리를 리모컨의 슬롯에 넣은 다음 손가락 끝으로 배터리 가장자리를 섬세하게 밀어 완전히 삽입되도록 해야 합니다. 배터리 슬롯 내부의 스프링이 삽입 중에 리모컨을 반대 방향으로 움직이게 하기 때문에 왼쪽 그립퍼가 리모컨을 아래로 눌러 제자리에 고정합니다. 오픈 컵의 경우 작은 조미료 컵의 뚜껑을 여는 것이 목표입니다. 컵의 크기가 작기 때문에 옆에서 접근하는 것만으로는 그리퍼가 컵의 몸체를 잡을 수 없습니다. 따라서 양쪽 그립퍼를 모두 활용합니다. 먼저 오른쪽 손가락으로 컵의 가장자리를 가볍게 두드려 뒤집은 다음 열린 왼쪽 그립퍼로 컵을 밀어 넣습니다. 이 넛지 단계에서는 높은 정밀도와 시각적 인식에 대한 고도의 집중력이 필요합니다. 그런 다음 왼쪽 그리퍼를 부드럽게 닫고 컵을 테이블에서 들어올린 다음 오른쪽 손가락으로 뚜껑을 들어 올리는데, 이 과정에서도 뚜껑을 놓치거나 컵이 손상되지 않도록 정밀도가 필요합니다. 스레드 벨크로의 목표는 벨크로 케이블 타이의 한쪽 끝을 다른 쪽 끝에 부착된 작은 고리에 삽입하는 것입니다. 왼쪽 그리퍼는 먼저 벨크로 타이의

table, followed by the right gripper pinching the tail of the tie in mid-air. Then, both arms coordinate to insert one end of the velcro tie into the other in mid-air. The loop measures 3 mm × 25 mm 3 mm × 25 mm 3mmxx25mm3 \mathrm{~mm} \times 25 \mathrm{~mm}, while the velcro tie measures 2 mm × 10 25 mm 2 mm × 10 25 mm 2mmxx10-25mm2 \mathrm{~mm} \times 10-25 \mathrm{~mm} depending on the position. For this task to be successful, the robot must use visual feedback to correct for perturbations with each grasp, as even a few millimeters of error during the first grasp will compound in the second grasp mid-air, giving more than a 10 mm deviation in the insertion phase. For Prep Tape, the goal is to hang a small segment of the tape on the edge of a cardboard box. The right gripper first grasps the tape and cuts it with the tape dispenser’s blade, and then hands the tape segment to the left gripper mid-air. Next, both arms approach the box, the left arm gently lays the tape segment on the box surface, and the right fingers push down on the tape to prevent slipping, followed by the left arm opening its gripper to release the tape. Similar to Thread Velcro, this task requires multiple steps of delicate coordination between the two arms. For Put On Shoe, the goal is to put the shoe on a fixed manniquin foot, and secure it with the shoe’s velcro strap. The arms would first need to grasp the tongue and collar of the shoe respectively, lift it up and approach the foot. Putting the shoe on is challenging because of the tight fitting: the arms would need to coordinate carefully to nudge the foot in, and both grasps need to be robust enough to counteract the friction between the sock and shoe. Then, the left arm goes around to the bottom of the shoe to support it from dropping, followed by the right arm flipping the velcro strap and pressing it against the shoe to secure. The task is only considered successful if the shoe clings to the foot after both arms releases. For the simulated task Transfer Cube, the right arm needs to first pick up the red cube lying on the table, then place it inside the gripper of the other arm. Due to the small clearance between the cube and the left gripper (around 1 cm ), small errors could result in collisions and task failure. For the simulated task Bimanual Insertion, the left and right arms need to pick up the socket and peg respectively, and then insert in mid-air so the peg touches the “pins” inside the socket. The clearance is around 5 mm in the insertion phase. For all 8 tasks, the initial placement of the objects is either varied randomly along the 15 cm white reference line (real-world tasks), or uniformly in 2 D regions (simulated tasks). We provide illustrations of both the initial positions and the subtasks in Figure 6 and 7 Our evaluation will additionally report the performance for each of these subtasks.
테이블을 잡고 오른쪽 그리퍼로 넥타이 꼬리를 공중에 집어넣습니다. 그런 다음 양쪽 팔을 조정하여 벨크로 타이의 한쪽 끝을 공중에서 다른 쪽 끝으로 삽입합니다. 루프는 위치에 따라 3 mm × 25 mm 3 mm × 25 mm 3mmxx25mm3 \mathrm{~mm} \times 25 \mathrm{~mm} 을 측정하고 벨크로 타이는 2 mm × 10 25 mm 2 mm × 10 25 mm 2mmxx10-25mm2 \mathrm{~mm} \times 10-25 \mathrm{~mm} 을 측정합니다. 첫 번째 잡을 때 몇 밀리미터의 오차라도 공중에서 두 번째 잡을 때 누적되어 삽입 단계에서 10mm 이상의 편차가 발생하므로 이 작업을 성공적으로 수행하려면 로봇이 시각적 피드백을 사용하여 잡을 때마다 교란을 수정해야 합니다. 준비 테이프의 경우, 골판지 상자 가장자리에 테이프의 작은 부분을 걸어 놓는 것이 목표입니다. 먼저 오른쪽 그리퍼가 테이프를 잡고 테이프 디스펜서의 날로 테이프를 자른 다음 테이프 세그먼트를 공중에서 왼쪽 그리퍼에게 건네줍니다. 그런 다음 양팔이 상자에 접근하여 왼팔이 테이프 세그먼트를 상자 표면에 부드럽게 놓고 오른손 손가락으로 테이프를 눌러 미끄러지지 않도록 한 다음 왼팔이 그리퍼를 열어 테이프를 떼어냅니다. 실 벨크로와 마찬가지로 이 작업도 두 팔을 여러 단계에 걸쳐 섬세하게 조정해야 합니다. 신발 착용의 경우, 신발을 고정된 마네킹 발에 올려놓고 신발의 벨크로 스트랩으로 고정하는 것이 목표입니다. 먼저 두 팔로 신발의 혀와 칼라를 각각 잡고 들어올려 발에 접근해야 합니다. 신발을 신는 것은 꽉 끼는 신발 때문에 쉽지 않습니다. 발을 밀어 넣으려면 팔을 조심스럽게 조정해야 하고 양말과 신발 사이의 마찰을 상쇄할 수 있을 만큼 양쪽 손잡이가 견고해야 합니다. 그런 다음 왼팔을 신발 바닥으로 돌려 신발이 떨어지지 않도록 지지한 다음 오른팔로 벨크로 스트랩을 뒤집어 신발에 대고 눌러서 고정합니다. 양팔을 놓은 후 신발이 발에 달라붙어야만 과제에 성공한 것으로 간주합니다. 시뮬레이션 과제인 큐브 옮기기에서는 먼저 오른팔로 테이블 위에 놓인 빨간색 큐브를 집은 다음 다른 팔의 그리퍼 안에 놓아야 합니다. 큐브와 왼쪽 그리퍼 사이의 간격이 작기 때문에(약 1cm ) 작은 오류로 인해 충돌 및 작업 실패가 발생할 수 있습니다. 시뮬레이션 작업인 양방향 삽입의 경우 왼쪽 팔과 오른쪽 팔이 각각 소켓과 페그를 집은 다음 페그가 소켓 내부의 '핀'에 닿도록 공중에 삽입해야 합니다. 삽입 단계의 간격은 약 5mm입니다. 8가지 작업 모두에서 물체의 초기 배치는 15cm 흰색 기준선을 따라 무작위로 변경되거나(실제 작업), 2D 영역에서 균일하게 변경됩니다(시뮬레이션 작업). 그림 6과 7에 초기 위치와 하위 작업의 그림이 모두 나와 있습니다. 평가에서는 이러한 각 하위 작업에 대한 성능을 추가로 보고합니다.
In addition to the delicate bimanual control required to solve these tasks, the objects we use also present a significant perception challenge. For example, the ziploc bag is largely transparent, with a thin blue sealing line. Both the wrinkles on the bag and the reflective candy wrappers inside can vary during the randomization, and distract the perception system. Other transparent or translucent objects include the tape and both the lid and body of the condiment cup, making them hard to perceive precisely and ill-suited for depth cameras. The black table top also creates a low-contrast against many objects of interest, such as the black velcro cable tie and the black
이러한 작업을 해결하는 데 필요한 섬세한 양손 조작 외에도 우리가 사용하는 물체는 상당한 지각 문제를 야기합니다. 예를 들어 지퍼락 봉투는 대부분 투명하고 얇은 파란색 밀봉선이 있습니다. 가방의 주름과 내부의 반사되는 사탕 포장지 모두 무작위 배정 중에 달라져 인식 시스템을 혼란스럽게 할 수 있습니다. 테이프와 조미료 컵의 뚜껑과 몸체 모두 투명하거나 반투명한 물체는 정확하게 인식하기 어렵고 심도 카메라에 적합하지 않습니다. 또한 검은색 테이블 상판은 검은색 벨크로 케이블 타이와 같은 많은 관심 물체와 낮은 대비를 만들어냅니다.

Slide Ziploc: Open the ziploc bag that is standing upright on the table. The bag is randomized along the 15 cm white line. It is dropped from 5 cm 5 cm ∼5cm\sim 5 \mathrm{~cm} above the table to randomize the deformation, which affects the height and appearance of the bag. The left arm first grasps the bag body (Subtask # 1 # 1 #1\# 1 Grasp) followed by the right arm pinching the slider (Subtask #2 Pinch). Then the right arm moves right to unzip the bag (Subtask #3 Open).
지퍼락을 밉니다: 테이블 위에 똑바로 세워져 있는 지퍼락 백을 엽니다. 가방은 15cm 흰색 선을 따라 무작위로 배치됩니다. 가방의 높이와 모양에 영향을 주는 변형을 무작위화하기 위해 테이블 위의 5 cm 5 cm ∼5cm\sim 5 \mathrm{~cm} 에서 가방을 떨어뜨립니다. 왼팔이 먼저 가방 본체를 잡고(하위 과제 # 1 # 1 #1\# 1 잡기) 오른팔이 슬라이더를 꼬집습니다(하위 과제 #2 꼬집기). 그런 다음 오른팔을 오른쪽으로 움직여 가방의 지퍼를 엽니다(하위작업 #3 열기).

Slot Battery: Insert the battery into the remote controller. The controller is randomized along the 15 cm white line. The battery is initialized in roughly the same position with different rotations. The right arm first grasps the battery (Subtask#1 Grasp) then places it into the slot (Subtask#2 Place). The left arm presses onto the remote to prevent it from sliding, while the right arm pushes in the battery (Subtask#3 Insert).
슬롯 배터리: 리모컨에 배터리를 삽입합니다. 컨트롤러는 흰색 선 15cm를 따라 무작위로 배치됩니다. 배터리는 거의 같은 위치에서 다른 회전으로 초기화됩니다. 오른팔로 먼저 배터리를 잡은 다음(하위 작업 #1 잡기) 슬롯에 넣습니다(하위 작업 #2 놓기). 왼팔은 리모컨이 미끄러지지 않도록 리모컨을 누르고, 오른팔은 배터리를 밀어 넣습니다(하위 작업 #3 삽입).

Open Cup: Pick up and open the lid of a translucent condiment cup. The cup is randomized along the 15 cm white line. Both arms approach the cup, and the right gripper gently tips over the cup (Subtask#1 Tip Over) and pushes it into the gripper of the left arm. The left arm then gently closes its gripper and lifts the cup off the table (Subtask#2 Grasp). Next, the right gripper approaches the cup lid from below and prys open the lid.
컵을 엽니다: 반투명 양념 컵의 뚜껑을 집어 엽니다. 컵은 15cm 흰색 선을 따라 무작위로 배치됩니다. 양팔로 컵에 다가가 오른쪽 그리퍼로 컵을 부드럽게 뒤집어(하위 과제 #1 팁 오버) 왼팔의 그리퍼로 컵을 밀어 넣습니다. 그런 다음 왼팔은 그리퍼를 부드럽게 닫고 컵을 테이블에서 들어 올립니다(하위 작업 #2 잡기). 그런 다음 오른쪽 그리퍼가 아래에서 컵 뚜껑에 접근하여 뚜껑을 들어 올립니다.

Thread Velcro: Pick up the velcro cable tie and insert one end into the small loop on the other end. The velcro tie is randomized along the 15 cm white line. The left arm first picks up the velcro tie by pinching near the plastic loop (Subtask#1 Lift). The right arm grasps the tail of the velcro tie mid-air (Subtask#2 Grasp). Next, both arms coordinate to deform the velcro tie and insert one end of it into the plastic loop on the other end.
벨크로를 끼웁니다: 벨크로 케이블 타이를 집어 한쪽 끝을 다른 쪽 끝의 작은 고리에 끼워 넣습니다. 벨크로 타이가 15cm 흰색 선을 따라 무작위로 배치됩니다. 왼팔은 먼저 플라스틱 고리 근처를 꼬집어 벨크로 타이를 집습니다(하위 과제 #1 들어올리기). 오른팔은 공중에서 벨크로 타이의 꼬리를 잡습니다(하위 과제 #2 잡기). 그런 다음 양팔을 조정하여 벨크로 타이를 변형하고 한쪽 끝을 다른 쪽 끝의 플라스틱 고리에 삽입합니다.

Prep Tape: Hang a short segment of tape on the edge of the box. The tape dispenser is randomized along the 15 cm white line. First, the right gripper grasps the tape from the side (Subtask#l Grasp). It then lifts the tape and pulls to unroll it, followed by cutting it with the dispenser blade (Subtask#2 Cut). Next, the right gripper hands the tape segment to the left gripper in mid-air (Subtask#3 Handover), and both arms move toward the corner of the stationery cardboard box. The left arm then lays the tape segment flat on the surface of the box while the right gripper pushes down on the tape to prevent slipping. The left arm then opens its gripper to release the tape (Subtask#4 Hang).
준비 테이프: 상자 가장자리에 짧은 테이프 조각을 걸어 놓습니다. 테이프 디스펜서는 15cm 흰색 선을 따라 무작위로 배치됩니다. 먼저 오른쪽 그리퍼가 측면에서 테이프를 잡습니다(하위 작업 #l 잡기). 그런 다음 테이프를 들어 올려 당겨서 풀고 디스펜서 날로 테이프를 자릅니다(하위 작업 #2 자르기). 그런 다음 오른쪽 그리퍼가 테이프 조각을 공중에 있는 왼쪽 그리퍼에게 넘기고(하위 작업 #3 핸드오버), 양팔은 문구용 판지 상자의 모서리 쪽으로 움직입니다. 그런 다음 왼쪽 팔은 테이프 세그먼트를 상자 표면에 평평하게 놓고 오른쪽 그리퍼는 미끄러짐을 방지하기 위해 테이프를 아래로 누릅니다. 그런 다음 왼팔은 그리퍼를 열어 테이프를 떼어냅니다(하위 작업 #4 매달기).

Put On Shoe: Put a velcro-strap shoe on a fixed manniquin foot. The shoe pose is randomized along the 15 cm white line. First, both left and right grippers pick up the shoe (Subtask#1 Lift). Then both arms coordinate to put it on, with the heel touching the heel counter (Subtask#2 Insert). Next, the left arm moves to support the shoe (Subtask#3 Support), followed by the right arm securing the velcro strap (Subtask#4 Secure).
신발을 신습니다: 고정된 마네킹 발에 벨크로 스트랩 신발을 신습니다. 신발을 신는 자세는 15cm 흰색 선을 따라 무작위로 정해집니다. 먼저 왼쪽과 오른쪽 그리퍼가 모두 신발을 집습니다(하위 과제 #1 들어올리기). 그런 다음 양팔을 조정하여 뒤꿈치가 뒤꿈치 카운터에 닿도록 신발을 신습니다(하위 작업 #2 삽입). 다음으로 왼팔을 움직여 신발을 지지하고(하위작업#3 지지), 오른팔이 벨크로 스트랩을 고정합니다(하위작업#4 고정).
Fig. 6: Real-World Task Definitions. For each of the 6 real-world tasks, we illustrate the initializations and the subtasks.
그림 6: 실제 작업 정의. 6가지 실제 작업 각각에 대해 초기화 및 하위 작업을 설명합니다.

Left: Cube Transfer. Transfer the red cube to the other arm. The right arm touches (#1) and grasps (#2) the red cube, then hands it to the left arm. Right: Bimanual Insertion. Insert the red peg into the blue socket. Both arms grasp (#1), let socket and peg make contact (#2) and insertion.
왼쪽: 큐브 옮기기. 빨간색 큐브를 다른 팔로 옮깁니다. 오른팔이 빨간색 큐브를 만지고(1번) 잡은 다음(2번) 왼팔로 넘깁니다. 오른쪽: 양손 삽입. 빨간색 페그를 파란색 소켓에 삽입합니다. 양쪽 팔로 소켓을 잡고(#1) 소켓과 페그가 접촉(#2)하게 한 다음 삽입합니다.
Fig. 7: Simulated Task Definitions. For each of the 2 simulated tasks, we illustrate the initializations and the subtasks.
그림 7: 시뮬레이션된 작업 정의. 2개의 시뮬레이션된 작업 각각에 대해 초기화 및 하위 작업을 설명합니다.
Cube Transfer (sim)  큐브 전송(심) Bimanual Insertion (sim)
이중 수동 삽입(SIM)
Slide Ziploc (real)  슬라이드 지퍼락(실제) Slot Battery (real)  슬롯 배터리(실제)
Touched  터치 Lifted  해제됨 Transfer  전송 Grasp  파악 Contact  연락처 Insert  삽입 Grasp  파악 Pinch  핀치 Open  열기 Grasp  파악 Place  장소 Insert  삽입
BC-ConvMLP 3413 17|1 1।0 510 1।0 1। 0 0 0 0 0 0 0
BeT 60| 16 51|13 27|1 21।0 4।0 310 8 0 0 4 0 0
RT-1 44 | 4 33|2 210 2। 0 0 | 0 1। 0 4 0 0 4 0 0
VINN 13|17 9111 310 610 1।0 1।0 28 0 0 20 0 0
ACT (Ours)  ACT(우리) 97 82 97 82 97∣8297 \mid 82 90 | 60 86 I 50 93|76 90166 32 | 20 92 96 88 100 100 96
Cube Transfer (sim) Bimanual Insertion (sim) Slide Ziploc (real) Slot Battery (real) Touched Lifted Transfer Grasp Contact Insert Grasp Pinch Open Grasp Place Insert BC-ConvMLP 3413 17|1 1।0 510 1।0 1। 0 0 0 0 0 0 0 BeT 60| 16 51|13 27|1 21।0 4।0 310 8 0 0 4 0 0 RT-1 44 | 4 33|2 210 2। 0 0 | 0 1। 0 4 0 0 4 0 0 VINN 13|17 9111 310 610 1।0 1।0 28 0 0 20 0 0 ACT (Ours) 97∣82 90 | 60 86 I 50 93|76 90166 32 | 20 92 96 88 100 100 96| | Cube Transfer (sim) | | | Bimanual Insertion (sim) | | | Slide Ziploc (real) | | | Slot Battery (real) | | | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | | Touched | Lifted | Transfer | Grasp | Contact | Insert | Grasp | Pinch | Open | Grasp | Place | Insert | | BC-ConvMLP | 3413 | 17\|1 | 1।0 | 510 | 1।0 | 1। 0 | 0 | 0 | 0 | 0 | 0 | 0 | | BeT | 60\| 16 | 51\|13 | 27\|1 | 21।0 | 4।0 | 310 | 8 | 0 | 0 | 4 | 0 | 0 | | RT-1 | 44 \| 4 | 33\|2 | 210 | 2। 0 | 0 \| 0 | 1। 0 | 4 | 0 | 0 | 4 | 0 | 0 | | VINN | 13\|17 | 9111 | 310 | 610 | 1।0 | 1।0 | 28 | 0 | 0 | 20 | 0 | 0 | | ACT (Ours) | $97 \mid 82$ | 90 \| 60 | 86 I 50 | 93\|76 | 90166 | 32 \| 20 | 92 | 96 | 88 | 100 | 100 | 96 |
TABLE I: Success rate (%) for 2 simulated and 2 real-world tasks, comparing our method with 4 baselines. For the two simulated tasks, we report [training with scripted data I training with human data], with 3 seeds and 50 policy evaluations each. For the real-world tasks, we report training with human data, with 1 seed and 25 evaluations. Overall, ACT significantly outperforms previous methods.
표 1: 2개의 시뮬레이션 과제와 2개의 실제 과제에 대한 성공률(%)을 4개의 기준선과 비교한 결과입니다. 두 개의 시뮬레이션 과제에 대해서는 각각 3개의 시드와 50개의 정책 평가가 포함된 [스크립트 데이터를 사용한 훈련 I 인간 데이터를 사용한 훈련]을 보고합니다. 실제 작업의 경우, 1개의 시드와 25개의 평가가 포함된 [인간 데이터를 사용한 훈련]을 보고합니다. 전반적으로 ACT는 이전 방법보다 훨씬 뛰어난 성능을 보입니다.
Open Cup (real)  오픈 컵(실제) Thread Velcro (real)  실 벨크로(실제) Prep Tape (real)  준비 테이프(실제) Put On Shoe (real)
신발 신기(실제)
Tip Over  팁 오버 Grasp  파악 Open Lid  뚜껑 열기 Lift Grasp  파악 Insert  삽입 Grasp  파악 Cut   Handover  핸드오버 Hang Lift Insert  삽입 Support  지원 Secure  보안
BeT 12 0 0 24 0 0 8 0 0 0 12 0 0 0
ACT (Ours)  ACT(우리) 100 96 84 92 40 20 96 92 72 64 100 92 92 92
Open Cup (real) Thread Velcro (real) Prep Tape (real) Put On Shoe (real) Tip Over Grasp Open Lid Lift Grasp Insert Grasp Cut Handover Hang Lift Insert Support Secure BeT 12 0 0 24 0 0 8 0 0 0 12 0 0 0 ACT (Ours) 100 96 84 92 40 20 96 92 72 64 100 92 92 92| | Open Cup (real) | | | Thread Velcro (real) | | | Prep Tape (real) | | | | Put On Shoe (real) | | | | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | | Tip Over | Grasp | Open Lid | Lift | Grasp | Insert | Grasp | Cut | Handover | Hang | Lift | Insert | Support | Secure | | BeT | 12 | 0 | 0 | 24 | 0 | 0 | 8 | 0 | 0 | 0 | 12 | 0 | 0 | 0 | | ACT (Ours) | 100 | 96 | 84 | 92 | 40 | 20 | 96 | 92 | 72 | 64 | 100 | 92 | 92 | 92 |
TABLE II: Success rate (%) for the remaining 3 real-world tasks. We only compare with the best performing baseline BeT.
표 II: 나머지 3개의 실제 작업에 대한 성공률(%). 가장 성능이 좋은 기준 BeT와만 비교했습니다.

tape dispenser. Especially from the top view, it is challenging to localize the velcro tie because of the small projected area.
테이프 디스펜서. 특히 위에서 보면 투영된 면적이 작기 때문에 벨크로 타이를 찾기가 어렵습니다.

B. Data Collection  B. 데이터 수집

For all 6 real-world tasks, we collect demonstrations using ALOHA teleoperation. Each episode takes 8-14 seconds for the human operator to perform depending on the complexity of the task, which translates to 400-700 time steps given the control frequency of 50 Hz . We record 50 demonstrations for each task, except for Thread Velcro which has 100. The total amount for demonstrations is thus around 10-20 minutes of data for each task, and 30-60 minutes in wall-clock time because of resets and teleoperator mistakes. For the two simulated tasks, we collect two types of demonstrations: one type with a scripted policy and one with human demonstrations. To teleoperate in simulation, we use the “leader robots” of A L O H A A L O H A ALOHAA L O H A to control the simulated robot, with the operator looking at the real-time renderings of the environment on the monitor. In both cases, we record 50 successful demonstrations.
6가지 실제 작업 모두에 대해 알로하 원격 조작을 사용하여 데모를 수집합니다. 각 에피소드는 작업의 복잡성에 따라 작업자가 수행하는 데 8~14초가 소요되며, 제어 주파수가 50Hz인 경우 400~700개의 시간 단계로 변환됩니다. 각 작업에 대해 50개의 데모를 기록하지만, 스레드 벨크로는 100개의 데모를 기록합니다. 따라서 데모를 위한 총량은 각 작업당 약 10~20분의 데이터이며, 재설정 및 원격 작업자의 실수로 인해 벽시계 시간으로 30~60분이 소요됩니다. 두 가지 시뮬레이션 작업에 대해 스크립트 정책이 있는 유형과 사람이 직접 시연하는 두 가지 유형의 데모를 수집합니다. 시뮬레이션에서 원격 조작을 할 때는 A L O H A A L O H A ALOHAA L O H A 의 "리더 로봇"을 사용하여 시뮬레이션 로봇을 제어하고, 운영자는 모니터에서 환경의 실시간 렌더링을 확인합니다. 두 경우 모두 50회의 성공적인 데모를 기록했습니다.
We emphasize that all human demonstrations are inherently stochastic, even though a single person collects all of the demonstrations. Take the mid-air hand handover of the tape segment as an example: the exact position of the handover is different across each episode. The human has no visual or haptic reference to perform it in the same position. Thus to successfully perform the task, the policy will need to learn that the two grippers should never collide with each other during
한 사람이 모든 시연을 수집하더라도 모든 사람의 시연은 본질적으로 확률적이라는 점을 강조합니다. 테이프 세그먼트의 공중 핸드오버를 예로 들어보면, 핸드오버의 정확한 위치는 각 에피소드마다 다릅니다. 사람은 동일한 위치에서 이 작업을 수행할 수 있는 시각적 또는 촉각적 기준이 없습니다. 따라서 작업을 성공적으로 수행하려면 정책은 두 그리퍼가 다음과 같은 동안 서로 충돌하지 않아야 한다는 것을 학습해야 합니다.

the handover, and the left gripper should always move to a position that can grasp the tape, instead of trying to memorize where exactly the handover happens, which can vary across demonstrations.
핸드오버를 할 때 왼쪽 그리퍼는 시연마다 다를 수 있는 정확한 핸드오버 위치를 외우려고 하지 말고 항상 테이프를 잡을 수 있는 위치로 이동해야 합니다.

C. Experiment Results  C. 실험 결과

We compare ACT with four prior imitation learning methods. B C B C BC\boldsymbol{B C}-ConvMLP is the simplest yet most widely used baseline [69, 26], which processes the current image observations with a convolutional network, whose output features are concatenated with the joint positions to predict the action. B e T B e T BeT\boldsymbol{B e T} [49] also leverages Transformers as the architecture, but with key differences: (1) no action chunking: the model predicts one action given the history of observations; and (2) the image observations are pre-processed by a separately trained frozen visual encoder. That is, the perception and control networks are not jointly optimized. RT-1 [7] is another Transformerbased architecture that predicts one action from a fixed-length history of past observations. Both B e T B e T BeTB e T and R T 1 R T 1 RT-1R T-1 discretize the action space: the output is a categorical distribution over discrete bins, but with an added continuous offset from the bincenter in the case of BeT. Our method, ACT, instead directly predicts continuous actions, motivated by the precision required in fine manipulation. Lastly, VINN [42] is a non-parametric method that assumes access to the demonstrations at test time. Given a new observation, it retrieves the k k kk observations with the most similar visual features, and returns an action using
ACT를 네 가지 선행 모방 학습 방법과 비교합니다. <가장 간단하면서도 가장 널리 사용되는 기준선[69, 26]은 컨볼루션 네트워크로 현재 이미지 관찰을 처리하고, 출력 피처를 관절 위치와 연결하여 동작을 예측하는 ConvMLP입니다. B e T B e T BeT\boldsymbol{B e T} [49] 역시 트랜스포머를 아키텍처로 활용하지만, 주요 차이점이 있습니다: (1) 동작 청킹이 없다는 점: 모델은 관찰 기록을 바탕으로 하나의 동작을 예측하고, (2) 이미지 관찰은 별도로 훈련된 고정 시각 인코더에 의해 사전 처리됩니다. 즉, 인식 및 제어 네트워크가 공동으로 최적화되지 않습니다. RT-1[7]은 과거 관측의 고정 길이 기록에서 하나의 동작을 예측하는 또 다른 트랜스포머 기반 아키텍처입니다. B e T B e T BeTB e T R T 1 R T 1 RT-1R T-1 모두 동작 공간을 이산화합니다. 출력은 이산 구간차원에 대한 범주형 분포이지만, BeT의 경우 빈센터에서 연속 오프셋이 추가됩니다. 대신, 우리의 방법인 ACT는 미세 조작에 필요한 정밀도를 바탕으로 연속적인 행동을 직접 예측합니다. 마지막으로, VINN [42]은 테스트 시점에 데모에 액세스할 수 있다고 가정하는 비모수적 방법입니다. 새로운 관찰이 주어지면 가장 유사한 시각적 특징을 가진 k k kk 관찰을 검색하고 다음을 사용하여 동작을 반환합니다.

weighted k k kk-nearest-neighbors. The visual feature extractor is a pretrained ResNet finetuned on demonstration data with unsupervised learning. We carefully tune the hyperparameters of these four prior methods using cube transfer. Details of the hyperparameters are provided in Appendix D D DD.
가중치 k k kk -근접 이웃. 시각적 특징 추출기는 비지도 학습으로 데모 데이터에 대해 미세 조정된 사전 훈련된 ResNet입니다. 큐브 전송을 사용하여 이 네 가지 이전 방법의 하이퍼파라미터를 신중하게 조정합니다. 하이퍼파라미터에 대한 자세한 내용은 부록 D D DD 에 나와 있습니다.
As a detailed comparison with prior methods, we report the average success rate in Table \square for two simulated and two real tasks. For simulated tasks, we average performance across 3 random seeds with 50 trials each. We report the success rate on both scripted data (left of separation bar) and human data (right of separation bar). For real-world tasks, we run one seed and evaluate with 25 trials. ACT achieves the highest success rate compared to all prior methods, outperforming the second best algorithm by a large margin on each task. For the two simulated tasks with scripted or human data, ACT outperforms the best previous method in success rate by 59 % , 49 % , 29 % 59 % , 49 % , 29 % 59%,49%,29%59 \%, 49 \%, 29 \%, and 20 % 20 % 20%20 \%. While previous methods are able to make progress in the first two subtasks, the final success rate remains low, below 30%. For the two real-world tasks Slide Ziploc and Slot Battery, ACT achieves 88 % 88 % 88%88 \% and 96 % 96 % 96%96 \% final success rates respectively, with other methods making no progress past the first stage. We attribute the poor performance of prior methods to compounding errors and non-Markovian behavior in the data: the behavior degrades significantly towards the end of an episode, and the robot can pause indefinitely for certain states. ACT mitigates both issues with action chunking. Our ablations in Subsection VI-A also shows that chunking can significantly improve these prior methods when incorporated. In addition, we notice a drop in performance for all methods when switching from scripted data to human data in simulated tasks: the stochasticity and multi-modality of human demonstrations make imitation learning a lot harder.
이전 방법과의 자세한 비교를 위해 시뮬레이션 작업 2개와 실제 작업 2개에 대한 평균 성공률을 표 \square 에 표시했습니다. 시뮬레이션 작업의 경우, 각각 50회씩 시도한 3개의 무작위 시드에 대한 평균 성능을 계산했습니다. 스크립트 데이터(구분 막대의 왼쪽)와 사람 데이터(구분 막대의 오른쪽) 모두에 대한 성공률을 보고합니다. 실제 작업의 경우, 하나의 시드를 실행하고 25번의 시도로 평가합니다. ACT는 이전의 모든 방법과 비교하여 가장 높은 성공률을 달성했으며, 각 작업에서 두 번째로 우수한 알고리즘을 큰 차이로 앞질렀습니다. 스크립트 또는 인간 데이터로 시뮬레이션된 두 가지 작업의 경우, ACT는 성공률에서 이전 방법보다 59 % , 49 % , 29 % 59 % , 49 % , 29 % 59%,49%,29%59 \%, 49 \%, 29 \% , 그리고 20 % 20 % 20%20 \% 만큼 더 나은 성능을 보였습니다. 이전 방법은 처음 두 개의 하위 작업에서 진전을 이룰 수 있지만 최종 성공률은 30% 미만으로 여전히 낮습니다. 두 가지 실제 과제인 슬라이드 지퍼락과 슬롯 배터리의 경우, ACT는 각각 88 % 88 % 88%88 \% 96 % 96 % 96%96 \% 최종 성공률을 달성한 반면, 다른 방법은 첫 번째 단계를 넘어서지 못했습니다. 이전 방법의 낮은 성능은 데이터의 복합적인 오류와 비마르코비안 행동(에피소드가 끝날수록 행동이 크게 저하되고 로봇이 특정 상태에서 무기한 멈출 수 있음) 때문인 것으로 분석됩니다. ACT는 액션 청킹을 통해 이 두 가지 문제를 완화합니다. 하위 섹션 VI-A에서 살펴본 바와 같이 청킹을 통합하면 이러한 이전 방법을 크게 개선할 수 있습니다. 또한 시뮬레이션 작업에서 스크립트 데이터에서 사람 데이터로 전환할 때 모든 방법의 성능이 저하되는 것을 확인할 수 있었는데, 이는 사람 데모의 확률성과 다중 양식으로 인해 모방 학습이 훨씬 더 어려워지기 때문입니다.
We report the success rate of the 3 remaining real-world tasks in Table II. For these tasks, we only compare with BeT, which has the highest task success rate so far. Our method ACT reaches 84 % 84 % 84%84 \% success for Cup Open, 20 % 20 % 20%20 \% for Thread Velcro, 64 % 64 % 64%64 \% for Prep Tape and 92 % 92 % 92%92 \% for Put On Shoe, again outperforming BeT, which achieve zero final success on these challenging tasks. We observe relatively low success of ACT in Thread Velcro, where the success rate decreased by roughly half at every stage, from 92 % 92 % 92%92 \% success at the first stage to 20 % 20 % 20%20 \% final success. The failure modes we observe are 1) at stage 2 , the right arm closes its gripper too early and fails to grasp the tail of the cable tie mid-air, and 2) in stage 3, the insertion is not precise enough and misses the loop. In both cases, it is hard to determine the exact position of the cable tie from image observations: the contrast is low between the black cable tie and the background, and the cable tie only occupies a small fraction of the image. We include examples of image observations in Appendix B
나머지 세 가지 실제 작업의 성공률은 표 II에 나와 있습니다. 이러한 작업의 경우 지금까지 가장 높은 작업 성공률을 보인 BeT와만 비교합니다. 우리의 방법 ACT는 컵 열기에서 84 % 84 % 84%84 \% , 실 벨크로에서 20 % 20 % 20%20 \% , 준비 테이프에서 64 % 64 % 64%64 \% , 신발 신기에서 92 % 92 % 92%92 \% 에 도달하여 이러한 어려운 과제에서 최종 성공률이 0인 BeT를 다시 한 번 능가했습니다. 실 벨크로에서는 첫 번째 단계에서 92 % 92 % 92%92 \% 성공부터 최종 성공까지 모든 단계에서 성공률이 약 절반으로 감소하는 등 상대적으로 낮은 ACT의 성공률을 관찰할 수 있었습니다. 우리가 관찰한 실패 모드는 1) 2단계에서 오른팔이 그리퍼를 너무 일찍 닫아 케이블 타이의 꼬리를 공중에서 잡지 못하는 경우와 2) 3단계에서 삽입이 충분히 정확하지 않아 고리를 놓치는 경우입니다. 두 경우 모두 검은색 케이블 타이와 배경 사이의 대비가 낮고 케이블 타이가 이미지의 일부분만 차지하기 때문에 이미지 관찰에서 케이블 타이의 정확한 위치를 파악하기 어렵습니다. 이미지 관찰의 예는 부록 B에 포함되어 있습니다.

VI. Ablations  VI. 절제

ACT employs action chunking and temporal ensembling to mitigate compounding errors and better handle non-Markovian demonstrations. It also trains the policy as a conditional VAE to model the noisy human demonstrations. In this section, we
ACT는 액션 청킹과 시간적 앙상블을 사용하여 복합 오류를 완화하고 비 마르코비안 데모를 더 잘 처리합니다. 또한 노이즈가 많은 인간 데모를 모델링하기 위해 조건부 VAE로 정책을 훈련합니다. 이 섹션에서는

ablate each of these components, together with a user study that highlights the necessity of high-frequency control in ALOHA. We report results across a total of four settings: two simulated tasks with scripted or human demonstration.
이러한 각 구성 요소를 제거한 후 ALOHA에서 고주파 제어의 필요성을 강조하는 사용자 연구를 진행했습니다. 총 네 가지 설정에 대한 결과를 보고합니다. 스크립트 또는 사람이 직접 시연하는 두 가지 시뮬레이션 작업입니다.

A. Action Chunking and Temporal Ensembling
A. 액션 청킹 및 시간적 앙상블

In Subsection V-C, we observed that ACT significantly outperforms previous methods that only predict single-step actions, with the hypothesis that action chunking is the key design choice. Since k k kk dictates how long the sequence in each “chunk” is, we can analyze this hypothesis by varying k . k = 1 k . k = 1 k.k=1k . k=1 corresponds to no action chunking, and k = k = k=k= episode_length corresponds to fully open-loop control, where the robot outputs the entire episode’s action sequence based on the first observation. We disable temporal ensembling in these experiments to only measure the effect of chunking, and trained separate policies for each k k kk. In Figure 8(a), we plot the success rate averaged across 4 settings, corresponding to 2 simulated tasks with either human or scripted data, with the blue line representing ACT without the temporal ensemble. We observe that performance improves drastically from 1 % 1 % 1%1 \% at k = 1 k = 1 k=1k=1 to 44 % 44 % 44%44 \% at k = 100 k = 100 k=100k=100, then slightly tapers down with higher k k kk. This illustrates that more chunking and a lower effective horizon generally improve performance. We attribute the slight dip at k = 200 , 400 k = 200 , 400 k=200,400k=200,400 (i.e., close to open-loop control) to the lack of reactive behavior and the difficulty in modeling long action sequences. To further evaluate the effectiveness and generality of action chunking, we augment two baseline methods with action chunking. For B C B C BCB C-ConvMLP, we simply increase the output dimension to k k k**k * action_dim, and for VINN, we retrieve the next k k kk actions. We visualize their performance in Figure 8 (a) with different k k kk, showing trends consistent with ACT, where more action chunking improves performance. While ACT still outperforms both augmented baselines with sizable gains, these results suggest that action chunking is generally beneficial for imitation learning in these settings.
하위 섹션 V-C에서는 액션 청크가 핵심적인 디자인 선택이라는 가설에 따라 ACT가 단일 단계 액션만 예측하는 이전 방법보다 훨씬 뛰어난 성능을 보인다는 것을 관찰했습니다. k k kk 은 각 '청크'의 시퀀스 길이를 나타내므로 k . k = 1 k . k = 1 k.k=1k . k=1 은 액션 청킹이 없는 경우에 해당하고 k = k = k=k= episode_length는 로봇이 첫 번째 관찰을 기반으로 전체 에피소드의 액션 시퀀스를 출력하는 완전 오픈 루프 제어에 해당하여 이 가설을 분석할 수 있습니다. 이 실험에서는 청킹의 효과만 측정하기 위해 시간적 앙상블을 비활성화하고 각 k k kk 에 대해 별도의 정책을 학습시켰습니다. 그림 8(a)에서는 사람 또는 스크립트 데이터를 사용한 2개의 시뮬레이션 작업에 해당하는 4개의 설정에 대한 평균 성공률을 표시하고 있으며, 파란색 선은 템포럴 앙상블을 사용하지 않은 ACT를 나타냅니다. 1 % 1 % 1%1 \% 에서 k = 1 k = 1 k=1k=1 에서 44 % 44 % 44%44 \% 에서 k = 100 k = 100 k=100k=100 로 성능이 급격히 향상되다가 k k kk 이 높아지면 약간 낮아지는 것을 관찰할 수 있습니다. 이는 청킹이 많고 유효 수평선이 낮을수록 일반적으로 성능이 향상된다는 것을 보여줍니다. k = 200 , 400 k = 200 , 400 k=200,400k=200,400 (즉, 오픈 루프 제어에 가까울 때)에서 약간 떨어지는 것은 반응형 동작이 부족하고 긴 액션 시퀀스를 모델링하기 어렵기 때문이라고 생각합니다. 액션 청킹의 효과와 일반성을 추가로 평가하기 위해 두 가지 기준 방법을 액션 청킹으로 보강했습니다. B C B C BCB C -ConvMLP의 경우, 출력 차원을 k k k**k * action_dim으로 간단히 늘리고, VINN의 경우 다음 k k kk 액션을 검색합니다. 그림 8 (a)에서 다양한 k k kk 으로 성능을 시각화하면 액션 청크가 많을수록 성능이 향상되는 ACT와 일치하는 추세를 볼 수 있습니다. ACT가 여전히 두 가지 증강 기준선 모두에서 상당한 이득을 얻었지만, 이러한 결과는 액션 청크가 일반적으로 이러한 환경에서 모방 학습에 유리하다는 것을 시사합니다.
We then ablate the temporal ensemble by comparing the highest success rate with or without it, again across the 4 aforementioned tasks and different k k kk. We note that experiments with and without the temporal ensemble are separately tuned: hyperparameters that work best for no temporal ensemble may not be optimal with a temporal ensemble. In Figure 8 (b), we show that B C B C BCB C-ConvMLP benefits from temporal ensembling the most with a 4 % 4 % 4%4 \% gain, followed by a 3.3 % 3.3 % 3.3%3.3 \% gain for our method. We notice a performance drop for VINN, a non-parametric method. We hypothesize that a temporal ensemble mostly benefits parametric methods by smoothing out the modeling errors. In contrast, VINN retrieves ground-truth actions from the dataset and does not suffer from this issue.
그런 다음 앞서 언급한 4개의 작업과 다른 k k kk 에 대해 다시 한 번 가장 높은 성공률을 비교하여 템포럴 앙상블을 제거합니다. 시간적 앙상블이 있는 실험과 없는 실험은 별도로 조정됩니다. 시간적 앙상블이 없을 때 가장 잘 작동하는 하이퍼파라미터가 시간적 앙상블이 있을 때는 최적이 아닐 수 있습니다. 그림 8 (b)에서 B C B C BCB C -ConvMLP는 4 % 4 % 4%4 \% 이득으로 템포럴 앙상블의 이점을 가장 많이 누리고, 그 다음으로는 3.3 % 3.3 % 3.3%3.3 \% 이득으로 우리 방법의 이점을 누리고 있음을 보여줍니다. 비파라메트릭 방식인 VINN의 경우 성능이 저하되는 것을 확인할 수 있습니다. 우리는 시간적 앙상블이 모델링 오류를 완화함으로써 파라메트릭 방법에 주로 도움이 된다는 가설을 세웠습니다. 반면, VINN은 데이터 세트에서 실측값 액션을 검색하므로 이러한 문제가 발생하지 않습니다.

B. Training with CVAE
B. CVAE를 통한 교육

We train ACT with CVAE objective to model human demonstrations, which can be noisy and contain multi-modal behavior. In this section, we compare with ACT without the CVAE objective, which simply predicts a sequence of actions given current observation, and trained with L1 loss. In Figure 8
노이즈가 많고 다중 모달 행동을 포함할 수 있는 사람의 시연을 모델링하기 위해 CVAE 목표를 사용하여 ACT를 훈련합니다. 이 섹션에서는 현재 관찰된 행동의 순서를 단순히 예측하고 L1 손실로 훈련하는 CVAE 목표가 없는 ACT와 비교합니다. 그림 8에서

Fig. 8: (a) We augment two baselines with action chunking, with different values of chunk size k k kk on the x -axis, and success rate on the y y yy-axis. Both methods significantly benefit from action chunking, suggesting that it is a generally useful technique. (b) Temporal Ensemble (TE) improves our method and BC-ConvMLP, while hurting VINN. © We compare with and without the CVAE training, showing that it is crucial when learning from human data. (d) We plot the distribution of task completion time in our user study, where we task participants to perform two tasks, at 5 Hz or 50 Hz teleoperation frequency. Lowering the frequency results in a 62 % 62 % 62%62 \% slowdown in completion time.
그림 8: (a) 액션 청킹으로 두 개의 기준선을 보강하고, x축의 청크 크기 k k kk 값과 y y yy -축의 성공률을 다르게 설정합니다. 두 방법 모두 액션 청킹을 통해 상당한 이점을 얻을 수 있어 일반적으로 유용한 기법임을 알 수 있습니다. (b) 템포럴 앙상블(TE)은 우리의 방법과 BC-ConvMLP를 향상시키는 반면, VINN을 손상시킵니다. CVAE 훈련의 유무에 따라 비교한 결과, 인간 데이터로부터 학습할 때 이 훈련이 매우 중요하다는 것을 보여줍니다. (d) 사용자 연구에서 참가자에게 5Hz 또는 50Hz 원격 작동 주파수에서 두 가지 작업을 수행하도록 한 후 작업 완료 시간의 분포를 플롯합니다. 주파수를 낮추면 완료 시간이 62 % 62 % 62%62 \% 로 느려집니다.

©, we visualize the success rate aggregated across 2 simulated tasks, and separately plot training with scripted data and with human data. We can see that when training on scripted data, the removal of CVAE objective makes almost no difference in performance, because dataset is fully deterministic. While for human data, there is a significant drop from 35.3 % 35.3 % 35.3%35.3 \% to 2 % 2 % 2%2 \%. This illustrates that the CVAE objective is crucial when learning from human demonstrations.
에서 2개의 시뮬레이션 작업에 대해 집계된 성공률을 시각화하고, 스크립트 데이터와 사람 데이터를 사용한 학습을 별도로 플롯합니다. 스크립트 데이터로 학습할 때는 데이터 세트가 완전히 결정론적이기 때문에 CVAE 목표를 제거해도 성능에 거의 차이가 없음을 알 수 있습니다. 반면, 사람 데이터의 경우 35.3 % 35.3 % 35.3%35.3 \% 에서 2 % 2 % 2%2 \% 로 크게 떨어집니다. 이는 인간 데모로부터 학습할 때 CVAE 목표가 매우 중요하다는 것을 보여줍니다.

C. Is High-Frequency Necessary?
C. 고주파가 필요한가요?

Lastly, we conduct a user study to illustrate the necessity of high-frequency teleoperation for fine manipulation. With the same hardware setup, we lower the frequency from 50 Hz to 5 Hz , a control frequency that is similar to recent works that use high-capacity deep networks for imitation learning [7, 70]. We pick two fine-grained tasks: threading a zip cable tie and un-stacking two plastic cups. Both require millimeterlevel precision and closed-loop visual feedback. We perform the study with 6 participants who have varying levels of experience with teleoperation, though none had used ALOHA before. The participants were recruited from among computer science graduate students, with 4 men and 2 women aged 22-25 The order of tasks and frequencies are randomized for each participant, and each participant was provided with a 2 minutes practice period before each trial. We recorded the time it took to perform the task for 3 trials, and visualize the data in Figure 8 (d). On average, it took 33 s for participants to thread the zip tie at 5 Hz , which is lowered to 20 s at 50 Hz . For separating plastic cups, increasing the control frequency lowered the task duration from 16 s to 10 s. Overall, our setup (i.e. 50 Hz ) allows the participants to perform highly dexterous and precise tasks in a short amount of time. However, reducing the frequency from 50 Hz to 5 Hz results in a 62 % 62 % 62%62 \% increase in teleoperation time. We then use “Repeated Measures Designs”, a statistical procedure, to formally verify that 50 Hz teleoperation outperforms 5 Hz with p-value < 0.001 < 0.001 < 0.001<0.001. We include more details about the study in Appendix E
마지막으로, 미세 조작을 위한 고주파 원격 조작의 필요성을 설명하기 위해 사용자 연구를 수행합니다. 동일한 하드웨어 설정으로 주파수를 50Hz에서 5Hz로 낮추어 모방 학습에 고용량 심층 네트워크를 사용하는 최근 연구와 유사한 제어 주파수를 사용합니다[7, 70]. 지퍼 케이블 타이를 끼우는 것과 플라스틱 컵 두 개를 쌓아 올리는 두 가지 세분화된 작업을 선택했습니다. 두 과제 모두 밀리미터 수준의 정밀도와 폐쇄 루프 시각적 피드백이 필요합니다. 원격 조작에 대한 다양한 수준의 경험을 가진 6명의 참가자와 함께 연구를 수행했지만, 이전에 ALOHA를 사용해 본 사람은 없었습니다. 참가자는 22~25세의 남성 4명과 여성 2명으로 컴퓨터 공학 대학원생 중에서 모집했습니다. 각 참가자에게는 작업 순서와 빈도가 무작위로 주어졌으며, 각 실험 전에 2분간의 연습 시간이 주어졌습니다. 3번의 실험에서 과제를 수행하는 데 걸린 시간을 기록하여 그림 8 (d)에 데이터를 시각화했습니다. 참가자들이 5Hz에서 지퍼 타이를 꿰는 데 걸린 시간은 평균 33초였으며, 50Hz에서는 20초로 낮아졌습니다. 플라스틱 컵 분리 작업의 경우 제어 주파수를 높이면 작업 시간이 16초에서 10초로 줄어든 것으로 나타났습니다. 전반적으로 50Hz의 설정은 참가자들이 짧은 시간 내에 매우 민첩하고 정밀한 작업을 수행할 수 있게 해줍니다. 그러나 주파수를 50Hz에서 5Hz로 낮추면 원격 조작 시간이 62 % 62 % 62%62 \% 증가합니다. 그런 다음 통계적 절차인 "반복 측정 설계"를 사용하여 50Hz 원격 조작이 5Hz보다 p값 < 0.001 < 0.001 < 0.001<0.001 로 성능이 우수하다는 것을 공식적으로 검증합니다. 연구에 대한 자세한 내용은 부록 E에 포함되어 있습니다.

VII. Limitations and Conclusion
VII. 제한 사항 및 결론

We present a low-cost system for fine manipulation, comprising a teleoperation system A L O H A A L O H A ALOHAA L O H A and a novel imitation
우리는 원격 조작 시스템 A L O H A A L O H A ALOHAA L O H A 과 새로운 모방으로 구성된 미세 조작을 위한 저비용 시스템을 제시합니다.

learning algorithm A C T A C T ACTA C T. The synergy between these two parts allows us to learn fine manipulation skills directly in the realworld, such as opening a translucent condiment cup and slotting a battery with a 80 90 % 80 90 % 80-90%80-90 \% success rate and around 10 min of demonstrations. While the system is quite capable, there exist tasks that are beyond the capability of either the robots or the learning algorithm, such as buttoning up a dress shirt. We include a more detailed discussion about limitations in Appendix F Overall, we hope that this low-cost open-source system represents an important step and accessible resource towards advancing fine-grained robotic manipulation.
학습 알고리즘 A C T A C T ACTA C T . 이 두 부분의 시너지 효과로 80 90 % 80 90 % 80-90%80-90 \% 성공률과 약 10분의 시연으로 반투명 조미료 컵을 열고 배터리를 끼우는 등 실제 세계에서 직접 미세 조작 기술을 학습할 수 있습니다. 이 시스템은 상당한 능력을 갖추고 있지만, 드레스 셔츠 단추를 채우는 것과 같이 로봇이나 학습 알고리즘의 능력을 넘어서는 작업도 존재합니다. 한계에 대한 자세한 논의는 부록 F에 포함되어 있습니다. 전반적으로 이 저비용 오픈 소스 시스템이 세밀한 로봇 조작을 발전시키는 데 중요한 단계이자 접근 가능한 리소스가 되기를 바랍니다.

AcKNOWLEDGEMENT  인정

We thank members of the IRIS lab at Stanford for their support and feedback. We also thank Siddharth Karamcheti, Toki Migimatsu, Staven Cao, Huihan Liu, Mandi Zhao, Pete Florence and Corey Lynch for helpful discussions. Tony Zhao is supported by Stanford Robotics Fellowship sponsored by FANUC, in addition to Schmidt Futures and ONR Grant N00014-21-1-2685.
지원과 피드백을 제공해 주신 스탠포드 IRIS 연구팀원들에게 감사드립니다. 또한 유용한 토론을 제공해 주신 Siddharth Karamcheti, Toki Migimatsu, Staven Cao, Huihan Liu, Mandi Zhao, Pete Florence, Corey Lynch에게도 감사드립니다. 토니 자오는 슈미트 퓨처스와 ONR 그랜트 N00014-21-1-2685 외에도 FANUC가 후원하는 스탠포드 로봇 공학 펠로우십의 지원을 받았습니다.

REFERENCES  참고 자료

[1] Viperx 300 robot arm 6dof. URL https://www. trossenrobotics.com/viperx-300-robot-arm-6dof.aspx.
[1] Viperx 300 로봇팔 6dof. URL https://www. trossenrobotics.com/viperx-300-robot-arm-6dof.aspx.

[2] Widowx 250 robot arm 6dof. URL https://www. trossenrobotics.com/widowx-250-robot-arm-6dof.aspx.
[2] 위도우X 250 로봇팔 6dof. URL https://www. trossenrobotics.com/widowx-250-robot-arm-6dof.aspx.

[3] Highly dexterous manipulation system - capabilities - part 1, Nov 2014. URL https://www.youtube.com/watch?v= TearcKVj0iY.
[3] 고도로 민첩한 조작 시스템 - 기능 - 1부, 2014년 11월. URL https://www.youtube.com/watch?v= TearcKVj0iY.

[4] Assembly performance metrics and test methods, Apr 2022. URL https://www. nist.gov/el/intelligent-systems-division-73500/ robotic-grasping-and-manipulation-assembly/assembly.
[4] 조립 성능 메트릭 및 테스트 방법, 2022년 4월. URL https://www. nist.gov/el/intelligent-systems-division-73500/ 로봇 파악 및 조작 어셈블리/어셈블리.

[5] Teleoperated robots - shadow teleoperation system, Nov 2022. URL https://www.shadowrobot.com/teleoperation/
[5] 원격 조종 로봇 - 섀도우 원격 조종 시스템, 2022년 11월. URL https://www.shadowrobot.com/teleoperation/

[6] Sridhar Pandian Arunachalam, Irmak Güzey, Soumith Chintala, and Lerrel Pinto. Holo-dex: Teaching dexterity with immersive mixed reality. arXiv preprint arXiv:2210.06463, 2022.
[6] 스리다르 판디안 아루나찰람, 이르막 구지, 수미스 친탈라, 레렐 핀토. 홀로덱스: 몰입형 혼합 현실로 손재주를 가르치기. arXiv 사전 인쇄물 arXiv:2210.06463, 2022.

[7] Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana
[7] 앤서니 브로한, 노아 브라운, 저스티스 카르바잘, 예브겐 체보타르, 조셉 다비스, 첼시 핀, 키르타나
Gopalakrishnan, Karol Hausman, Alexander Herzog, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Tomas Jackson, Sally Jesmonth, Nikhil J. Joshi, Ryan C. Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, KuangHuei Lee, Sergey Levine, Yao Lu, Utsav Malla, Deeksha Manjunath, Igor Mordatch, Ofir Nachum, Carolina Parada, Jodilyn Peralta, Emily Perez, Karl Pertsch, Jornell Quiambao, Kanishka Rao, Michael S. Ryoo, Grecia Salazar, Pannag R. Sanketi, Kevin Sayed, Jaspiar Singh, Sumedh Anand Sontakke, Austin Stone, Clayton Tan, Huong Tran, Vincent Vanhoucke, Steve Vega, Quan Ho Vuong, F. Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, and Brianna Zitkovich. Rt-1: Robotics transformer for real-world control at scale. ArXiv, abs/2212.06817, 2022.
고팔라크리슈난, 카롤 하우스만, 알렉산더 헤르조그, 자스민 슈, 줄리안 이바르츠, 브라이언 이치터, 알렉스 이르판, 토마스 잭슨, 샐리 제스월, 니킬 J. 조시, 라이언 C.. 줄리안, 드미트리 칼라쉬니코프, 유헹 쿠앙, 이사벨 레알, 쿠앙후에이 리, 세르게이 레빈, 야오 루, 우츠사 말라, 딕샤 만주나스, 이고르 모드치, 오브피르 나첨, 캐롤리나 파라다, 조딜린 페랄타, 에밀리 페레스, 칼 페치, 조넬 퀴암바오, 카니시카 라오, 마이클 S.. Ryoo, 그레시아 살라자르, 판나그 산케티, 케빈 사예드, 자스피어 싱, 수메드 아난드 손탁케, 오스틴 스톤, 클레이튼 탄, 후옹 트랜, 빈센트 반호크, 스티브 베가, 콴 호 부옹, F. 샤, 테드 샤, 펭 쉬, 시춘 쉬, 티안헤 유, 브리아나 지트코비치. Rt-1: 대규모 실제 제어를 위한 로보틱스 트랜스포머. ArXiv, abs/2212.06817, 2022.

[8] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. ArXiv, abs/2005.12872, 2020.
[8] 니콜라스 카리온, 프란시스코 마사, 가브리엘 시네브, 니콜라스 우수니에, 알렉산더 키릴로프, 세르게이 자고루이코. 트랜스포머를 사용한 엔드투엔드 객체 감지. ArXiv, abs/2005.12872, 2020.

[9] Yuanpei Chen, Yaodong Yang, Tianhao Wu, Shengjie Wang, Xidong Feng, Jiechuan Jiang, Stephen McAleer, Hao Dong, Zongqing Lu, and Song-Chun Zhu. Towards human-level bimanual dexterous manipulation with reinforcement learning. ArXiv, abs/2206.08686, 2022.
[9] Yuanpei Chen, Yaodong Yang, Tianhao Wu, Shengjie Wang, Xidong Feng, Jiechuan Jiang, Stephen McAleer, Hao Dong, Zongqing Lu, Song-Chun Zhu. 강화 학습을 통한 인간 수준의 양손 조작을 향해. ArXiv, abs/2206.08686, 2022.

[10] Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, and Abhinav Kumar Gupta. Efficient bimanual manipulation using learned task schemas. 2020 IEEE International Conference on Robotics and Automation (ICRA), pages 1149-1155, 2019.
[10] 로한 치트니스, 슈밤 툴시아니, 사우라브 굽타, 아브히나브 쿠마르 굽타. 학습된 작업 스키마를 사용한 효율적인 바이매뉴얼 조작. 2020 IEEE 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 1149-1155페이지, 2019.

[11] Sudeep Dasari and Abhinav Kumar Gupta. Transformers for one-shot visual imitation. In Conference on Robot Learning, 2020.
[11] 수딥 다사리, 아브히나브 쿠마르 굽타. 원샷 시각적 모방을 위한 트랜스포머. 로봇 학습 컨퍼런스, 2020.

[12] Pim de Haan, Dinesh Jayaraman, and Sergey Levine. Causal confusion in imitation learning. In Neural Information Processing Systems, 2019.
[12] 핌 드 한, 디네쉬 자야라만, 세르게이 레빈. 모방 학습의 인과적 혼동. 신경 정보 처리 시스템, 2019.

[13] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. ArXiv, abs/1810.04805, 2019.
[13] 제이콥 데블린, 밍웨이 창, 켄튼 리, 크리스티나 투타노바. Bert: 언어 이해를 위한 심층 양방향 트랜스포머의 사전 훈련. ArXiv, abs/1810.04805, 2019.

[14] Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, P. Abbeel, and Wojciech Zaremba. One-shot imitation learning. ArXiv, abs/1703.07326, 2017.
[14] 얀 두안, 마르신 안드리초비츠, 브래들리 C. 스타디, 조나단 호, 조나스 슈나이더, 일리야 수츠케버, P. 아벨, 보이치치 자렘바. 원샷 모방 학습. ArXiv, abs/1703.07326, 2017.

[15] Frederik Ebert, Yanlai Yang, Karl Schmeckpeper, Bernadette Bucher, Georgios Georgakis, Kostas Daniilidis, Chelsea Finn, and Sergey Levine. Bridge data: Boosting generalization of robotic skills with cross-domain datasets. ArXiv, abs/2109.13396, 2021.
[15] 프레데릭 에버트, 얀라이 양, 칼 슈멕페퍼, 베르나데트 부커, 조지오스 게오르가키스, 코스타스 다니일리디스, 첼시 핀, 세르게이 레빈. 브리지 데이터: 교차 도메인 데이터 세트로 로봇 기술의 일반화 촉진. ArXiv, abs/2109.13396, 2021.

[16] Peter R. Florence, Lucas Manuelli, and Russ Tedrake. Selfsupervised correspondence in visuomotor policy learning. IEEE Robotics and Automation Letters, 5:492-499, 2019.
[16] 피터 R. 플로렌스, 루카스 마누엘리, 러스 테드레이크. 시각 운동 정책 학습에서의 자기 감독 대응. IEEE 로봇 공학 및 자동화 편지, 5:492-499, 2019.

[17] Peter R. Florence, Corey Lynch, Andy Zeng, Oscar Ramirez, Ayzaan Wahid, Laura Downs, Adrian S. Wong, Johnny Lee, Igor Mordatch, and Jonathan Tompson. Implicit behavioral cloning. ArXiv, abs/2109.00137, 2021.
[17] 피터 R. 플로렌스, 코리 린치, 앤디 젱, 오스카 라미레즈, 아이잔 와히드, 로라 다운스, 아드리안 S. 웡, 조니 리, 이고르 모다치, 조나단 톰슨. 암시적 행동 복제. 아카이브, 피인용 문서 아카이브 2109.00137, 2021.

[18] Aditya Ganapathi, Priya Sundaresan, Brijen Thananjeyan,
[18] 아디트 가나파티, 프리야 순다레산, 브리젠 타난제얀,
Ashwin Balakrishna, Daniel Seita, Jennifer Grannen, Minho Hwang, Ryan Hoque, Joseph Gonzalez, Nawid Jamali, Katsu Yamane, Soshi Iba, and Ken Goldberg. Learning dense visual correspondences in simulation to smooth and fold real fabrics. 2021 IEEE International Conference on Robotics and Automation (ICRA), pages 11515-11522, 2020.
Ashwin Balakrishna, 다니엘 세이타, 제니퍼 그라넨, 황민호, 라이언 호크, 조셉 곤잘레스, 나위드 자말리, 카츠 야마네, 소시 이바, 켄 골드버그. 시뮬레이션에서 조밀한 시각적 대응을 학습하여 실제 천을 매끄럽게 접고 다듬습니다. 2021 IEEE 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 11515-11522페이지, 2020.

[19] Jennifer Grannen, Priya Sundaresan, Brijen Thananjeyan, Jeffrey Ichnowski, Ashwin Balakrishna, Minho Hwang, Vainavi Viswanath, Michael Laskey, Joseph Gonzalez, and Ken Goldberg. Untangling dense knots by learning task-relevant keypoints. In Conference on Robot Learning, 2020.
[19] 제니퍼 그래넨, 프리야 순다레산, 브리젠 타난제얀, 제프리 이크노스키, 애쉬윈 발라크리쉬나, 황민호, 바이나비 비스와나트, 마이클 라스키, 조셉 곤잘레스, 켄 골드버그. 작업 관련 키포인트를 학습하여 복잡하게 얽힌 매듭 풀기. 로봇 학습 컨퍼런스, 2020.

[20] Huy Ha and Shuran Song. Flingbot: The unreasonable effectiveness of dynamic manipulation for cloth unfolding. ArXiv, abs/2105.03655, 2021.
[20] 후이 하와 슈란 송. 플링봇: 천 전개에 대한 동적 조작의 불합리한 효과. ArXiv, abs/2105.03655, 2021.

[21] Ankur Handa, Karl Van Wyk, Wei Yang, Jacky Liang, YuWei Chao, Qian Wan, Stan Birchfield, Nathan D. Ratliff, and Dieter Fox. Dexpilot: Vision-based teleoperation of dexterous robotic hand-arm system. 2020 IEEE International Conference on Robotics and Automation (ICRA), pages 9164-9170, 2019.
[21] 안쿠르 한다, 칼 반 위크, 웨이 양, 재키 량, 유웨이 차오, 첸 완, 스탠 버치필드, 네이선 D. 래틀리프, 디터 폭스. 덱스파일럿: 민첩한 로봇 손-팔 시스템의 비전 기반 원격 조작. 2020 IEEE 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 9164-9170페이지, 2019.

[22] Kaiming He, X. Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770-778, 2015.
22] 카이밍 허, X. 장, 샤오칭 렌, 지안 선. [22] 카이밍 허, X. 장, 샤오칭 렌, 지안 선. 이미지 인식을 위한 심층 잔여 학습. 2016 IEEE 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR), 770-778페이지, 2015.

[23] Irina Higgins, Loïc Matthey, Arka Pal, Christopher P. Burgess, Xavier Glorot, Matthew M. Botvinick, Shakir Mohamed, and Alexander Lerchner. beta-vae: Learning basic visual concepts with a constrained variational framework. In International Conference on Learning Representations, 2016.
[23] 이리나 히긴스, 로익 매티, 아르카 팔, 크리스토퍼 P. 버지스, 자비에 글로롯, 매튜 M. 보트비닉, 샤키르 모하메드, 알렉산더 러치너. 베타-배: 제한된 변형 프레임워크로 기본 시각 개념 학습하기. 학습 표현에 관한 국제 컨퍼런스, 2016.

[24] Ryan Hoque, Ashwin Balakrishna, Ellen R. Novoseller, Albert Wilcox, Daniel S. Brown, and Ken Goldberg. Thriftydagger: Budget-aware novelty and risk gating for interactive imitation learning. In Conference on Robot Learning, 2021.
[24] 라이언 호크, 애쉬윈 발라크리쉬나, 엘렌 R. 노보셀러, 앨버트 윌콕스, 다니엘 S. 브라운, 켄 골드버그. Thriftydagger: 대화형 모방 학습을 위한 예산 인식 참신성 및 위험 게이팅. 로봇 학습 컨퍼런스, 2021.

[25] Stephen James, Michael Bloesch, and Andrew J. Davison. Task-embedded control networks for few-shot imitation learning. ArXiv, abs/1810.03237, 2018.
[25] 스티븐 제임스, 마이클 블레쉬, 앤드류 데이비슨. 소수 샷 모방 학습을 위한 작업 임베디드 제어 네트워크. ArXiv, abs/1810.03237, 2018.

[26] Eric Jang, Alex Irpan, Mohi Khansari, Daniel Kappler, Frederik Ebert, Corey Lynch, Sergey Levine, and Chelsea Finn. Bc-z: Zero-shot task generalization with robotic imitation learning. In Conference on Robot Learning, 2022.
26] 에릭 장, 알렉스 이르판, 모히 칸사리, 다니엘 카플러, 프레데릭 에버트, 코리 린치, 세르게이 레빈, 첼시 핀. [26] 에릭 장, 알렉스 이르판, 모히 칸사리, 다니엘 카플러, 프레데릭 에버트, 코리 린치, 세르게이 레빈, 첼시 핀. Bc-z: 로봇 모방 학습을 통한 제로 샷 작업 일반화. 로봇 학습 컨퍼런스, 2022.

[27] R G Jenness and C D Wicker. Master-slave manipulators and remote maintenance at the oak ridge national laboratory, Jan 1975. URL https://www.osti.gov/biblio/4179544.
[27] R G 제니스와 C D 위커. 오크 리지 국립 연구소의 마스터-슬레이브 조작기 및 원격 유지 보수, 1975년 1월. URL https://www.osti.gov/biblio/4179544.

[28] Edward Johns. Coarse-to-fine imitation learning: Robot manipulation from a single demonstration. 2021 IEEE International Conference on Robotics and Automation (ICRA), pages 4613-4619, 2021.
[28] 에드워드 존스. 거친 모방에서 미세한 모방 학습: 단일 데모를 통한 로봇 조작. 2021 IEEE 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 4613-4619페이지, 2021.

[29] Liyiming Ke, Jingqiang Wang, Tapomayukh Bhattacharjee, Byron Boots, and Siddhartha Srinivasa. Grasping with chopsticks: Combating covariate shift in model-free imitation learning for fine manipulation. In International
[29] 리이밍 케, 징치앙 왕, 타포마유크 바타차르지, 바이런 부츠, 싯다르타 스리니바사. 젓가락으로 잡기: 미세 조작을 위한 모델 없는 모방 학습에서 공변량 이동에 대처하기. In 국제
Conference on Robotics and Automation (ICRA), 2021.
로봇 공학 및 자동화 컨퍼런스(ICRA), 2021.

[30] Michael Kelly, Chelsea Sidrane, K. Driggs-Campbell, and Mykel J. Kochenderfer. Hg-dagger: Interactive imitation learning with human experts. 2019 International Conference on Robotics and Automation (ICRA), pages 8077-8083, 2018.
[30] 마이클 켈리, 첼시 시드란, K. 드릭스-캠벨, 미켈 J. 코헨더퍼. Hg-dagger: 인간 전문가와의 대화형 모방 학습. 2019 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 8077-8083페이지, 2018.

[31] Heecheol Kim, Yoshiyuki Ohmura, and Yasuo Kuniyoshi. Gaze-based dual resolution deep imitation learning for high-precision dexterous robot manipulation. IEEE Robotics and Automation Letters, 6:1630-1637, 2021.
[31] 김희철, 오무라 요시유키, 쿠니요시 야스오. 고정밀 민첩한 로봇 조작을 위한 시선 기반 이중 해상도 심층 모방 학습. IEEE 로봇 공학 및 자동화 레터, 6:1630-1637, 2021.

[32] Heecheol Kim, Yoshiyuki Ohmura, and Yasuo Kuniyoshi. Robot peels banana with goal-conditioned dual-action deep imitation learning. ArXiv, abs/2203.09749, 2022.
[32] 김희철, 오무라 요시유키, 쿠니요시 야스오. 목표 조건부 이중 행동 심층 모방 학습으로 바나나 껍질을 벗기는 로봇. ArXiv, abs/2203.09749, 2022.

[33] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. CoRR, abs/1312.6114, 2013.
[33] 디에릭 킹마(Diederik P. Kingma)와 맥스 웰링. 변형 베이즈 자동 인코딩. CoRR, abs/1312.6114, 2013.

[34] Oliver Kroemer, Christian Daniel, Gerhard Neumann, Herke van Hoof, and Jan Peters. Towards learning hierarchical skills for multi-phase manipulation tasks. 2015 IEEE International Conference on Robotics and Automation (ICRA), pages 1503-1510, 2015.
[34] 올리버 크로머, 크리스찬 다니엘, 게르하르트 노이만, 헤르케 반 후프, 얀 피터스. 다단계 조작 작업을 위한 계층적 기술 학습을 향하여. 2015 IEEE 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 1503-1510페이지, 2015.

[35] Lucy Lai, Ann Z Huang, and Samuel J Gershman. Action chunking as policy compression, Sep 2022. URL psyarxiv. com/z8yrv.
[35] 루시 라이, 앤 Z 황, 사무엘 J 거쉬만. 정책 압축으로서의 액션 청킹, 2022년 9월. URL psyarxiv. com/z8yrv.

[36] Michael Laskey, Jonathan Lee, Roy Fox, Anca D. Dragan, and Ken Goldberg. Dart: Noise injection for robust imitation learning. In Conference on Robot Learning, 2017.
[36] 마이클 라스키, 조나단 리, 로이 폭스, 안카 D. 드라간, 켄 골드버그. Dart: 강력한 모방 학습을 위한 노이즈 주입. 로봇 학습 컨퍼런스, 2017.

[37] Alex X. Lee, Henry Lu, Abhishek Gupta, Sergey Levine, and P. Abbeel. Learning force-based manipulation of deformable objects from multiple demonstrations. 2015 IEEE International Conference on Robotics and Automation (ICRA), pages 177-184, 2015.
[37] Alex X. Lee, 헨리 루, 아비셰크 굽타, 세르게이 레빈, P. 아빌. 여러 데모를 통해 변형 가능한 물체의 힘 기반 조작 학습. 2015 IEEE 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 177-184페이지, 2015.

[38] Weiwei Li. Optimal control for biological movement systems. 2006.
[38] 웨이웨이 리. 생물학적 이동 시스템을 위한 최적의 제어. 2006.

[39] Ajay Mandlekar, Danfei Xu, J. Wong, Soroush Nasiriany, Chen Wang, Rohun Kulkarni, Li Fei-Fei, Silvio Savarese, Yuke Zhu, and Roberto Mart’in-Mart’in. What matters in learning from offline human demonstrations for robot manipulation. In Conference on Robot Learning, 2021.
[39] Ajay Mandlekar, Danfei Xu, J. Wong, Soroush Nasiriany, Chen Wang, Rohun Kulkarni, Li Fei-Fei, Silvio Savarese, Yuke Zhu, Roberto Mart'in-Mart'in. 로봇 조작을 위한 오프라인 인간 시연을 통한 학습의 중요성. 로봇 학습 컨퍼런스, 2021.

[40] Kunal Menda, K. Driggs-Campbell, and Mykel J. Kochenderfer. Ensembledagger: A bayesian approach to safe imitation learning. 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 5041-5048, 2018.
[40] 쿠날 멘다, K. 드릭스-캠벨, 미켈 J. 코헨더퍼. 앙상블 대거: 안전한 모방 학습을 위한 베이지안 접근법. 2019 IEEE/RSJ 지능형 로봇 및 시스템 국제 컨퍼런스(IROS), 5041-5048페이지, 2018.

[41] Samuel Paradis, Minho Hwang, Brijen Thananjeyan, Jeffrey Ichnowski, Daniel Seita, Danyal Fer, Thomas Low, Joseph Gonzalez, and Ken Goldberg. Intermittent visual servoing: Efficiently learning policies robust to instrument changes for high-precision surgical manipulation. 2021 IEEE International Conference on Robotics and Automation (ICRA), pages 7166-7173, 2020.
[41] 사무엘 파라디스, 황민호, 브리젠 타난제얀, 제프리 이크노스키, 다니엘 세이타, 다얄 페르, 토마스 로우, 조셉 곤잘레스, 켄 골드버그. 간헐적 시각적 서보: 고정밀 수술 조작을 위한 기기 변경에 강력한 정책을 효율적으로 학습합니다. 2021 IEEE 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 7166-7173페이지, 2020.

[42] Jyothish Pari, Nur Muhammad, Sridhar Pandian Arunachalam, and Lerrel Pinto. The surprising effectiveness of representation learning for visual imitation. arXiv preprint arXiv:2112.01511, 2021.
[42] 조티쉬 파리, 누르 무하마드, 스리다르 판디안 아루나찰람, 레렐 핀토. 시각적 모방을 위한 표현 학습의 놀라운 효과. arXiv 사전 인쇄본 arXiv:2112.01511, 2021.

[43] Peter Pastor, Heiko Hoffmann, Tamim Asfour, and Stefan
[43] 피터 패스터, 하이코 호프만, 타밈 아스푸어, 스테판
Schaal. Learning and generalization of motor skills by learning from demonstration. 2009 IEEE International Conference on Robotics and Automation, pages 763-768, 2009.
Schaal. 데모를 통한 운동 기술 학습 및 일반화. 2009 IEEE 로봇 공학 및 자동화 국제 컨퍼런스, 763-768페이지, 2009.

[44] Dean A. Pomerleau. Alvinn: An autonomous land vehicle in a neural network. In NIPS, 1988.
[44] 딘 A. 포메로. 알빈: 신경망의 자율 육상 차량. In NIPS, 1988.

[45] Yuzhe Qin, Hao Su, and Xiaolong Wang. From one hand to multiple hands: Imitation learning for dexterous manipulation from single-camera teleoperation. IEEE Robotics and Automation Letters, 7:10873-10881, 2022.
[45] 유제 친, 하오 수, 왕 샤오롱. 한 손에서 여러 손으로: 단일 카메라 원격 조작을 통한 민첩한 조작을 위한 모방 학습. IEEE 로봇 공학 및 자동화 레터, 7:10873-10881, 2022.

[46] Rouhollah Rahmatizadeh, Pooya Abolghasemi, Ladislau Bölöni, and Sergey Levine. Vision-based multi-task manipulation for inexpensive robots using end-to-end learning from demonstration. 2018 IEEE International Conference on Robotics and Automation (ICRA), pages 3758-3765, 2017.
[46] 루홀라 라흐마티자데, 푸야 아볼가세미, 라디슬라우 뵐로니, 세르게이 레빈. 데모를 통한 엔드투엔드 학습을 사용하는 저렴한 로봇을 위한 비전 기반 멀티태스크 조작. 2018 IEEE 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 3758-3765페이지, 2017.

[47] Stéphane Ross, Geoffrey J. Gordon, and J. Andrew Bagnell. A reduction of imitation learning and structured prediction to no-regret online learning. In International Conference on Artificial Intelligence and Statistics, 2010.
[47] 스테판 로스, 제프리 J. 고든, J. 앤드류 바그넬. 모방 학습의 감소와 후회 없는 온라인 학습을 위한 구조화된 예측. 인공 지능 및 통계에 관한 국제 컨퍼런스, 2010.

[48] Seyed Sina Mirrazavi Salehian, Nadia Figueroa, and Aude Billard. A unified framework for coordinated multi-arm motion planning. The International Journal of Robotics Research, 37:1205-1232, 2018.
[48] 세예드 시나 미라자비 살레히안, 나디아 피게로아, 오드 빌라드. 조정된 다중 팔 동작 계획을 위한 통합 프레임워크. 국제 로봇 연구 저널, 37:1205-1232, 2018.

[49] Nur Muhammad (Mahi) Shafiullah, Zichen Jeff Cui, Ariuntuya Altanzaya, and Lerrel Pinto. Behavior transformers: Cloning k modes with one stone. ArXiv, abs/2206.11251, 2022.
[49] 누르 무하마드 (마히) 샤피울라, 지첸 제프 쿠이, 아리운투야 알탄자야, 레럴 핀토. 행동 트랜스포머: 일석이조의 복제 모드. ArXiv, abs/2206.11251, 2022.

[50] Kaushik Shivakumar, Vainavi Viswanath, Anrui Gu, Yahav Avigal, Justin Kerr, Jeffrey Ichnowski, Richard Cheng, Thomas Kollar, and Ken Goldberg. Sgtm 2.0: Autonomously untangling long cables using interactive perception. ArXiv, abs/2209.13706, 2022.
[50] 카우식 시바쿠마르, 바이나비 비스와나트, 안루이 구, 야하브 아비갈, 저스틴 커, 제프리 이크노스키, 리처드 청, 토마스 칼라, 켄 골드버그. Sgtm 2.0: 대화형 인식을 사용하여 긴 케이블을 자율적으로 풀기. ArXiv, abs/2209.13706, 2022.

[51] Mohit Shridhar, Lucas Manuelli, and Dieter Fox. Cliport: What and where pathways for robotic manipulation. ArXiv, abs/2109.12098, 2021.
[51] 모히트 슈리다르, 루카스 마누엘리, 디터 폭스. 클립포트: 로봇 조작을 위한 경로의 종류와 위치. ArXiv, abs/2109.12098, 2021.

[52] Mohit Shridhar, Lucas Manuelli, and Dieter Fox. Perceiver-actor: A multi-task transformer for robotic manipulation. ArXiv, abs/2209.05451, 2022.
[52] 모히트 슈리다르, 루카스 마누엘리, 디터 폭스. 지각자-행위자: 로봇 조작을 위한 멀티태스크 트랜스포머. ArXiv, abs/2209.05451, 2022.

[53] Aravind Sivakumar, Kenneth Shaw, and Deepak Pathak. Robotic telekinesis: Learning a robotic hand imitator by watching humans on youtube. RSS, 2022.
[53] 아라빈드 시바쿠마르, 케네스 쇼, 디팍 파탁. 로봇 염력: 유튜브에서 인간을 보면서 로봇 손 모방 배우기. RSS, 2022.

[54] Christian Smith, Yiannis Karayiannidis, Lazaros Nalpantidis, Xavi Gratal, Peng Qi, Dimos V. Dimarogonas, and Danica Kragic. Dual arm manipulation - a survey. Robotics Auton. Syst., 60:1340-1353, 2012.
[54] 크리스찬 스미스, 이아니스 카라얀니디스, 라자로스 날판티디스, 자비 그라탈, 펭 치, 디모스 V. 디마로고나스, 다니카 크라직. 양팔 조작 - 설문 조사. Robotics Auton. 시스템, 60:1340-1353, 2012.

[55] Kihyuk Sohn, Honglak Lee, and Xinchen Yan. Learning structured output representation using deep conditional generative models. In NIPS, 2015.
55] 손기혁, 이홍락, 신첸 얀. [55] 손기혁, 이홍락, 신첸 얀. 심층 조건 생성 모델을 이용한 구조화된 출력 표현 학습. In NIPS, 2015.

[56] srcteam. Shadow teleoperation system plays jenga, Mar 2021. URL https://www.youtube.com/watch?v= 7K9brH27jvM.
[56] srcteam. 섀도우 원격 운영 시스템으로 젠가 플레이, 2021 년 3 월. URL https://www.youtube.com/watch?v= 7K9brH27jvM.

[57] srcteam. How researchers are using shadow robot’s technology, Jun 2022. URL https://www.youtube.com/ watch? v=p36fYIoTD8M.
[57] srcteam. 연구자들이 섀도우 로봇의 기술을 사용하는 방법, 2022년 6월. URL https://www.youtube.com/ watch? v=p36fYIoTD8M.

[58] srcteam. Shadow teleoperation system, Jun 2022. URL
[58] srcteam. 섀도우 원격 운영 시스템, 2022년 6월. URL

https://www.youtube.com/watch?v=cx8eznfDUJA
[59] Simon Stepputtis, Maryam Bandari, Stefan Schaal, and Heni Ben Amor. A system for imitation learning of contact-rich bimanual manipulation policies. 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 11810-11817, 2022.
[59] 사이먼 스테푸티스, 마리암 반다리, 스테판 샬, 헤니 벤 아모르. 접촉이 풍부한 이중 수동 조작 정책의 모방 학습을 위한 시스템. 2022 IEEE/RSJ 지능형 로봇 및 시스템 국제 컨퍼런스(IROS), 페이지 11810-11817, 2022.

[60] Priya Sundaresan, Jennifer Grannen, Brijen Thananjeyan, Ashwin Balakrishna, Jeffrey Ichnowski, Ellen R. Novoseller, Minho Hwang, Michael Laskey, Joseph Gonzalez, and Ken Goldberg. Untangling dense non-planar knots by learning manipulation features and recovery policies. ArXiv, abs/2107.08942, 2021.
[60] 프리야 순다레산, 제니퍼 그래넨, 브리젠 타난제얀, 애쉬윈 발라크리쉬나, 제프리 이크노스키, 엘렌 R. 노보셀러, 황민호, 마이클 라스키, 조셉 곤잘레스, 켄 골드버그. 조작 기능과 복구 정책을 학습하여 조밀하게 얽힌 비평면 매듭 풀기. ArXiv, abs/2107.08942, 2021.

[61] Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, and Zhiwei Steven Wu. Causal imitation learning under temporally correlated noise. In International Conference on Machine Learning, 2022.
61] 고쿨 스와미, 산지반 초두리, J. 앤드류 바그넬, 지웨이 스티븐 우. [61] 고쿨 스와미, 산지반 초두리, 지웨이 스티븐 우. 시간적 상관관계가 있는 노이즈 하에서의 인과적 모방 학습. 국제 기계 학습 컨퍼런스, 2022.

[62] Naftali Tishby and Noga Zaslavsky. Deep learning and the information bottleneck principle. 2015 IEEE Information Theory Workshop (ITW), pages 1-5, 2015.
[62] 나프탈리 티쉬비, 노가 자슬라브스키. 딥러닝과 정보 병목 현상 원리. 2015 IEEE 정보 이론 워크숍(ITW), 1-5페이지, 2015.

[63] Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 5026-5033, 2012.
[63] 엠마누엘 토도로프, 톰 에레즈, 유발 타사. Mujoco: 모델 기반 제어를 위한 물리 엔진. 2012 IEEE/RSJ 지능형 로봇 및 시스템에 관한 국제 컨퍼런스, 5026-5033 페이지, 2012.

[64] Stephen Tu, Alexander Robey, Tingnan Zhang, and N. Matni. On the sample complexity of stability constrained imitation learning. In Conference on Learning for Dynamics & Control, 2021.
[64] 스티븐 투, 알렉산더 로비, 팅난 장, N. 마트니. 안정성 제약 모방 학습의 샘플 복잡성에 대해. 역학 및 제어를 위한 학습 컨퍼런스, 2021.

[65] Ashish Vaswani, Noam M. Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. ArXiv, abs/1706.03762, 2017.
[65] 아시시 바스와니, 노암 M. 샤제르, 니키 파마르, 야콥 우슈코라이트, 라이온 존스, 에이단 N. 고메즈, 루카스 카이저, 일리아 폴로수킨. 관심만 있으면 됩니다. ArXiv, abs/1706.03762, 2017.

[66] Solomon Wiznitzer, Luke Schmitt, and Matt Trossen. interbotix_ros_manipulators. URL https://github.com/ Interbotix/interbotix_ros_manipulators.
[66] 솔로몬 위즈니처, 루크 슈미트, 매트 트로센 인터보틱스_ros_매니퓰레이터. URL https://github.com/ 인터보틱스/인터보틱스_ros_매니퓰레이터.

[67] Fan Xie, A. M. Masum Bulbul Chowdhury, M. Clara De Paolis Kaluza, Linfeng Zhao, Lawson L. S. Wong, and Rose Yu. Deep imitation learning for bimanual robotic manipulation. ArXiv, abs/2010.05134, 2020.
[67] 판 시에, A. M. 마숨 불불 차우두리, M. 클라라 드 파올리스 칼루자, 린펑 자오, 로슨 L. S. 웡, 로즈 유. 양손 로봇 조작을 위한 심층 모방 학습. ArXiv, abs/2010.05134, 2020.

[68] Andy Zeng, Peter R. Florence, Jonathan Tompson, Stefan Welker, Jonathan Chien, Maria Attarian, Travis Armstrong, Ivan Krasin, Dan Duong, Vikas Sindhwani, and Johnny Lee. Transporter networks: Rearranging the visual world for robotic manipulation. In Conference on Robot Learning, 2020.
68] 앤디 젱, 피터 R. 플로렌스, 조나단 톰슨, 스테판 웰커, 조나단 치엔, 마리아 아타리안, 트래비스 암스트롱, 이반 크라신, 댄 두옹, 비카스 신드화니, 조니 리. [68] 앤디 젱, 피터 R. 플로렌스, 조나단 톰슨, 스테판 웰커, 조나단 치엔. 트랜스포터 네트워크: 로봇 조작을 위한 시각적 세계 재배치. 로봇 학습 컨퍼런스, 2020.

[69] Tianhao Zhang, Zoe McCarthy, Owen Jow, Dennis Lee, Ken Goldberg, and P. Abbeel. Deep imitation learning for complex manipulation tasks from virtual reality teleoperation. 2018 IEEE International Conference on Robotics and Automation (ICRA), pages 1-8, 2017.
[69] 천하오 장, 조이 맥카시, 오웬 조우, 데니스 리, 켄 골드버그, P. 아빌. 가상현실 원격 조작에서 복잡한 조작 작업을 위한 심층 모방 학습. 2018 IEEE 국제 로봇 공학 및 자동화 컨퍼런스(ICRA), 1-8페이지, 2017.

[70] Allan Zhou, Moo Jin Kim, Lirui Wang, Peter R. Florence, and Chelsea Finn. Nerf in the palm of your hand: Corrective augmentation for robotics via novel-view synthesis. ArXiv, abs/2301.08556, 2023.
[70] 앨런 저우, 김무진, 리루이 왕, 피터 R. 플로렌스, 첼시 핀. 손안의 너프: 새로운 시각 합성을 통한 로봇 공학용 보정 증강. ArXiv, abs/2301.08556, 2023.

[71] Áron Horváth, Eszter Ferentzi, Kristóf Schwartz, Nina Jacobs, Pieter Meyns, and Ferenc Köteles. The measurement of proprioceptive accuracy: A systematic literature
[71] 아론 호르바스, 에스테르 페렌츠, 크리스토프 슈워츠, 니나 제이콥스, 피터 마인스, 페렌츠 쾨텔레스. 고유 수용성 정확도 측정: 체계적인 문헌 연구

review. Journal of Sport and Health Science, 2022. ISSN 2095-2546. doi: https://doi.org/10.1016/j.jshs.2022.04. 001. URL https://www.sciencedirect.com/science/article/ pii/S2095254622000473.
리뷰. 스포츠 및 건강 과학 저널, 2022. ISSN 2095-2546. 도이: https://doi.org/10.1016/j.jshs.2022.04. 001. URL https://www.sciencedirect.com/science/article/ pii/S2095254622000473.

Appendix  부록

A. Comparing ALOHA with Prior Teleoperation Setups
A. ALOHA와 이전 원격 운영 설정 비교하기

In Figure 9, we include more teleoperated tasks that ALOHA is capable of. We stress that all objects are taken directly from the real world without any modification, to demonstrate ALOHA’s generality in real life settings.
그림 9에는 ALOHA가 수행할 수 있는 더 많은 원격 조작 작업이 포함되어 있습니다. 실제 환경에서 ALOHA의 범용성을 보여주기 위해 모든 객체를 수정하지 않고 실제 세계에서 직접 가져왔다는 점을 강조합니다.
ALOHA exploits the kinesthetic similarity between leader and follower robots by using joint-space mapping for teleoperation. A leader-follower design choice dates back to at least as far as 1953, when Central Research Laboratories built teleoperation systems for handling hazardous material [27]. More recently, companies like RE2 [3] also built highly dexterous teleoperation systems with joint-space mapping. ALOHA is similar to these previous systems, while benefiting significantly from recent advances of low-cost actuators and robot arms. It allows us to achieve similar levels of dexterity with much lower cost, and also without specialized hardware or expert assembly.
ALOHA는 원격 조작을 위해 공동 공간 매핑을 사용하여 리더 로봇과 팔로워 로봇 간의 운동 감각적 유사성을 활용합니다. 리더-팔로워 설계는 적어도 1953년 중앙 연구소에서 위험 물질 취급을 위한 원격 조작 시스템을 구축했을 때로 거슬러 올라갑니다[27]. 최근에는 RE2[3]와 같은 회사에서도 공동 공간 매핑을 통해 고도로 숙련된 원격 운영 시스템을 구축했습니다. ALOHA는 이러한 이전 시스템과 유사하지만, 최근 저비용 액추에이터와 로봇 팔의 발전으로 상당한 이점을 누리고 있습니다. 이를 통해 훨씬 저렴한 비용으로 비슷한 수준의 민첩성을 달성할 수 있으며, 특수 하드웨어나 전문가 조립 없이도 가능합니다.
Next, we compare the cost of A L O H A A L O H A ALOHAA L O H A to recent teleoperation systems. DexPilot [21] controls a dexterous hand using image streams of a human hand. It has 4 calibrated Intel Realsense to capture the point cloud of a human hand, and retarget the pose to an Allegro hand. The Allegro hand is then mounted to a KUKA LBR iiwa7 R800. DexPilot allows for impressive tasks such as extracting money from a wallet, opening a penut jar, and insertion tasks in NIST board #1. We estimate the system cost to be around $ 100 k $ 100 k $100k\$ 100 \mathrm{k} with one arm+hand. More recent works such as Robotic Telekinesis [53, 6, 45] seek to reduce the cost of DexPilot by using a single RGB camera to detect hand pose, and retarget using learning techniques. While sensing cost is greatly reduced, the cost for robot hand and arm remains high: a dexterous hand has more degrees of freedom and is naturally pricier. Moving the hand around would also require an industrial arm with at least 2 kg payload, increasing the price further. We estimate the cost of these systems to be around $18k with one arm+hand. Lastly, the Shadow Teleoperation System is a bimanual system for teleoperating two dexterous hands. Both hands are mounted to a UR10 robot, and the hand pose is obtained by either a tracking glove or a haptic glove. This system is the most capable among all aforementioned works, benefitted from its bimanual design. However, it also costs the most, at at least $ 400 k $ 400 k $400k\$ 400 \mathrm{k}. A L O H A A L O H A ALOHAA L O H A, on the other hand, is a bimanual setup that costs $ 18 k $ 18 k $18k\$ 18 \mathrm{k} ( $ 20 k $ 20 k $20k\$ 20 \mathrm{k} after adding optional add-ons such as cameras). Reducing dexterous hands to parallel jaw grippers allows us to use light-weight and low-cost robots, which can be more nimble and require less service.
다음으로 A L O H A A L O H A ALOHAA L O H A 의 비용을 최근의 원격 조작 시스템과 비교해 보겠습니다. DexPilot [21]은 사람 손의 이미지 스트림을 사용하여 손재주 있는 손을 제어합니다. 이 시스템은 4개의 보정된 인텔 리얼센스를 통해 사람 손의 포인트 클라우드를 캡처하고 포즈를 알레그로 손에 다시 타겟팅합니다. 그런 다음 알레그로 핸드는 KUKA LBR iiwa7 R800에 장착됩니다. 덱스파일럿은 지갑에서 돈을 꺼내거나, 페넛 병을 열거나, NIST 보드 #1에 삽입하는 작업과 같은 인상적인 작업을 수행할 수 있습니다. 시스템 비용은 한 팔+손으로 $ 100 k $ 100 k $100k\$ 100 \mathrm{k} 정도일 것으로 예상합니다. 로봇 염력[53, 6, 45]과 같은 최신 연구에서는 단일 RGB 카메라를 사용하여 손의 자세를 감지하고 학습 기법을 사용하여 재타겟팅함으로써 DexPilot의 비용을 절감하고자 합니다. 감지 비용은 크게 줄었지만 로봇 손과 팔의 비용은 여전히 높습니다. 손의 자유도가 높을수록 자연히 가격이 더 비싸지기 때문입니다. 또한 손을 움직이려면 최소 2kg의 하중을 가진 산업용 팔이 필요하므로 가격이 더 높아집니다. 이러한 시스템의 가격은 한쪽 팔+손을 기준으로 약 1만 8천 달러로 추정됩니다. 마지막으로 그림자 원격 조작 시스템은 두 손을 원격으로 조작할 수 있는 양손 시스템입니다. 양손은 UR10 로봇에 장착되며 손의 자세는 트래킹 장갑 또는 햅틱 장갑을 통해 얻습니다. 이 시스템은 앞서 언급한 모든 작업 중 가장 성능이 뛰어나며 양손 설계의 이점을 누릴 수 있습니다. 하지만 비용이 가장 많이 들기도 하는데, 최소 $ 400 k $ 400 k $400k\$ 400 \mathrm{k} . 반면에 A L O H A A L O H A ALOHAA L O H A $ 18 k $ 18 k $18k\$ 18 \mathrm{k} (카메라 등 옵션 추가 기능 추가 후 $ 20 k $ 20 k $20k\$ 20 \mathrm{k} )의 비용이 드는 바이매뉴얼 설정입니다. 평행 턱 그리퍼로 손이 필요 없어지면 가볍고 저렴한 로봇을 사용할 수 있어 더 민첩하고 서비스가 덜 필요할 수 있습니다.
Finally, we compare the capabilities of A L O H A A L O H A ALOHAA L O H A with previous systems. We choose the most capable system as reference: the Shadow Teleoperation System [5], which costs more than 10x of ALOHA. Specifically, we found three demonstration videos [56, 57, 58] that contain 15 example use cases of the Shadow Teleoperation System, and seek to recreate them using ALOHA. The tasks include playing “beer pong”, “jenga,” and a rubik’s cube, using a dustpan and brush, twisting open a water bottle, pouring liquid out, untying velcro cable tie, picking up an egg and a light bulb, inserting and unplugging USB, RJ45, using a
마지막으로 A L O H A A L O H A ALOHAA L O H A 의 기능을 이전 시스템과 비교합니다. 가장 성능이 뛰어난 시스템인 섀도우 원격 운영 시스템[5]을 기준으로 선택했는데, 이 시스템은 ALOHA의 10배가 넘는 비용이 듭니다. 특히 섀도우 텔레 오퍼레이션 시스템의 15가지 사용 사례가 포함된 3개의 데모 비디오[56, 57, 58]를 찾아 ALOHA를 사용하여 이를 재현하고자 합니다. '비어퐁', '젠가', 루빅 큐브 게임, 쓰레받기와 브러시 사용, 물병 비틀기, 액체 따르기, 벨크로 케이블 타이 풀기, 계란과 전구 집기, USB, RJ45 꽂고 빼기 등 다양한 작업이 포함되어 있습니다.

pipette, writing, twisting open an aluminum case, and in-hand rotation of Baoding balls. We are able to recreate 14 out of the 15 tasks with similar objects and comparable amount of time. We cannot recreate the Baoding ball in-hand rotation task, as our setup does not have a hand.
피펫, 글씨 쓰기, 알루미늄 케이스 비틀기, 바오딩 공 손으로 돌리기. 15개 과제 중 14개 과제는 비슷한 물체와 비슷한 시간으로 재현할 수 있었습니다. 바오딩 공 손으로 돌리기 과제는 손이 없기 때문에 재현할 수 없습니다.

B. Example Image Observations
B. 이미지 관찰 예시

We include example image observations taken during policy execution time in Figure 10, for each of the 6 real tasks. From left to right, the 4 images are from top camera, front camera, left wrist, and right wrist respectively. The top and front cameras are static, while the wrist cameras move with the robots and give detailed views of the gripper. We also rotate the front camera by 90 degrees to capture more vertical space. For all cameras, the focal length is fixed with auto-exposure on to adjust for changing lighting conditions. All cameras steam at 480 × 640 480 × 640 480 xx640480 \times 640 and 30fps.
그림 10에는 6개의 실제 작업 각각에 대해 정책 실행 시간 동안 촬영된 이미지 관찰 예시가 포함되어 있습니다. 왼쪽에서 오른쪽으로 4개의 이미지는 각각 상단 카메라, 전면 카메라, 왼쪽 손목, 오른쪽 손목에서 촬영한 것입니다. 상단 카메라와 전면 카메라는 고정되어 있는 반면 손목 카메라는 로봇과 함께 움직이며 그리퍼를 자세히 보여줍니다. 또한 전면 카메라는 90도 회전하여 더 많은 수직 공간을 포착합니다. 모든 카메라의 초점 거리는 변화하는 조명 조건에 맞게 조정하기 위해 자동 노출이 켜진 상태로 고정되어 있습니다. 모든 카메라는 480 × 640 480 × 640 480 xx640480 \times 640 및 30fps로 촬영합니다.

C. Detailed Architecture Diagram
C. 상세 아키텍처 다이어그램

We include a more detailed architecture diagram in Figure 11 At training time, we first sample tuples of RGB images and joint positions, together with the corresponding action sequence as prediction target (Step 1: sample data). We then infer style variable z z zz using CVAE encoder shown in yellow (Step 2: infer z z zz ). The input to the encoder are 1) the [CLS] token, which consists of learned weights that are randomly initialized, 2) embedded joint positions, which are joint positions projected to the embedding dimension using a linear layer, 3) embedded action sequence, which is the action sequence projected to the embedding dimension using another linear layer. These inputs form a sequence of ( k + 2 ) × ( k + 2 ) × (k+2)xx(k+2) \times embedding_dimension, and is processed with the transformer encoder. We only take the first output, which corresponds to the [CLS] token, and use another linear network to predict the mean and variance of z z zz 's distribution, parameterizing it as a diagonal Gaussian. A sample of z z zz is obtained using reparameterization, a standard way to allow back-propagating through the sampling process so the encoder and decoder can be jointly optimized [33].
그림 11에 더 자세한 아키텍처 다이어그램이 포함되어 있습니다. 학습 시에는 먼저 해당 동작 시퀀스와 함께 RGB 이미지와 관절 위치의 튜플을 예측 대상으로 샘플링합니다(1단계: 샘플 데이터). 그런 다음 노란색으로 표시된 CVAE 인코더를 사용하여 스타일 변수 z z zz 을 추론합니다(2단계: 추론 z z zz ). 인코더에 입력되는 것은 1) 무작위로 초기화된 학습 가중치로 구성된 [CLS] 토큰, 2) 선형 레이어를 사용하여 임베딩 차원에 투영된 관절 위치인 임베딩 관절 위치, 3) 다른 선형 레이어를 사용하여 임베딩 차원에 투영된 동작 시퀀스인 임베딩 동작 시퀀스입니다. 이러한 입력은 ( k + 2 ) × ( k + 2 ) × (k+2)xx(k+2) \times 임베딩_차원의 시퀀스를 형성하며, 트랜스포머 인코더로 처리됩니다. CLS] 토큰에 해당하는 첫 번째 출력만 가져와 다른 선형 네트워크를 사용하여 z z zz 분포의 평균과 분산을 예측하고 이를 대각선 가우시안으로 매개변수화합니다. 샘플링 프로세스를 통해 역전파를 허용하여 인코더와 디코더가 공동으로 최적화될 수 있도록 하는 표준 방법인 재파라미터화를 사용하여 z z zz 의 샘플을 얻습니다[33].
Next, we try to obtain the predicted action from CVAE decoder i.e. the policy (Step 3: predict action sequence). For each of the image observations, it is first processed by a ResNet18 to obtain a feature map, and then flattened to get a sequence of features. These features are projected to the embedding dimension with a linear layer, and we add a 2D sinusoidal position embedding to perserve the spatial information. The feature sequence from each camera is then concatenated to be used as input to the transformer encoder. Two additional inputs are joint positions and z z zz, which are also projected to the embedding dimension with two linear layers respectively. The output of the transformer encoder are then used as both “keys” and “values” in cross attention layers of the transformer decoder, which predicts action sequence given encoder output. The “queries” are fixed sinusoidal embeddings for the first layer.
다음으로 CVAE 디코더에서 예측된 동작, 즉 정책을 얻으려고 합니다(3단계: 동작 시퀀스 예측). 각 이미지 관측에 대해 먼저 ResNet18로 처리하여 특징 맵을 얻은 다음 평탄화하여 특징의 시퀀스를 얻습니다. 이러한 특징은 선형 레이어로 임베딩 차원에 투영되며, 공간 정보를 보존하기 위해 2D 정현파 위치 임베딩을 추가합니다. 그런 다음 각 카메라의 특징 시퀀스를 연결하여 트랜스포머 인코더에 입력으로 사용합니다. 두 개의 추가 입력은 조인트 위치와 z z zz 이며, 각각 두 개의 선형 레이어로 임베딩 차원에 투영됩니다. 그런 다음 트랜스포머 인코더의 출력은 트랜스포머 디코더의 교차 주의 레이어에서 "키"와 "값"으로 사용되어 인코더 출력이 주어진 동작 순서를 예측합니다. '쿼리'는 첫 번째 레이어에 대한 고정 정현파 임베딩입니다.
At test time, the CVAE encoder (shown in yellow) is discarded and the CVAE decoder is used as the policy. The
테스트 시에는 CVAE 인코더(노란색으로 표시됨)가 폐기되고 CVAE 디코더가 정책으로 사용됩니다. 그리고

Fig. 9: Teleoperation task examples with A L O H A A L O H A ALOHAA L O H A. We include videos on the project website
그림 9: A L O H A A L O H A ALOHAA L O H A 를 사용한 원격 운영 작업 예시. 프로젝트 웹사이트에 동영상이 포함되어 있습니다.

incoming observations (images and joints) are fed into the model in the same way as during training. The only difference is in z z zz, which represents the “style” of the action sequence we want to elicit from the policy. We simply set z z zz to a zero vector, which is the mean of the unit Gaussian prior used during training. Thus given an observation, the output of the policy is always deterministic, benefiting policy evaluation.
들어오는 관찰(이미지와 관절)은 훈련할 때와 같은 방식으로 모델에 입력됩니다. 유일한 차이점은 정책에서 도출하려는 작업 시퀀스의 '스타일'을 나타내는 z z zz 에 있습니다. z z zz 은 훈련 중에 사용된 단위 가우스 선행의 평균인 0 벡터로 설정하기만 하면 됩니다. 따라서 관측값이 주어지면 정책의 출력은 항상 결정론적이어서 정책 평가에 도움이 됩니다.

D. Experiment Details and Hyperparameters
D. 실험 세부 정보 및 하이퍼파라미터

We carefully tune the baselines and include the hyperparameters used in Table I I I , I V , V , V I , V I I , F o r B e T , w e f o u n d I I I , I V , V , V I , V I I , F o r B e T , w e f o u n d III,IV,V,VI,VII,ForBeT,wefoundI I I, ~ I V, ~ V, ~ V I, ~ V I I, ~ F o r ~ B e T, ~ w e ~ f o u n d ~ that increasing history length from 10 (as in original paper) to 100 greatly improves the performance. Large hidden dimension also generally helps. For VINN, the k used when retrieving nearest neighbor is adaptively chosen with the lowest validation loss, same as the original paper. We also found that using joint position differences in addition to visual feature similarity improves performance when there is no action chunking, in which case we have state weight = 10 = 10 =10=10 when retrieving actions. However, we found this to hurt performance with action chunking and thus set state weight to 0 for action chunking experiments.
기준선을 신중하게 조정하고 표 I I I , I V , V , V I , V I I , F o r B e T , w e f o u n d I I I , I V , V , V I , V I I , F o r B e T , w e f o u n d III,IV,V,VI,VII,ForBeT,wefoundI I I, ~ I V, ~ V, ~ V I, ~ V I I, ~ F o r ~ B e T, ~ w e ~ f o u n d ~ 에 사용된 하이퍼파라미터를 포함시켜 히스토리 길이를 10(원본 논문에서처럼)에서 100으로 늘리면 성능이 크게 향상된다는 사실을 확인했습니다. 숨겨진 차원을 크게 설정하는 것도 일반적으로 도움이 됩니다. VINN의 경우, 가장 가까운 이웃을 검색할 때 사용되는 k는 원본 논문과 동일하게 검증 손실이 가장 낮은 것으로 적응적으로 선택됩니다. 또한 시각적 특징 유사성 외에 관절 위치 차이를 사용하면 액션 청킹이 없는 경우, 즉 액션을 검색할 때 상태 가중치가 = 10 = 10 =10=10 인 경우 성능이 향상된다는 사실을 발견했습니다. 하지만 동작 청킹을 사용하면 성능이 저하되는 것으로 확인되어 동작 청킹 실험에서는 상태 가중치를 0으로 설정했습니다.

E. User Study Details
E. 사용자 연구 세부 정보

We conduct the user study with 6 participants, recruited from computer science graduate students, with 4 men and 2 women aged 22-25. 3 of the participants had experience
컴퓨터 공학 대학원생 중에서 모집한 22~25세의 남성 4명, 여성 2명으로 총 6명의 참가자를 대상으로 사용자 연구를 진행했습니다. 참가자 중 3명은

teleoperating robots with a VR controller, and the other 3 has no prior experience teleoperating. None of the participants used ALOHA before. To implement the 5 Hz version of A L O H A A L O H A ALOHAA L O H A, we read from the leader robot at 5 Hz , interpolate in the joint space, and send the interpolated positions to the robot at 50 Hz . We choose tasks that emphasizes high-precision and close-loop visual feedback. We include images of the objects used in Figure 12. For threading zip cable tie, the hole measures 4 mm x 1.5 mm , and the cable tie measures 0.8 mm × 3.5 mm 0.8 mm × 3.5 mm 0.8mmxx3.5mm0.8 \mathrm{~mm} \times 3.5 \mathrm{~mm} with a pointy tip. It is initially lying flat on the table, and the operator needs to pick it up with one gripper, grasp the other end midair, then coordinate both hands to insert one end of the cable tie into the hole on the other end. For unstacking cup, we use two single-use plastic cups that has 2.5 mm clearance between them when stacked. The teleoperator need to grasp the edge of upper cup, then either shake to separate or use the help from the other gripper. During the user study, we randomize the order in which operators attempt each task, and whether they use 50 Hz or 5 Hz controller first. We also randomize the initial position of the object randomly around the table center. For each setting, the operator has 2 minutes to adapt, followed by 3 consecutive attempts of the task with duration recorded.
VR 컨트롤러로 로봇을 원격 조종한 경험이 있고, 나머지 3명은 원격 조종 경험이 없습니다. 참가자 중 누구도 알로하를 사용해 본 적이 없었습니다. 5Hz 버전의 A L O H A A L O H A ALOHAA L O H A 을 구현하기 위해 리더 로봇에서 5Hz로 읽고 관절 공간에서 보간한 후 보간된 위치를 50Hz로 로봇에 보냅니다. 우리는 고정밀 및 클로즈 루프 시각적 피드백을 강조하는 작업을 선택합니다. 그림 12에 사용된 물체의 이미지가 포함되어 있습니다. 스레딩 지퍼 케이블 타이의 경우 구멍의 크기는 4mm x 1.5mm이고 케이블 타이의 끝이 뾰족한 0.8 mm × 3.5 mm 0.8 mm × 3.5 mm 0.8mmxx3.5mm0.8 \mathrm{~mm} \times 3.5 \mathrm{~mm} 크기입니다. 처음에는 테이블 위에 평평하게 놓여 있으며 작업자는 한쪽 그리퍼로 집어 들고 다른 쪽 끝을 공중에 잡은 다음 양손을 조정하여 케이블 타이의 한쪽 끝을 다른 쪽 끝의 구멍에 삽입해야 합니다. 컵을 쌓을 때는 쌓았을 때 2.5mm 간격이 있는 일회용 플라스틱 컵 두 개를 사용합니다. 텔레 오퍼레이터는 위쪽 컵의 가장자리를 잡고 흔들어서 분리하거나 다른 그리퍼의 도움을 받아야 합니다. 사용자 연구에서는 작업자가 각 작업을 시도하는 순서와 50Hz 또는 5Hz 컨트롤러를 먼저 사용하는지 여부를 무작위로 지정합니다. 또한 물체의 초기 위치도 테이블 중앙에서 무작위로 무작위로 지정합니다. 각 설정에 대해 작업자는 2분 동안 적응할 시간을 가진 후, 지속 시간을 기록하면서 작업을 3번 연속으로 시도합니다.

F. Limitations  F. 제한 사항

We now discuss limitations of the ALOHA hardware and the policy learning with ACT.
이제 ALOHA 하드웨어의 한계와 ACT를 통한 정책 학습에 대해 논의합니다.

Fig. 10: Image observation examples for 5 real-world tasks. The 4 columns are [top camera, front camera, left wrist camera, right wrist camera] respectively. We rotate the front camera by 90 degree to capture more vertical space.
그림 10: 5가지 실제 작업에 대한 이미지 관찰 예시. 4개의 열은 각각 [상단 카메라, 전면 카메라, 왼쪽 손목 카메라, 오른쪽 손목 카메라]입니다. 더 많은 수직 공간을 캡처하기 위해 전면 카메라를 90도 회전합니다.
Hardware Limitations. On the hardware front, A L O H A A L O H A ALOHAA L O H A struggles with tasks that require multiple fingers from both hands, for example opening child-proof pill bottles with a push tab. To open the bottle, one hand needs to hold the bottle and pushes down on the push tab, with the other hand twisting the lid open. A L O H A A L O H A ALOHAA L O H A also struggles with tasks that require high amount of forces, for example lifting heavy objects, twisting open a sealed bottle of water, or opening markers caps that are tightly pressed together. This is because the low-cost motors cannot generate enough torque to support these manipulations. Tasks that requires finger nails are also difficult for A L O H A A L O H A ALOHAA L O H A, even though we design the grippers to be thin on the edge. For example, we are not able to lift the edge of packing tape when it is taped onto itself, or opening aluminum soda cans.
하드웨어 제한. 하드웨어 측면에서 A L O H A A L O H A ALOHAA L O H A 은 푸시 탭이 있는 어린이용 약병을 따는 등 양손의 여러 손가락을 사용해야 하는 작업에서 어려움을 겪습니다. 병을 열려면 한 손으로 병을 잡고 푸시 탭을 아래로 누른 다음 다른 손으로 뚜껑을 비틀어 열어야 합니다. A L O H A A L O H A ALOHAA L O H A 은 무거운 물건을 들어 올리거나 밀폐된 물병을 비틀어 열거나 단단히 눌러져 있는 마커 뚜껑을 여는 등 큰 힘이 필요한 작업에서도 어려움을 겪습니다. 저가형 모터는 이러한 조작을 지원하기에 충분한 토크를 생성할 수 없기 때문입니다. 그리퍼의 가장자리를 얇게 설계했음에도 불구하고 손톱을 사용해야 하는 작업도 A L O H A A L O H A ALOHAA L O H A 로는 어렵습니다. 예를 들어 포장 테이프의 가장자리를 테이프로 붙인 상태에서 들어 올리거나 알루미늄 소다 캔을 따는 작업은 불가능합니다.
Policy Learning Limitations. On the software front, we report all 2 tasks that we attempted where ACT failed to learn the behavior. The first one is unwrapping candies. The steps involves picking up the candy from the table, pull on both ends of it, and pry open the wrapper to expose the candy. We collected 50 demonstrations to train the ACT policy. In our preliminary evaluation with 10 trials, the policy picks up the candy 10 / 10 10 / 10 10//1010 / 10, pulls on both ends 8 / 10 8 / 10 8//108 / 10, while unwraps the candy 0 / 10 0 / 10 0//100 / 10. We attribute the failure to the difficulty of perception and lack of data. Specifically, after pulling the candy on both sides,
정책 학습의 한계. 소프트웨어 측면에서는 ACT가 동작 학습에 실패한 두 가지 작업을 모두 보고합니다. 첫 번째는 사탕 포장 풀기입니다. 이 단계는 테이블에서 사탕을 집어 들고 양쪽 끝을 잡아당긴 다음 포장지를 들어 올려 사탕을 드러내는 것입니다. 저희는 ACT 정책을 훈련하기 위해 50개의 시연을 수집했습니다. 10번의 시범을 통한 예비 평가에서 이 정책은 사탕을 집어 들고 10 / 10 10 / 10 10//1010 / 10 양쪽 끝을 당기면서 8 / 10 8 / 10 8//108 / 10 사탕의 포장을 벗기는 0 / 10 0 / 10 0//100 / 10 . 우리는 이 실패의 원인을 인식의 어려움과 데이터 부족으로 보고 있습니다. 특히 사탕을 양쪽에서 당긴 후,

the seam for prying open the candy wrapper could appear anywhere around the candy. During demonstration collection, it is difficult even for human to discern. The operator needs to judge by looking at the graphics printed on the wrapper and find the discontinuity. We constantly observe the policy trying to peel at places where the seam does not exist. To better track the progress, we attempted another evaluation where we give 10 trials for each candy, and repeat this for 5 candies. For this protocol, our policy successfully unwraps 3 / 5 3 / 5 3//53 / 5 candies.
사탕 포장지를 뜯는 이음새는 사탕 주변 어디에서나 나타날 수 있습니다. 시범 수거 중에는 사람조차 식별하기 어렵습니다. 작업자는 포장지에 인쇄된 그래픽을 보고 판단하여 이음새를 찾아야 합니다. 이음새가 존재하지 않는 곳까지 뜯어내려는 정책을 지속적으로 관찰합니다. 진행 상황을 더 잘 추적하기 위해 각 사탕에 대해 10번의 시도를 하고 5개의 사탕에 대해 이 과정을 반복하는 또 다른 평가를 시도했습니다. 이 프로토콜의 경우, 저희 정책은 3 / 5 3 / 5 3//53 / 5 사탕의 포장을 성공적으로 해제합니다.
Another task that ACT struggles with is opening a small ziploc bag laying flat on the table. The right gripper needs to first pick it up, adjust it so that the left gripper can grasp firmly on the pulling region, followed by the right hand grasping the other side of the pulling region, and pull it open. Our policy trained with 50 demonstrations can consistently pick up the bag, while having difficulties performing the following 3 mid-air manipulation steps. We hypothesize that the bag is hard to perceive, and in addition, small differences in the pick up position can affect how the bag deforms, and result in large differences in where the pulling region ends up. We believe that pretraining, more data, and better perception are promising directions to tackle these extremely difficult tasks.
ACT가 어려움을 겪는 또 다른 작업은 테이블 위에 평평하게 놓인 작은 지퍼백을 여는 것입니다. 먼저 오른쪽 그립퍼로 가방을 집어 왼쪽 그립퍼가 당기는 부분을 단단히 잡을 수 있도록 조정한 다음 오른손으로 당기는 부분의 반대쪽을 잡고 가방을 당겨 열어야 합니다. 50회의 시연을 통해 훈련된 정책은 가방을 일관되게 집어 올릴 수 있지만 다음 세 가지 공중 조작 단계를 수행하는 데 어려움을 겪습니다. 우리는 가방을 인식하기 어렵고, 또한 집는 위치의 작은 차이가 가방의 변형에 영향을 미쳐 당기는 영역이 끝나는 위치에 큰 차이를 초래할 수 있다는 가설을 세웠습니다. 사전 교육, 더 많은 데이터, 더 나은 인식이 이러한 극도로 어려운 작업을 해결할 수 있는 유망한 방향이라고 생각합니다.

Training  교육

Step 1: sample data  1단계: 샘플 데이터
Testing  테스트
Fig. 11: Detail architecture of Action Chunking with Transformers (ACT).
그림 11: 트랜스포머를 사용한 액션 청킹(ACT)의 세부 아키텍처.

Fig. 12: The cable tie and cups for user study.
그림 12: 사용자 연구용 케이블 타이와 컵.
learning rate  학습 속도 1 e 5 1 e 5 1e-51 \mathrm{e}-5
batch size  배치 크기 8
# encoder layers  # 인코더 레이어 4
# decoder layers  # 디코더 레이어 7
feedforward dimension  피드포워드 차원 3200
hidden dimension  숨겨진 차원 512
# heads  # 헤드 8
chunk size  청크 크기 100
beta  베타 10
dropout  드롭아웃 0.1
learning rate 1e-5 batch size 8 # encoder layers 4 # decoder layers 7 feedforward dimension 3200 hidden dimension 512 # heads 8 chunk size 100 beta 10 dropout 0.1| | | | :--- | :--- | | learning rate | $1 \mathrm{e}-5$ | | batch size | 8 | | # encoder layers | 4 | | # decoder layers | 7 | | feedforward dimension | 3200 | | hidden dimension | 512 | | # heads | 8 | | chunk size | 100 | | beta | 10 | | dropout | 0.1 |
TABLE III: Hyperparameters of ACT.
표 III: ACT의 하이퍼파라미터.
learning rate  학습 속도 3 e 4 3 e 4 3e-43 \mathrm{e}-4
batch size  배치 크기 128
epochs 100
momentum  모멘텀 0.9
weight decay  체중 감소 1.5 e 6 1.5 e 6 1.5e-61.5 \mathrm{e}-6
learning rate 3e-4 batch size 128 epochs 100 momentum 0.9 weight decay 1.5e-6| learning rate | $3 \mathrm{e}-4$ | | :--- | :--- | | batch size | 128 | | epochs | 100 | | momentum | 0.9 | | weight decay | $1.5 \mathrm{e}-6$ |
TABLE IV: Hyperparameters of BYOL, the feature extractor for VINN and BeT.
표 IV: VINN 및 BeT용 특징 추출기인 BYOL의 하이퍼파라미터.
learning rate  학습 속도 le-4
batch size  배치 크기 64
# layers  # 레이어 6
# heads  # 헤드 6
hidden dimension  숨겨진 차원 768
history length  기록 길이 100
weight decay  체중 감소 0.1
offset loss scale  상쇄 손실 규모 1000
focal loss gamma  초점 손실 감마 2
dropout  드롭아웃 0.1
discretizer #bins  디스크리타이저 #빈 64
learning rate le-4 batch size 64 # layers 6 # heads 6 hidden dimension 768 history length 100 weight decay 0.1 offset loss scale 1000 focal loss gamma 2 dropout 0.1 discretizer #bins 64| learning rate | le-4 | | :--- | :--- | | batch size | 64 | | # layers | 6 | | # heads | 6 | | hidden dimension | 768 | | history length | 100 | | weight decay | 0.1 | | offset loss scale | 1000 | | focal loss gamma | 2 | | dropout | 0.1 | | discretizer #bins | 64 |
TABLE V: Hyperparameters of BeT.
표 V: BeT의 하이퍼파라미터.
k (nearest neighbour)  k(가장 가까운 이웃) adaptive  적응형
state weight  상태 가중치 0 or 10  0 또는 10
k (nearest neighbour) adaptive state weight 0 or 10| k (nearest neighbour) | adaptive | | :--- | :--- | | state weight | 0 or 10 |
TABLE VI: Hyperparameters of VINN.
표 VI: VINN의 하이퍼파라미터.
learning rate  학습 속도 ee- 5
batch size  배치 크기 2
ViT dim head  ViT 희미한 머리 32
ViT window size  ViT 창 크기 7
ViT mbconv expansion rate
ViT 엠비컨브 확장 속도
4
ViT mbconv shrinkage rate
ViT 엠비컨브 수축률
0.25
ViT dropout  ViT 중도 탈락 0.1
RT-1 depth  RT-1 깊이 6
RT-1 heads  RT-1 헤드 8
RT-1 dim head  RT-1 딤 헤드 64
RT-1 action bins  RT-1 액션 빈 256
RT-1 cond drop prob
RT-1 조건부 드롭 확률
0.2
RT-1 token learner num output tokens
RT-1 토큰 학습자 수 출력 토큰 수
8
weight decay  체중 감소 0
history length  기록 길이 6
learning rate ee- 5 batch size 2 ViT dim head 32 ViT window size 7 ViT mbconv expansion rate 4 ViT mbconv shrinkage rate 0.25 ViT dropout 0.1 RT-1 depth 6 RT-1 heads 8 RT-1 dim head 64 RT-1 action bins 256 RT-1 cond drop prob 0.2 RT-1 token learner num output tokens 8 weight decay 0 history length 6| learning rate | ee- 5 | | :--- | :--- | | batch size | 2 | | ViT dim head | 32 | | ViT window size | 7 | | ViT mbconv expansion rate | 4 | | ViT mbconv shrinkage rate | 0.25 | | ViT dropout | 0.1 | | RT-1 depth | 6 | | RT-1 heads | 8 | | RT-1 dim head | 64 | | RT-1 action bins | 256 | | RT-1 cond drop prob | 0.2 | | RT-1 token learner num output tokens | 8 | | weight decay | 0 | | history length | 6 |
TABLE VII: Hyperparameters of RT-1.
표 VII: RT-1의 하이퍼파라미터.