主要内容
我最近让我的OpenClaw AI代理尝试了新的机器人手臂,结果令人震惊——它不仅能配置机械臂、利用视觉识别抓取物体,甚至能训练另一个AI模型完成特定目标物体的抓取与放置。这让我确信,机器人领域可能正迎来突破。
伯克利加州大学机器人学家Ken Goldberg指出:“AI驱动编程极具潜力,它能弥合传统工程方法(可靠但难以通用)与当代视觉-语言-动作模型(通用但尚不可靠)之间的鸿沟。”
我使用的LeRobot 101是HuggingFace开源项目的机械臂,配备操作臂(可手动控制)和带摄像头的跟随臂。通过OpenClaw和Codex,我仅花数小时便完成了校准,编写了识别并抓取红球的程序——虽因参数设置错误曾险些损坏电机,但最终成功实现了目标。这一“vibe coding”过程虽存在AI“幻觉”导致的小bug,却展示了高效性。
更令人振奋的是,研究团队已开发出“代码即策略”(code as policy)方法:2022年首次提出,Goldberg团队联合Nvidia、卡内基梅隆等机构推出CaP-X基准测试,验证了编程模型在操作任务中的能力,其中Google Gemini模型表现最佳。他们还构建了CaP-Gym环境,支持模拟与真实机器人控制,并开发出CaP-Agent0框架,使编程模型在直接控制机器人运动的任务中表现超越传统方法。目前,Goldberg团队正与Nvidia合作推进该技术,黄仁勋之子Spencer Huang也参与了内部黑客马拉松,推广这种“自然编程”机器人的实践。