AI开发编程 AI开发编程 开发工具
MobileAgent-手机操作助手

一款自主多模移动设备代理

 

据悉,MobileAgent是由阿里巴巴联合北京交通大学开发的一个自主多模态AI代理,可以模拟人类操作手机,是一个纯视觉解决方案,不需要任何系统代码,完全通过分析图像来理解和操作手机。

MobileAgent与Siri、智能客服不同的是,规划和推理方面非常出色,能够自动完成各种复杂任务,比如——

在Alibaba上帮助用户找到帽子,并根据条件添加到购物车;

在Amazon Music中搜索歌手Jay Chou或播放关于“代理”的音乐;

在Chrome中搜索今日湖人队比赛结果或关于Taylor Swift的信息;

在Gmail中发送空邮件或具有特定内容的邮件;

在TikTok上为宠物猫视频点赞或评论等,还可以结合使用多个应用完成复杂任务。

在Chrome中搜索今日湖人队比赛结果或关于Taylor Swift的信息

在TikTok中滑动一段关于宠物猫的视频,然后点击“点赞”观看该视频。

最重要的特性有四点:纯可视化解决方案,独立于XML 和系统元数据;操作范围不受限制,可进行多应用操作;多种视觉感知工具,用于操作定位;无需探索和培训,即插即用。

MobileAgent-手机操作助手

MobileAgent有三类使用场景:

(1)自动化移动设备操作:Mobile-Agent可用于自动化执行移动应用程序中的任务,提高效率。

(2)移动设备性能评估:利用Mobile-Agent进行移动设备操作评估,以提高性能。

(3)提高移动应用程序适应性:Mobile-Agent可帮助移动应用程序在不同环境中实现更大的适应性。

 

MobileAgent工作原理包括三方面:视觉感知工具,自主任务规划和执行,自反思和提示格式。MobileAgent使用了视觉感知模块、文本和图标定位,自主规划和自反思方法来实现对手机应用的操作。

MobileAgent-手机操作助手

 

利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception》

论文地址:https://arxiv.org/abs/2401.16158v1

相关导航

暂无评论

暂无评论...