Step-GUI
Step-GUI 是阶跃星辰推出的AI Agent系列模子,包含云侧模子 Step-GUI 和端侧模子 Step-GUI Edge(原名:Gelab-Zero)。云侧模子擅长复杂使命处置,端侧模子轻量化,能正在手机等当地设备运转,用户现私。Step-GUI 通过自进化锻炼流程和校准步进励系统(CSRS),将模子生成的交互轨迹为高质量锻炼数据,显著降低标注成本,提拔机能。Step-GUI 正在多个基准测试中表示超卓,如 AndroidWorld 和 ScreenShot-Pro 等。Step-GUI 推出了 GUI-MCP 和谈,实现尺度化的模子取设备交互,用户现私,通过 AndroidDaily 基准测试评估模子正在实正在世界挪动使用中的表示,鞭策 GUI 从动化东西的适用化和尺度化成长。:像人类用户一样操做各类使用法式,例如点击按钮、滑动屏幕、输入文本等,完成从简单到复杂的使命。:通过 GUI-MCP 和谈,Step-GUI 能正在多种设备(如手机、电脑、车机)上运转,支撑分歧操做系统(如 Android、iOS、Windows、macOS)。将数据保留正在当地设备端,将需要的语义消息传输到云端,确保用户现私。:通过云侧大模子和端侧小模子的分工协做,实现复杂使命的高效处置。云侧模子担任高级推理和使命拆解,端侧模子担任具体操做施行。:模仿实正在用户的行为模式,完成如社交聊天、购物领取、视频旁不雅等日常高频使命,合用于多种现实使用场景。:Step-GUI 基于强大的多模态狂言语模子(如 Qwen3-VL),能理解和生成天然言语指令,将其为具体的 GUI 操做。模子通过视觉输入(如屏幕截图)和言语指令的连系,:通过校准步进励系统(Calibrated Step Reward System, CSRS),将模子生成的操做轨迹为高质量的锻炼数据。CSRS 通过轨迹级此外验证信号,确保数据的精确性和靠得住性,同时用 LLM 生成的细致推理链,提拔模子的泛化能力。:Step-GUI 采用端云协同的工做模式。端侧模子(如 Step-GUI Edge)担任正在当地设备上施行具体的操做使命,确保现私和低延迟响应;云侧模子担任处置复杂的逻辑推理和使命拆解,供给更强的语义理解和泛化能力。:为实现跨平台的尺度化交互,Step-GUI 提出 GUI-MCP(Model Context Protocol)和谈。将设备操做笼统为原子操做和复合使命,支撑初级操做(如点击、滑动)和高级使命委托(如“采办咖啡”),同时确保数据正在当地处置,用户现私。:Step-GUI 利用强化进修(如 Group Relative Policy Optimization, GRPO)进行锻炼,通过取的交互不竭优化模子的决策能力。同时,通过自进化锻炼流程,模子能不竭从本身生成的数据中进修,提拔机能。:Step-GUI 能从动答复社交动静、办理群聊,正在糊口办事使用中下单、领取,帮帮用户高效处置日常事务。:东西能正在办公软件中从动完成数据录入、文档编纂和邮件发送,提拔企业办公效率,:Step-GUI 能节制智能家居设备,设置场景模式,实现灯光、空调等设备的从动化节制,提拔家居糊口的便当性。:Step-GUI 能正在逛戏里从动完成反复性使命,或正在视频平台从动播放、珍藏、评论视频,加强文娱体验。:Step-GUI 能正在正在线进修平台从动播放课程、提交功课,正在进修办理东西中建立使命、记实进度,帮力进修办理。Qwen2。5-Math 阿里Qwen团队开源的数学专项模子,超越GPT-4oAI东西集收录了国表里数百个分歧类型的AI东西,每日更新和添加最新AI东西,AI东西集还保举了AI进修开辟的常用网坐、框架和模子,帮帮你插手人工智能海潮,从动化高效完成使命! Ctrl + D 或 ⌘ + D 珍藏本坐到浏览器栏。




