AI 代理新纪元：从 Gemini 3.5 Flash 的“计算机使用”功能看企业级 AI 的深度进化

AIRouter 2026年6月27日 1 分钟阅读 4 次浏览

紫喵API服务的 AI API 使用建议

紫喵API服务面向需要 OpenAI 兼容接口、Claude/Gemini/GPT 多模型切换、包月额度管理和图像模型调用的用户。阅读本文后，可以结合本站的模型清单、独立使用文档和个人面板，把教程内容直接落到实际调用流程中。

随着人工智能技术的飞速发展，我们正见证 AI 从“能言善辩”的聊天机器人向“能干实事”的自主代理（AI Agents）跨越。近日，谷歌 DeepMind 宣布为 Gemini 3.5 Flash 引入原生的“计算机使用”（Computer Use）功能，而零售行业也在同步推进“AI 优先”的运营哲学。这两者的结合，预示着一个由 AI 驱动的自动化办公与商业决策新时代的到来。

Gemini 3.5 Flash：让 AI 像人类一样操作电脑

此前，计算机使用功能仅作为独立模型存在，而现在它已正式内置于 Gemini 3.5 Flash 中。这意味着开发者可以使用这一轻量且高效的模型，构建能够跨浏览器、移动端和桌面环境进行观察、推理并采取行动的定制代理。

Gemini 3.5 Flash 概览

核心能力与应用场景

Gemini 3.5 Flash 的计算机使用能力不仅仅是简单的自动化脚本，它具备极强的环境适应性性：

跨平台交互：能够识别 UI 元素并在不同应用程序间切换。
长程任务处理：适用于复杂的企业自动化，如持续软件测试。它可以自动审核文档的无障碍问题，或者对复杂的 App 功能进行分类和测试。
高效推理：结合 Gemini 已有的函数调用（Function Calling）和搜索增强（Grounding）能力，AI 可以根据实时反馈调整操作策略。

OSWorld 基准测试

安全与防御：构建可信的代理系统

将操作权限交给 AI 意味着更高的安全挑战。为此，谷歌采取了“深度防御”策略：

针对性对抗训练：减少针对代理的提示词注入（Prompt Injection）风险。
企业级保护措施：提供可选的确认机制，对于敏感或不可逆的操作（如转账或删除数据），系统会要求人类用户明确授权。
自动阻断：一旦识别到间接注入风险，系统将自动终止任务。

BrowserBase 演示

零售业的 AI 革命：从后台到前台的“隐形层”

如果说 Gemini 提供了工具，那么零售业的变革则展示了这些工具如何改变商业本质。以梅西百货（Macy's）为例，AI 不再仅仅是试衣间里的花哨功能，而是进化为一种“运营哲学”。

AI 优先（AI-First）策略

梅西百货工程高级总监 Murali Murugan 指出，“AI 优先”不是在现有流程上叠加密码，而是重新设计决策方式。AI 正在成为一个“隐形层”，在用户感知不到的地方优化以下环节：

缩短信号到行动的路径：AI 实时响应客户行为，优化搜索结果和库存调度。
对话式商业：如“Ask Macy’s”助手，它更像是一个了解你过往偏好、度假计划和特定场合需求的“私人造型师”，而非简单的搜索框。
提升研发效率：工程师利用 AI 更快地交付代码，从而缩短业务迭代周期。

缩短技术与现实的距离

无论是 Gemini 3.5 Flash 的技术突破，还是零售业的战略转型，核心目标都在于：压缩从信号（Signal）到行动（Action）之间的差距。

在未来，AI 代理将不仅仅是替代人类进行重复性劳动，更是通过持续学习和快速适应新技术标准，为企业创造更深层的价值。正如梅西百货所展示的，真正的转型往往发生在客户察觉不到的地方——当每一次体验都变得顺理成章、个性化且高效时，AI 的使命便达成了。

如何开始？

开发者现在可以通过 Gemini API 和 Gemini Enterprise Agent Platform 开始构建自己的 AI 代理。无论是在浏览器环境中测试，还是在复杂的企业应用中落地，Gemini 3.5 Flash 都提供了目前性能最优、成本效益最高的解决方案。

在本站快速上手 Claude / GPT

本文涉及的能力可以直接在本站的中转 API 上调用，兼容 OpenAI / Anthropic 官方 SDK：

查看支持的全部模型与端点 → 模型列表
开通额度即可获取 API Key → 前往开通
持有兑换码可直接核销 → 兑换码入口

无需科学上网，国内可直连，5 分钟完成接入。