微软又一王炸开源，再见了 Selenium

每次写网页爬虫或者做自动化测试，总绕不开那些又长又难配的定位脚本。通常会使用 Selenium 来处理，但网页结构一变就得重写，一调就是半天，实在是折腾。

今天给大家介绍一个微软开源的项目：Magentic-UI，通过用 AI 智能体来代替我们手动操作网页，试图解决这个痛点。

这个工具不仅能自动浏览、填写表单，它还能执行代码、分析文件，甚至支持多任务并行，像是多了个靠谱的网页“副驾”。

下面，来给大家详细介绍一下它的核心功能。

左侧是任务流程、右侧是实时网页浏览界面，操作过程一览无余。任务怎么执行、网页怎么跳转，全都看得见、点得动，放心又顺手。

微软又一王炸开源，再见了 Selenium

告诉它想做什么，它会自动生成一个分步骤的执行计划，还会边生成边和我们确认。哪一步不对劲，还能手动修改，每次操作都可控。

微软又一王炸开源，再见了 Selenium

执行任务时，不满意 AI 的做法？直接中断它、自己操作一把，或者让它问我们该怎么做。这不是黑盒，是“协作型智能”。

微软又一王炸开源，再见了 Selenium

比如支付、提交表单这类关键操作，Magentic-UI 不会直接执行，而是弹窗确认。每个动作都写着要做什么，防误操作更安心。

多个任务可同时进行，每个任务都有进度标识：红色表示等待输入、绿色表示完成、旋转箭头表示执行中。我们只需关注需要回应的部分，效率不减，负担不增。

使用 Mangentic-UI 也非常简单，只需要几个命令就能完成：

1、创建虚拟环境并激活：

python3 -m venv .venvsource.venv/bin/activate

2、安装 Magentic-UI：

pip install magentic-ui--upgrade

3、设置 OpenAI API 密钥：

exportOPENAI_API_KEY="your-api-key-here"

4、启动服务：

magentic-ui--port8081

然后在浏览器中打开http://localhost:8081就可以开始使用了。

Magentic-UI 更适合有一定 Python 基础、需要做网页交互或流程自动化的开发者使用。

配置不算复杂，但建议搭配 Docker 和 GPT-4 以上模型效果更佳。

如果你也在寻找一种“看得见、可控、能对话”的网页自动化工具，这个开源项目非常值得一试。

GitHub 项目地址：https://github.com/microsoft/magentic-ui

好了，今天的分享到此结束，感谢大家抽空阅读，我们下期再见，Respect！

JAVA c c++go swift javascript Nginx UI/UE 小程序 Python C#php asp GitHub项目推荐