+-
微软又一王炸开源,再见了 Selenium

每次写网页爬虫或者做自动化测试,总绕不开那些又长又难配的定位脚本。通常会使用 Selenium 来处理,但网页结构一变就得重写,一调就是半天,实在是折腾。

今天给大家介绍一个微软开源的项目:Magentic-UI,通过用 AI 智能体来代替我们手动操作网页,试图解决这个痛点。

这个工具不仅能自动浏览、填写表单,它还能执行代码、分析文件,甚至支持多任务并行,像是多了个靠谱的网页“副驾”。

下面,来给大家详细介绍一下它的核心功能。

一页双屏,操作过程全程透明

微软又一王炸开源,再见了 Selenium

左侧是任务流程、右侧是实时网页浏览界面,操作过程一览无余。任务怎么执行、网页怎么跳转,全都看得见、点得动,放心又顺手。

协同制定计划,像对话一样自然

微软又一王炸开源,再见了 Selenium

告诉它想做什么,它会自动生成一个分步骤的执行计划,还会边生成边和我们确认。哪一步不对劲,还能手动修改,每次操作都可控。

执行中随时插手,像在远程操控浏览器

微软又一王炸开源,再见了 Selenium

执行任务时,不满意 AI 的做法?直接中断它、自己操作一把,或者让它问我们该怎么做。这不是黑盒,是“协作型智能”。

敏感操作一律请示,关键一步不出错

微软又一王炸开源,再见了 Selenium

比如支付、提交表单这类关键操作,Magentic-UI 不会直接执行,而是弹窗确认。每个动作都写着要做什么,防误操作更安心。

多任务并行运行,每个任务状态一眼看清

多个任务可同时进行,每个任务都有进度标识:红色表示等待输入、绿色表示完成、旋转箭头表示执行中。我们只需关注需要回应的部分,效率不减,负担不增。

3 步启动 Magentic-UI

使用 Mangentic-UI 也非常简单,只需要几个命令就能完成:

1、创建虚拟环境并激活:

python3 -m venv .venvsource.venv/bin/activate

2、安装 Magentic-UI:

pip install magentic-ui--upgrade

3、设置 OpenAI API 密钥:

exportOPENAI_API_KEY="your-api-key-here"

4、启动服务:

magentic-ui--port8081

然后在浏览器中打开http://localhost:8081就可以开始使用了。

Magentic-UI 更适合有一定 Python 基础、需要做网页交互或流程自动化的开发者使用。

配置不算复杂,但建议搭配 Docker 和 GPT-4 以上模型效果更佳。

如果你也在寻找一种“看得见、可控、能对话”的网页自动化工具,这个开源项目非常值得一试。

GitHub 项目地址:https://github.com/microsoft/magentic-ui

好了,今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

往期热文

  • 暴涨 5.8k Star!网络卡顿,神器一键解决!

  • 开箱即用!自建轻量级网盘,告别付费!

  • 效率飙升!神级开源自动化神器,绝了!