每次写网页爬虫或者做自动化测试,总绕不开那些又长又难配的定位脚本。通常会使用 Selenium 来处理,但网页结构一变就得重写,一调就是半天,实在是折腾。
今天给大家介绍一个微软开源的项目:Magentic-UI,通过用 AI 智能体来代替我们手动操作网页,试图解决这个痛点。
这个工具不仅能自动浏览、填写表单,它还能执行代码、分析文件,甚至支持多任务并行,像是多了个靠谱的网页“副驾”。
下面,来给大家详细介绍一下它的核心功能。
一页双屏,操作过程全程透明
左侧是任务流程、右侧是实时网页浏览界面,操作过程一览无余。任务怎么执行、网页怎么跳转,全都看得见、点得动,放心又顺手。
协同制定计划,像对话一样自然
告诉它想做什么,它会自动生成一个分步骤的执行计划,还会边生成边和我们确认。哪一步不对劲,还能手动修改,每次操作都可控。
执行中随时插手,像在远程操控浏览器
执行任务时,不满意 AI 的做法?直接中断它、自己操作一把,或者让它问我们该怎么做。这不是黑盒,是“协作型智能”。
敏感操作一律请示,关键一步不出错
比如支付、提交表单这类关键操作,Magentic-UI 不会直接执行,而是弹窗确认。每个动作都写着要做什么,防误操作更安心。
多任务并行运行,每个任务状态一眼看清
多个任务可同时进行,每个任务都有进度标识:红色表示等待输入、绿色表示完成、旋转箭头表示执行中。我们只需关注需要回应的部分,效率不减,负担不增。
3 步启动 Magentic-UI
使用 Mangentic-UI 也非常简单,只需要几个命令就能完成:
1、创建虚拟环境并激活:
python3 -m venv .venvsource.venv/bin/activate
2、安装 Magentic-UI:
pip install magentic-ui--upgrade
3、设置 OpenAI API 密钥:
exportOPENAI_API_KEY="your-api-key-here"
4、启动服务:
magentic-ui--port8081
然后在浏览器中打开http://localhost:8081就可以开始使用了。
Magentic-UI 更适合有一定 Python 基础、需要做网页交互或流程自动化的开发者使用。
配置不算复杂,但建议搭配 Docker 和 GPT-4 以上模型效果更佳。
如果你也在寻找一种“看得见、可控、能对话”的网页自动化工具,这个开源项目非常值得一试。
GitHub 项目地址:https://github.com/microsoft/magentic-ui
好了,今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!
往期热文
-
暴涨 5.8k Star!网络卡顿,神器一键解决!
-
开箱即用!自建轻量级网盘,告别付费!
-
效率飙升!神级开源自动化神器,绝了!