English | 中文文档
一款基于豆包 AI 的 Android 智能助手应用,支持离线语音识别和自然语言任务自动化。
AI Boss 是一款智能的 Android 自动化助手应用,通过自然语言描述任务,AI 会自动分析屏幕内容并执行相应操作。支持离线中文语音输入,让操作更加便捷。
- 🎤 离线语音识别 - 集成 Vosk 引擎,支持中文语音转文字,无需联网
- 💬 聊天式交互 - 通过对话方式描述任务,AI 自动理解并执行
- 🤖 智能自动化 - AI 分析屏幕内容,自动执行点击、输入、滑动等操作
- 📝 聊天记录保存 - 自动保存对话历史,关闭应用后不丢失
- 🎯 任务完成通知 - 任务完成后弹窗提示,可复制结果
- 🔄 快捷重试 - 点击消息上的刷新按钮可快速重新执行任务
- 🎨 现代化 UI - Material Design 3 设计,流畅的动画效果
- Android 8.0 (API 26) 或更高版本
- 约 50MB 可用存储空间(包含语音模型)
-
下载 APK
- 从 Releases 下载最新版本
- 或从源码构建:
./gradlew assembleDebug ./gradlew installDebug
-
授予权限
- 录音权限:首次使用语音输入时会请求
- 无障碍权限:进入系统设置 → 无障碍 → 启用 "AI Boss"
- 悬浮窗权限:Android 6.0+ 需要在设置中授权
-
配置 API 密钥(如果从源码构建)
cp api.properties.example api.properties # 编辑 api.properties 填入你的豆包 AI API 密钥
- 打开应用,点击底部输入框
- 输入或语音描述任务,例如:
- "打开淘宝搜索手机"
- "查看今天的天气"
- "在抖音点赞前5个视频"
- 点击发送,AI 会自动执行任务
方式一:按住说话(推荐)
- 按住麦克风图标 🎤
- 开始说话
- 松开自动停止并填入文字
方式二:点击录音
- 点击麦克风图标开始录音
- 说话时实时显示识别结果
- 再次点击停止
💡 提示:首次启动会加载语音模型(约3-5秒),完成后会提示"语音识别已就绪"
- 开发语言: Kotlin
- UI 框架: Jetpack Compose + Material Design 3
- 数据库: Room + SharedPreferences
- 网络: OkHttp + Gson
- 异步: Kotlin Coroutines + Flow
- 语音识别: Vosk (离线中文模型)
- AI 引擎: 豆包 Context API
- 系统服务: Accessibility Service
- 最小 SDK: 26 (Android 8.0)
- 目标 SDK: 34 (Android 14)
- 封装豆包 Context API 调用
- 支持上下文对话管理
- 自动处理 API 认证和错误
- Vosk 离线语音识别引擎
- 实时语音转文字
- 中文空格自动移除
- 按住说话/点击录音两种模式
- 屏幕内容抓取和解析
- 元素查找和操作
- 支持点击、输入、手势操作
- AI 驱动的自动化执行引擎
- 智能决策系统
- 动作解析和执行
- 进度回调和状态管理
AIAutomation/
├── .github/
│ └── workflows/
│ └── android-ci.yml # CI/CD 配置
├── app/
│ ├── src/
│ │ ├── main/
│ │ │ ├── java/com/aiautomation/
│ │ │ │ ├── ai/ # AI 客户端
│ │ │ │ ├── automation/ # 自动化引擎
│ │ │ │ ├── data/model/ # 数据模型
│ │ │ │ ├── service/ # 系统服务
│ │ │ │ ├── settings/ # 应用设置
│ │ │ │ ├── ui/ # UI 界面
│ │ │ │ └── voice/ # 语音识别
│ │ │ └── res/ # 资源文件
│ │ ├── test/ # 单元测试
│ │ └── androidTest/ # UI 测试
│ ├── build.gradle.kts
│ └── proguard-rules.pro
├── api.properties.example # API 配置模板
├── keystore.properties.example # 签名配置模板
├── .gitignore
├── README.md # 中文文档
├── README_EN.md # 英文文档
├── RELEASE.md # 发布指南
├── CONTRIBUTING.md # 贡献指南
├── LICENSE # MIT 许可证
└── 项目使用文档.md # 详细使用说明
# 清理项目 ./gradlew clean # 构建 Debug 版本 ./gradlew assembleDebug # 构建 Release 版本(需要配置签名) ./gradlew assembleRelease # 运行测试 ./gradlew test # 安装到设备 ./gradlew installDebug
- Jetpack Compose - 现代化 UI 框架
- Vosk - 离线语音识别
- OkHttp - 网络请求
- Room - 本地数据库
- EasyFloat - 悬浮窗管理
完整依赖列表见 app/build.gradle.kts
应用使用 vosk-model-small-cn-0.22 (42MB) 进行中文识别。如需更高准确率:
- 从 alphacephei.com/vosk/models 下载
vosk-model-cn-0.22.zip(255MB) - 解压并重命名为
model-cn - 替换
app/src/main/assets/model-cn - 重新编译应用
详见 RELEASE.md 了解如何:
- 生成签名密钥
- 配置签名
- 构建 Release APK
- 发布到 GitHub Releases
欢迎贡献代码!请查看 贡献指南 了解详情。
- Fork 本仓库
- 创建特性分支 (
git checkout -b feature/AmazingFeature) - 提交更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 提交 Pull Request
本项目采用 MIT 许可证 - 详见 LICENSE 文件
Q: 为什么首次启动较慢?
A: 需要从 assets 解压语音模型文件(42MB),仅首次运行时需要,后续启动会快很多。
Q: 语音识别准确率如何提高?
A: 保持安静环境、吐字清晰、语速适中、手机距离适当(20-30cm),或升级到大型模型。
Q: 无障碍服务为什么必须开启?
A: 应用需要通过无障碍服务来读取屏幕内容和执行自动化操作,这是 Android 系统对自动化应用的权限要求。
Q: 任务执行失败怎么办?
A: 检查无障碍权限是否开启、网络连接是否正常、尝试更清晰地描述任务、查看悬浮窗的 AI 推理过程。
版本: 1.0.0
构建状态: CI
APK 大小: ~15 MB
感谢所有贡献者和以下开源项目:
- Vosk - 离线语音识别
- 豆包 AI - AI 能力支持
- EasyFloat - 悬浮窗管理
- Jetpack Compose - 现代化 UI 框架
Made with ❤️ by the AI Boss team