项目介绍
**这个应该是目前最强的英语口语学习软件。Gemini的多模态能力目前来说应该是世界第一。
作者之前也尝试过用OpenAI的语音模式学习英语,用OpenAI 的模型时,默认会用英语回答问题,不适合英语不好的用户,而且他也无法识别语调,发音等问题,实际上那种模式是通过语音转文字后进行分析,完全无法分析你的语调和发音问题。
Gemini2.0的多模态功能完美解决了这个问题,目前他可以非常强的理解你的真实发音,而不是单纯的转换成文字后纠正,他可以真正的触达你的真实声音。 下面是我自己练习时的视频,它是可以真正的分析你的发音,真的太强大了!
功能特点
- 🎤 实时语音识别
- 🤖 AI 驱动的发音评估
- 📝 语法纠正
- 🔄 情景对话练习
- 🎯 针对性发音指导
- 💡 智能场景切换
系统要求
- Python 3.11+ (必须)
- 麦克风设备
- 网络连接
前置依赖
需要一个 Gemini的API Key,这个API Key每天免费四百万次,足够使用了。
到这个页面 https://aistudio.google.com/app/apikey 生成即可。
安装方式
1. 克隆仓库:
git clone https://github.com/nishuzumi/gemini-teacher.git
cd gemini-teacher
2. 创建并激活虚拟环境(推荐):
python -m venv .venv
source .venv/bin/activate # Unix/macOS
# 或
.venv\Scripts\activate # Windows
安装依赖:
在安装 Python 依赖前,请先安装以下系统依赖:
- Windows: 无需额外安装
- macOS:
brew install portaudio
- Ubuntu/Debian:
sudo apt-get install portaudio19-dev python3-pyaudio
pip install -r requirements.txt
使用方法
设定环境 新建一份 .env
文件,将.env.example
内容复制过去,然后修改。
GOOGLE_API_KEY
填写谷歌Gemini的API Key
开启语音功能
这个功能按需开启,ELEVENLABS_API_KEY
是语音功能的API KEY。
获取方式:
- 打开网站 https://elevenlabs.io/
- 点击右上角的Try for free,进行注册,有免费的1000个额度
- 到个人设置中,生成API Key填入即可
python starter.py
- 按照提示说出英语句子
- 等待 AI 助手的反馈
- 根据反馈改进发音
评论区