目 录CONTENT

文章目录

Gemini 英语口语助手:Gemini Teacher

Pei先生
2024-12-21 / 0 评论 / 0 点赞 / 30 阅读 / 0 字

项目介绍

**这个应该是目前最强的英语口语学习软件。Gemini的多模态能力目前来说应该是世界第一。

作者之前也尝试过用OpenAI的语音模式学习英语,用OpenAI 的模型时,默认会用英语回答问题,不适合英语不好的用户,而且他也无法识别语调,发音等问题,实际上那种模式是通过语音转文字后进行分析,完全无法分析你的语调和发音问题

Gemini2.0的多模态功能完美解决了这个问题,目前他可以非常强的理解你的真实发音,而不是单纯的转换成文字后纠正,他可以真正的触达你的真实声音。 下面是我自己练习时的视频,它是可以真正的分析你的发音,真的太强大了!

功能特点

  • 🎤 实时语音识别
  • 🤖 AI 驱动的发音评估
  • 📝 语法纠正
  • 🔄 情景对话练习
  • 🎯 针对性发音指导
  • 💡 智能场景切换

系统要求

  • Python 3.11+ (必须)
  • 麦克风设备
  • 网络连接

前置依赖

需要一个 Gemini的API Key,这个API Key每天免费四百万次,足够使用了。

到这个页面 https://aistudio.google.com/app/apikey 生成即可。

安装方式

1. 克隆仓库:

git clone https://github.com/nishuzumi/gemini-teacher.git
cd gemini-teacher

2. 创建并激活虚拟环境(推荐):

python -m venv .venv
source .venv/bin/activate  # Unix/macOS
# 或
.venv\Scripts\activate  # Windows

安装依赖:

在安装 Python 依赖前,请先安装以下系统依赖:

  • Windows: 无需额外安装
  • macOS: brew install portaudio
  • Ubuntu/Debian: sudo apt-get install portaudio19-dev python3-pyaudio
pip install -r requirements.txt

使用方法

设定环境 新建一份 .env 文件,将.env.example 内容复制过去,然后修改。

GOOGLE_API_KEY 填写谷歌Gemini的API Key

开启语音功能

这个功能按需开启,ELEVENLABS_API_KEY 是语音功能的API KEY。

获取方式:

  • 打开网站 https://elevenlabs.io/
  • 点击右上角的Try for free,进行注册,有免费的1000个额度
  • 到个人设置中,生成API Key填入即可
python starter.py
  1. 按照提示说出英语句子
  2. 等待 AI 助手的反馈
  3. 根据反馈改进发音

项目预览

项目地址

Github: https://github.com/nishuzumi/gemini-teacher

0

评论区