湖边闲人 湖边闲人
首页
生活
工作
其他
关于
收藏
  • 分类
  • 标签
  • 归档

湖边闲人

恬淡虚无,真气从之
首页
生活
工作
其他
关于
收藏
  • 分类
  • 标签
  • 归档
  • 使用 whisper 语音转文本
    • 音乐视频下载工具介绍
    • 游戏中用到一些工具
    • 上屏助手
    • 工作
    湖边闲人
    2024-07-07
    目录

    使用 whisper 语音转文本

    2024-07-07 18:21:00

    # 使用 whisper 语音转文本

    AI字幕神器whisper最全中文攻略 (opens new window) whisper是OpenAI公司出品的AI字幕神器,是目前最好的语音生成字幕工具之一,开源且支持本地部署,支持多种语言识别(英语识别准确率非常惊艳)。这篇文章应该是网上目前关于Windows系统部署whisper最全面的中文攻略。

    whisper开源地址:https://github.com/openai/whisper

    whisper是一个纯命令行工具,所以我再介绍whisper的两个衍生项目:whisper-webui(WebUI版whisper)和buzz(GUI版whisper)。

    whisper-webui开源地址:https://huggingface.co/spaces/aadnk/whisper-webui

    buzz开源地址:https://github.com/chidiwilliams/buzz

    # 安装whisper

    whisper基于python开发,需要用到较多的依赖环境,所以推荐搭建python虚拟环境来安装whisper。虚拟环境这步本教程略过,不影响whisper安装。

    1. 首先安装python
    2. 安装ffmpeg
    3. 如果有显卡,安装CUDA,没有显卡,CPU也可用跑
    4. 安装whisper
      pip install setuptools-rust
      pip install -U openai-whisper
      
      1
      2
    5. 下载模型
      # 下载英文模型
      wget https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt
      # 下载中文模型
      wget https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt
      
      1
      2
      3
      4
    6. 转换音频格式 whisper只支持wav格式的音频文件,所以需要把mp3、flac等格式转换成wav格式。可以使用ffmpeg进行转换,也可以使用whisper自带的工具进行转换。
      @echo %time%
       whisper 0203.mp3 --language Chinese --model tiny>tiny.txt
       @echo %time%
      
      1
      2
      3
    7. 模型地址 "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
      "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
      "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
      "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
      "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
      "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
      "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
      "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
      "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
      "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",

    # 文本整理

    使用 tiny 模型数据生成的文字中很多错误,需要使用kimi重新整理一遍。 将 txt 文本上传给kimi,然后叫它逐行校正,输出校正后的结果。

    #AI#语音识别
    上次更新: 2024/07/07, 19:17:38
    音乐视频下载工具介绍

    音乐视频下载工具介绍→

    最近更新
    01
    上屏助手
    08-19
    02
    游戏中用到一些工具
    08-19
    03
    音乐视频下载工具介绍
    08-12
    更多文章>
    Theme by Vdoing | Copyright © 2018-2024 湖边闲人 | 粤ICP备18014704号
    • 跟随系统
    • 浅色模式
    • 深色模式
    • 阅读模式