Windows で coqui-ai TTS のインストールを行う.
【目次】
Gitは,バージョン管理システム.ソースコードの管理や複数人での共同に役立つ.
【サイト内の関連ページ】
Windows での Git のインストール: 別ページ »で説明している.
【関連する外部ページ】
Git の公式ページ: https://git-scm.com/
【サイト内の関連ページ】
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
【サイト内の関連ページ】
NVIDIA グラフィックスボードを搭載しているパソコンの場合には, NVIDIA ドライバ, NVIDIA CUDA ツールキット, NVIDIA cuDNN のインストールを行う.
【関連する外部ページ】
コマンドプロンプトを管理者として実行: 別ページ »で説明
PyTorch のページ: https://pytorch.org/index.html
次のコマンドを実行することにより, PyTorch 2.3 (NVIDIA CUDA 11.8 用)がインストールされる. 但し,Anaconda3を使いたい場合には別手順になる.
事前に NVIDIA CUDA のバージョンを確認しておくこと(ここでは,NVIDIA CUDA ツールキット 11.8 が前もってインストール済みであるとする).
PyTorch で,GPU が動作している場合には,「torch.cuda.is_available()」により,True が表示される.
python -m pip install -U --ignore-installed pip python -m pip uninstall -y torch torchvision torchaudio python -m pip install -U torch torchvision torchaudio numpy --index-url https://download.pytorch.org/whl/cu118 python -c "import torch; print(torch.__version__, torch.cuda.is_available())"
Anaconda3を使いたい場合には, Anaconda プロンプト (Anaconda Prompt) を管理者として実行し, 次のコマンドを実行する. (PyTorch と NVIDIA CUDA との連携がうまくいかない可能性があるため,Anaconda3を使わないことも検討して欲しい).
conda install -y pytorch torchvision torchaudio pytorch-cuda=11.8 cudnn -c pytorch -c nvidia py -c "import torch; print(torch.__version__, torch.cuda.is_available())"
【サイト内の関連ページ】
【関連する外部ページ】
コマンドプロンプトを管理者として実行: 別ページ »で説明
cd %HOMEPATH% rmdir /s /q TTS git clone https://github.com/coqui-ai/TTS cd TTS pip install -e .[all]
cd %HOMEPATH%\TTS curl -L -O https://github.com/coqui-ai/TTS/releases/download/v0.6.1_models/tts_models--ja--kokoro--tacotron2-DDC.zip curl -L -O https://github.com/coqui-ai/TTS/releases/download/v0.6.1_models/vocoder_models--ja--kokoro--hifigan_v1.zip cd %HOMEPATH%\AppData\Local mkdir tts cd tts copy %HOMEPATH%\TTS\tts_models--ja--kokoro--tacotron2-DDC.zip . powershell -command "Expand-Archive -Path tts_models--ja--kokoro--tacotron2-DDC.zip" . copy %HOMEPATH%\TTS\vocoder_models--ja--kokoro--hifigan_v1.zip . powershell -command "Expand-Archive -Path vocoder_models--ja--kokoro--hifigan_v1.zip" .
音声合成を実行してみる.
コマンドプロンプトを管理者として実行: 別ページ »で説明
音声合成が行われる.
cd %HOMEPATH% tts --text "こんにちは.こんばんわ" --model_name "tts_models/ja/kokoro/tacotron2-DDC" --out_path speech.wav
speech.wav
公式ドキュメントのプログラムを変更して使用
from TTS.api import TTS text = "こんにちは。こんばんわ。これは音声合成です。" model_name = "tts_models/ja/kokoro/tacotron2-DDC" output_path = "output.wav" tts = TTS(model_name, progress_bar=True, gpu=True) tts.tts_to_file(text=text, file_path=output_path) import numpy as np from scipy.io import wavfile import pygame pygame.mixer.init(frequency=44100) pygame.mixer.music.load(output_path) pygame.mixer.music.play()
from TTS.api import TTS text = "こんにちは。こんばんわ。これは音声合成です。" model_name = "tts_models/ja/kokoro/tacotron2-DDC" output_path = "output.wav" tts = TTS(model_name, progress_bar=True, gpu=True) tts.tts_with_vc_to_file( text, speaker_wav="s14-3.wav", file_path=output_path ) import numpy as np from scipy.io import wavfile import pygame pygame.mixer.init(frequency=44100) pygame.mixer.music.load(output_path) pygame.mixer.music.play()
from TTS.api import TTS output_path = "output.wav" tts = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=True, gpu=True) tts.voice_conversion_to_file(source_wav="source.wav", target_wav="s14-3.wav", file_path=output_path) import numpy as np from scipy.io import wavfile import pygame pygame.mixer.init(frequency=44100) pygame.mixer.music.load(output_path) pygame.mixer.music.play()