voicevox_core#
無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのコア。
Submodules#
Attributes#
スタイルID。 |
|
スタイルのバージョン。 |
|
音声モデルID。 |
|
Exceptions#
コンテキストラベル出力に失敗した。 |
|
サポートされているデバイス情報取得に失敗した。 |
|
GPUモードがサポートされていない。 |
|
推論ライブラリのロードまたは初期化ができなかった。 |
|
無効なモデルデータ。 |
|
ユーザー辞書の単語のバリデーションに失敗した。 |
|
ユーザー辞書を読み込めなかった。 |
|
すでに読み込まれている音声モデルを読み込もうとした。 |
|
音声モデルIDに対する音声モデルが見つからなかった。 |
|
open_jtalk辞書ファイルが読み込まれていない。 |
|
ZIPファイルを開くことに失敗した。 |
|
AquesTalk風記法のテキストの解析に失敗した。 |
|
ZIP内のファイルが読めなかった。 |
|
推論に失敗した。 |
|
ユーザー辞書を書き込めなかった。 |
|
すでに読み込まれているスタイルを読み込もうとした。 |
|
スタイルIDに対するスタイルが見つからなかった。 |
|
OpenJTalkのユーザー辞書の設定に失敗した。 |
|
ユーザー辞書に単語が見つからなかった。 |
Classes#
ハードウェアアクセラレーションモードを設定する設定値。 |
|
AccentPhrase (アクセント句ごとの情報)。 |
|
AudioQuery (音声合成用のクエリ)。 |
|
モーラ(子音+母音)ごとの情報。 |
|
話者 (speaker)のメタ情報。 |
|
ONNX Runtimeとして利用可能なデバイスの情報。 |
|
ユーザー辞書の単語。 |
|
ユーザー辞書の単語の品詞。 |
Functions#
|
16bit PCMにヘッダを付加しWAVフォーマットのバイナリを生成する。 |
Package Contents#
- class voicevox_core.AccelerationMode#
Bases:
str
,enum.Enum
ハードウェアアクセラレーションモードを設定する設定値。
- AUTO = 'AUTO'#
実行環境に合った適切なハードウェアアクセラレーションモードを選択する。
- CPU = 'CPU'#
ハードウェアアクセラレーションモードを”CPU”に設定する。
- GPU = 'GPU'#
ハードウェアアクセラレーションモードを”GPU”に設定する。
- class voicevox_core.AccentPhrase#
AccentPhrase (アクセント句ごとの情報)。
- accent: int#
アクセント箇所。
- is_interrogative: bool = False#
疑問系かどうか。
- class voicevox_core.AudioQuery#
AudioQuery (音声合成用のクエリ)。
- accent_phrases: List[AccentPhrase]#
アクセント句の配列。
- speed_scale: float#
全体の話速。
- pitch_scale: float#
全体の音高。
- intonation_scale: float#
全体の抑揚。
- volume_scale: float#
全体の音量。
- pre_phoneme_length: float#
音声の前の無音時間。
- post_phoneme_length: float#
音声の後の無音時間。
- output_sampling_rate: int#
音声データの出力サンプリングレート。
- output_stereo: bool#
音声データをステレオ出力するか否か。
- kana: str | None = None#
[読み取り専用] AquesTalk風記法。
Synthesizer.audio_query()
が返すもののみstr
となる。入力としてのAudioQueryでは無視さ れる。
- class voicevox_core.Mora#
モーラ(子音+母音)ごとの情報。
- text: str#
文字。
- vowel: str#
母音の音素。
- vowel_length: float#
母音の音長。
- pitch: float#
音高。
- consonant: str | None = None#
子音の音素。
- consonant_length: float | None = None#
子音の音長。
- class voicevox_core.SpeakerMeta#
話者 (speaker)のメタ情報。
- name: str#
話者名。
- styles: List[StyleMeta]#
話者に属するスタイル。
- speaker_uuid: str#
話者のバージョン。
- version: StyleVersion#
話者のUUID。
- order: int | None = None#
話者の順番。
SpeakerMeta
の列は、この値に対して昇順に並んでいるべきである。
- voicevox_core.StyleId#
スタイルID。
- Parameters:
x (int) –
- voicevox_core.StyleVersion#
スタイルのバージョン。
- Parameters:
x (str) –
- class voicevox_core.SupportedDevices#
ONNX Runtimeとして利用可能なデバイスの情報。
あくまでONNX Runtimeが対応しているデバイスの情報であることに注意。GPUが使える環境ではなかったとしても
cuda
やdml
はTrue
を示しうる。- cpu: bool#
CPUが利用可能。
常に
True
。
- cuda: bool#
CUDAが利用可能。
ONNX Runtimeの CUDA Execution Provider (
CUDAExecutionProvider
)に対応する。必要な環境についてはそちらを参照。
- dml: bool#
DirectMLが利用可能。
ONNX Runtimeの DirectML Execution Provider (
DmlExecutionProvider
)に対応する。必要な環境についてはそちらを参照。
- class voicevox_core.UserDictWord#
ユーザー辞書の単語。
- surface: str#
言葉の表層形。
- pronunciation: str#
言葉の発音。
カタカナで表記する。
- accent_type: int#
アクセント型。
音が下がる場所を指す。
- word_type: UserDictWordType#
品詞。
- priority: int#
単語の優先度。
0から10までの整数。 数字が大きいほど優先度が高くなる。 1から9までの値を指定することを推奨する。
- class voicevox_core.UserDictWordType#
Bases:
str
,enum.Enum
ユーザー辞書の単語の品詞。
- PROPER_NOUN = 'PROPER_NOUN'#
固有名詞。
- COMMON_NOUN = 'COMMON_NOUN'#
一般名詞。
- VERB = 'VERB'#
動詞。
- ADJECTIVE = 'ADJECTIVE'#
形容詞。
- SUFFIX = 'SUFFIX'#
語尾。
- voicevox_core.VoiceModelId#
音声モデルID。
- Parameters:
x (UUID) –
- exception voicevox_core.ExtractFullContextLabelError#
Bases:
Exception
コンテキストラベル出力に失敗した。
- exception voicevox_core.GetSupportedDevicesError#
Bases:
Exception
サポートされているデバイス情報取得に失敗した。
- exception voicevox_core.GpuSupportError#
Bases:
Exception
GPUモードがサポートされていない。
- exception voicevox_core.InitInferenceRuntimeError#
Bases:
Exception
推論ライブラリのロードまたは初期化ができなかった。
- exception voicevox_core.InvalidModelDataError#
Bases:
Exception
無効なモデルデータ。
- exception voicevox_core.InvalidWordError#
Bases:
ValueError
ユーザー辞書の単語のバリデーションに失敗した。
- exception voicevox_core.LoadUserDictError#
Bases:
Exception
ユーザー辞書を読み込めなかった。
- exception voicevox_core.ModelAlreadyLoadedError#
Bases:
Exception
すでに読み込まれている音声モデルを読み込もうとした。
- exception voicevox_core.ModelNotFoundError#
Bases:
KeyError
音声モデルIDに対する音声モデルが見つからなかった。
- exception voicevox_core.NotLoadedOpenjtalkDictError#
Bases:
Exception
open_jtalk辞書ファイルが読み込まれていない。
- exception voicevox_core.OpenZipFileError#
Bases:
Exception
ZIPファイルを開くことに失敗した。
- exception voicevox_core.ParseKanaError#
Bases:
ValueError
AquesTalk風記法のテキストの解析に失敗した。
- exception voicevox_core.ReadZipEntryError#
Bases:
Exception
ZIP内のファイルが読めなかった。
- exception voicevox_core.RunModelError#
Bases:
Exception
推論に失敗した。
- exception voicevox_core.SaveUserDictError#
Bases:
Exception
ユーザー辞書を書き込めなかった。
- exception voicevox_core.StyleAlreadyLoadedError#
Bases:
Exception
すでに読み込まれているスタイルを読み込もうとした。
- exception voicevox_core.StyleNotFoundError#
Bases:
KeyError
スタイルIDに対するスタイルが見つからなかった。
- exception voicevox_core.UseUserDictError#
Bases:
Exception
OpenJTalkのユーザー辞書の設定に失敗した。
- exception voicevox_core.WordNotFoundError#
Bases:
KeyError
ユーザー辞書に単語が見つからなかった。
- voicevox_core.__version__: str#
- voicevox_core.wav_from_s16le(pcm: bytes, sampling_rate: int, is_stereo: bool) bytes #
16bit PCMにヘッダを付加しWAVフォーマットのバイナリを生成する。
- Parameters:
pcm (bytes) – 16bit PCMで表現された音声データ
sampling_rate (int) – 入力pcmのサンプリングレート
is_stereo (bool) – 入力pcmがステレオかどうか
- Returns:
WAVフォーマットで表現された音声データ
- Return type:
bytes