voicevox_core#

無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのコア。

Submodules#

Attributes#

StyleId

スタイルID。

StyleVersion

スタイルのバージョン。

VoiceModelId

音声モデルID。

__version__

Exceptions#

ExtractFullContextLabelError

コンテキストラベル出力に失敗した。

GetSupportedDevicesError

サポートされているデバイス情報取得に失敗した。

GpuSupportError

GPUモードがサポートされていない。

InitInferenceRuntimeError

推論ライブラリのロードまたは初期化ができなかった。

InvalidModelDataError

無効なモデルデータ。

InvalidWordError

ユーザー辞書の単語のバリデーションに失敗した。

LoadUserDictError

ユーザー辞書を読み込めなかった。

ModelAlreadyLoadedError

すでに読み込まれている音声モデルを読み込もうとした。

ModelNotFoundError

音声モデルIDに対する音声モデルが見つからなかった。

NotLoadedOpenjtalkDictError

open_jtalk辞書ファイルが読み込まれていない。

OpenZipFileError

ZIPファイルを開くことに失敗した。

ParseKanaError

AquesTalk風記法のテキストの解析に失敗した。

ReadZipEntryError

ZIP内のファイルが読めなかった。

RunModelError

推論に失敗した。

SaveUserDictError

ユーザー辞書を書き込めなかった。

StyleAlreadyLoadedError

すでに読み込まれているスタイルを読み込もうとした。

StyleNotFoundError

スタイルIDに対するスタイルが見つからなかった。

UseUserDictError

OpenJTalkのユーザー辞書の設定に失敗した。

WordNotFoundError

ユーザー辞書に単語が見つからなかった。

Classes#

AccelerationMode

ハードウェアアクセラレーションモードを設定する設定値。

AccentPhrase

AccentPhrase (アクセント句ごとの情報)。

AudioQuery

AudioQuery (音声合成用のクエリ)。

Mora

モーラ(子音+母音)ごとの情報。

SpeakerMeta

話者 (speaker)のメタ情報。

SupportedDevices

ONNX Runtimeとして利用可能なデバイスの情報。

UserDictWord

ユーザー辞書の単語。

UserDictWordType

ユーザー辞書の単語の品詞。

Functions#

wav_from_s16le(→ bytes)

16bit PCMにヘッダを付加しWAVフォーマットのバイナリを生成する。

Package Contents#

class voicevox_core.AccelerationMode#

Bases: str, enum.Enum

ハードウェアアクセラレーションモードを設定する設定値。

AUTO = 'AUTO'#

実行環境に合った適切なハードウェアアクセラレーションモードを選択する。

CPU = 'CPU'#

ハードウェアアクセラレーションモードを”CPU”に設定する。

GPU = 'GPU'#

ハードウェアアクセラレーションモードを”GPU”に設定する。

class voicevox_core.AccentPhrase#

AccentPhrase (アクセント句ごとの情報)。

moras: List[Mora]#

モーラの配列。

accent: int#

アクセント箇所。

pause_mora: Mora | None = None#

後ろに無音を付けるかどうか。

is_interrogative: bool = False#

疑問系かどうか。

class voicevox_core.AudioQuery#

AudioQuery (音声合成用のクエリ)。

accent_phrases: List[AccentPhrase]#

アクセント句の配列。

speed_scale: float#

全体の話速。

pitch_scale: float#

全体の音高。

intonation_scale: float#

全体の抑揚。

volume_scale: float#

全体の音量。

pre_phoneme_length: float#

音声の前の無音時間。

post_phoneme_length: float#

音声の後の無音時間。

output_sampling_rate: int#

音声データの出力サンプリングレート。

output_stereo: bool#

音声データをステレオ出力するか否か。

kana: str | None = None#

[読み取り専用] AquesTalk風記法。

Synthesizer.audio_query() が返すもののみ str となる。入力としてのAudioQueryでは無視さ れる。

class voicevox_core.Mora#

モーラ(子音+母音)ごとの情報。

text: str#

文字。

vowel: str#

母音の音素。

vowel_length: float#

母音の音長。

pitch: float#

音高。

consonant: str | None = None#

子音の音素。

consonant_length: float | None = None#

子音の音長。

class voicevox_core.SpeakerMeta#

話者 (speaker)のメタ情報。

name: str#

話者名。

styles: List[StyleMeta]#

話者に属するスタイル。

speaker_uuid: str#

話者のバージョン。

version: StyleVersion#

話者のUUID。

order: int | None = None#

話者の順番。

SpeakerMeta の列は、この値に対して昇順に並んでいるべきである。

voicevox_core.StyleId#

スタイルID。

Parameters:

x (int) –

voicevox_core.StyleVersion#

スタイルのバージョン。

Parameters:

x (str) –

class voicevox_core.SupportedDevices#

ONNX Runtimeとして利用可能なデバイスの情報。

あくまでONNX Runtimeが対応しているデバイスの情報であることに注意。GPUが使える環境ではなかったとしても cudadmlTrue を示しうる。

cpu: bool#

CPUが利用可能。

常に True

cuda: bool#

CUDAが利用可能。

ONNX Runtimeの CUDA Execution Provider (CUDAExecutionProvider)に対応する。必要な環境についてはそちらを参照。

dml: bool#

DirectMLが利用可能。

ONNX Runtimeの DirectML Execution Provider (DmlExecutionProvider)に対応する。必要な環境についてはそちらを参照。

class voicevox_core.UserDictWord#

ユーザー辞書の単語。

surface: str#

言葉の表層形。

pronunciation: str#

言葉の発音。

カタカナで表記する。

accent_type: int#

アクセント型。

音が下がる場所を指す。

word_type: UserDictWordType#

品詞。

priority: int#

単語の優先度。

0から10までの整数。 数字が大きいほど優先度が高くなる。 1から9までの値を指定することを推奨する。

class voicevox_core.UserDictWordType#

Bases: str, enum.Enum

ユーザー辞書の単語の品詞。

PROPER_NOUN = 'PROPER_NOUN'#

固有名詞。

COMMON_NOUN = 'COMMON_NOUN'#

一般名詞。

VERB = 'VERB'#

動詞。

ADJECTIVE = 'ADJECTIVE'#

形容詞。

SUFFIX = 'SUFFIX'#

語尾。

voicevox_core.VoiceModelId#

音声モデルID。

Parameters:

x (UUID) –

exception voicevox_core.ExtractFullContextLabelError#

Bases: Exception

コンテキストラベル出力に失敗した。

exception voicevox_core.GetSupportedDevicesError#

Bases: Exception

サポートされているデバイス情報取得に失敗した。

exception voicevox_core.GpuSupportError#

Bases: Exception

GPUモードがサポートされていない。

exception voicevox_core.InitInferenceRuntimeError#

Bases: Exception

推論ライブラリのロードまたは初期化ができなかった。

exception voicevox_core.InvalidModelDataError#

Bases: Exception

無効なモデルデータ。

exception voicevox_core.InvalidWordError#

Bases: ValueError

ユーザー辞書の単語のバリデーションに失敗した。

exception voicevox_core.LoadUserDictError#

Bases: Exception

ユーザー辞書を読み込めなかった。

exception voicevox_core.ModelAlreadyLoadedError#

Bases: Exception

すでに読み込まれている音声モデルを読み込もうとした。

exception voicevox_core.ModelNotFoundError#

Bases: KeyError

音声モデルIDに対する音声モデルが見つからなかった。

exception voicevox_core.NotLoadedOpenjtalkDictError#

Bases: Exception

open_jtalk辞書ファイルが読み込まれていない。

exception voicevox_core.OpenZipFileError#

Bases: Exception

ZIPファイルを開くことに失敗した。

exception voicevox_core.ParseKanaError#

Bases: ValueError

AquesTalk風記法のテキストの解析に失敗した。

exception voicevox_core.ReadZipEntryError#

Bases: Exception

ZIP内のファイルが読めなかった。

exception voicevox_core.RunModelError#

Bases: Exception

推論に失敗した。

exception voicevox_core.SaveUserDictError#

Bases: Exception

ユーザー辞書を書き込めなかった。

exception voicevox_core.StyleAlreadyLoadedError#

Bases: Exception

すでに読み込まれているスタイルを読み込もうとした。

exception voicevox_core.StyleNotFoundError#

Bases: KeyError

スタイルIDに対するスタイルが見つからなかった。

exception voicevox_core.UseUserDictError#

Bases: Exception

OpenJTalkのユーザー辞書の設定に失敗した。

exception voicevox_core.WordNotFoundError#

Bases: KeyError

ユーザー辞書に単語が見つからなかった。

voicevox_core.__version__: str#
voicevox_core.wav_from_s16le(pcm: bytes, sampling_rate: int, is_stereo: bool) bytes#

16bit PCMにヘッダを付加しWAVフォーマットのバイナリを生成する。

Parameters:
  • pcm (bytes) – 16bit PCMで表現された音声データ

  • sampling_rate (int) – 入力pcmのサンプリングレート

  • is_stereo (bool) – 入力pcmがステレオかどうか

Returns:

WAVフォーマットで表現された音声データ

Return type:

bytes