優先 | なぜ今やる? | 目標 |
---|---|---|
画像生成も TTS も「良いテキスト」が前提。まず キャッチボールが途切れない 状態に。 | ・ローカル推論サーバ立ち上げ・シュール寄りの語感テンプレを実装 | |
2. 即席 word2vec ログ取り | 10-15 分の仕込みで 検索/RAG の土台+学習可視化が手に入る。止まるほどの工数ではない。 | ・CSV + TensorBoard だけセット |
3. テキスト→画像パイプライン | 完全オフラインでも動くので実演しやすい。 | ・Stable Diffusion / ComfyUI を CLI で呼ぶ・プロンプトテンプレは oupe ec 側で生成 |
4. テキスト→声 | TTS の選定&声のパラメータ調整に少し時間がかかる。 | ・まず汎用 TTS(e.g. VITS)で MVP・後日 RVC / Diff-Singer で“声色”をチューニング |