優先 なぜ今やる? 目標
1. oupe ec が安定して対話できる 画像生成も TTS も「良いテキスト」が前提。まず キャッチボールが途切れない 状態に。 ・ローカル推論サーバ立ち上げ・シュール寄りの語感テンプレを実装
2. 即席 word2vec ログ取り 10-15 分の仕込みで 検索/RAG の土台+学習可視化が手に入る。止まるほどの工数ではない。 ・CSV + TensorBoard だけセット
3. テキスト→画像パイプライン 完全オフラインでも動くので実演しやすい。 ・Stable Diffusion / ComfyUI を CLI で呼ぶ・プロンプトテンプレは oupe ec 側で生成
4. テキスト→声 TTS の選定&声のパラメータ調整に少し時間がかかる。 ・まず汎用 TTS(e.g. VITS)で MVP・後日 RVC / Diff-Singer で“声色”をチューニング