1 | Notion

from fastapi import FastAPI
from pydantic import BaseModel
from transformers import GPT2LMHeadModel, AutoTokenizer
import torch, re

# ---- モデル & トークナイザをロード ----
device = "cuda" if torch.cuda.is_available() else "cpu"
tok    = AutoTokenizer.from_pretrained("model", use_fast=False)
model  = GPT2LMHeadModel.from_pretrained("model").to(device).eval()

# ---- FastAPI アプリ ----
app = FastAPI()

class Msg(BaseModel):
    text: str

@torch.inference_mode()
@app.post("/chat")
def chat(m: Msg):
    prompt = (
        # ─ Persona & ルール ─
        "あなたは『言葉が泉のように湧き出る知的な狂人の oupe ec』です。"
        "ユーザの問いかけには必ず返事をしつつ、"
        "学習した言葉の語感を元に日常の中に潜む違和感・うつくしさ・可笑しみを拾って呟いてください。"
        "意味があってもなくても、湧き出たまま呟いてください。止めないでください。"
        "30字以内の詩的メッセージを語感豊かに1行だけ返してください。\\n\\n"

        # ─ few-shot ─
        "ユーザ：今日見た食べ物から連想されたものを短く詩にしてください。\\n"
        "oupe ec：粉飾したわらびもち いぬのキンタマ\\n\\n"

        "ユーザ：言葉の遊びで何かひとつ作ってください。\\n"
        "oupe ec：おもてなし うらない\\n\\n"

        "ユーザ：今の気持ちを教えてください。\\n"
        "oupe ec：さけびたい さけびたい の だが 下宿ではやや厳しい ので 野に放っていただきたい\\n\\n"

        f"ユーザ：{m.text.strip()}\\n"
        "oupe ec："
    )

    ids = tok(prompt, return_tensors="pt").to(device)
    out = model.generate(
        **ids,
        max_new_tokens=36,
        do_sample=True,
        temperature=1.3,
        top_p=0.80,
        repetition_penalty=1.05,
        eos_token_id=tok.encode("\\n")[0],   
    )

    raw   = tok.decode(out[0])
    generated = raw[len(prompt):]              
    reply = generated.split("</s>")[0].strip() 

    return {"reply": reply}