從魔法按鈕到白盒工廠：HLN Machine 的工程實錄

AI 工廠真正困難的地方，不是讓模型生成一次結果，而是讓每一次失敗都能被看見、被定位、被替換，最後重新接回管線。

HLN Machine 是一座短影片工廠：給它一個新聞 seed，它會自己完成選題理解、腳本生成、配音、字幕、B-Roll、合成、放大與 YouTube Short 上傳。聽起來像一個魔法按鈕，但真正讓它能工作的，不是「按一下就自動完成」的想像，而是大量可觀測、可替換、可重啟的工程設計。

這篇文章記錄的不是一個單點 AI demo，而是一套本地化、零運行成本、但工程成本極高的生產系統。HLN 的核心價值，在於它把短影片製作拆成一組白盒管線，讓每一次生成的不穩定性都有地方被接住。

不是魔法按鈕

如果只看最終輸入與輸出，HLN 像是典型的「AI 一鍵生成短片」產品：輸入新聞，輸出短片。但這種敘事很容易誤導工程判斷。短影片的商業現實是單支內容的邊際收益很低，若每次生成都依賴昂貴的閉源 API，模型成本會直接吞掉實驗空間。

因此 HLN 一開始就不是在追求最漂亮的一次性輸出，而是在追求「可以反覆運行」的系統。這個約束非常硬：盡可能本地化，盡可能零運行成本，盡可能讓每個環節都能被檢查、替換與重跑。

本地模型不是免費午餐

HLN 運行在 Mac Studio M2 Ultra 128GB 上，主要依賴本地模型完成文本、語音、視覺理解與影片生成。這包括 indexTTS2、Qwen3 Next、Qwen3-VL、Wan 2.2 與 Whisper 這類組件。從帳單角度看，單次生成幾乎沒有雲端 API 成本；從工程角度看，成本只是換了形態。

TTS 可能被 VRAM、Gradio 狀態與音色參考拖垮。
Wan 2.2 可以生成影片，但不同模式在速度、穩定性與語意可控性上差異巨大。
macOS MPS 不是 CUDA，PyTorch operator、記憶體行為與第三方套件支援都會成為實際邊界。

所謂零成本，並不是沒有成本，而是把成本從每次調用的帳單，轉移到硬體、等待、失敗恢復與工程維護上。一次完整生成可能需要三到六小時，這使得「中途可恢復」比「一次跑完」更重要。

高熵創造與低熵抽取必須分離

HLN 的一個重要教訓是：不能把創作與抽取混在同一個 LLM 任務裡。讓模型同時重寫新聞、塑造 HLN 式語氣、抽取結構化欄位、標記 B-Roll 位置，通常會得到看似合理但不穩定的結果。

創作是高熵任務，需要模型發散；抽取是低熵任務，需要模型收斂。HLN 將這兩者拆開：先抽取，再改寫；先擴展候選，再打分；先生成腳本，再由下游 QA 檢查時長、字幕與片段結構。這種拆分看起來更繁瑣，但它把不可控的生成問題，變成了多個可以獨立觀察的小問題。

B-Roll 的關鍵不是想像，而是現實符號

直接讓 LLM 寫 prompt，再交給 Wan 做 text-to-video，往往會產生抽象、泛化、缺少新聞感的畫面。HLN 後來轉向另一條路：先尋找真實世界符號，再讓視覺模型描述素材，最後由 LLM 在語意描述中選擇可用片段。

這裡的重點不是圖片本身，而是圖片背後提供的「語意錨點」。新聞短片需要觀眾能立刻識別的現實符號：人物、場景、產品、機構、地點、衝突。當 B-Roll 來源建立在這些符號上，影片生成才不會只剩下漂亮但空泛的背景動畫。

句子熵如何驅動 B-Roll 窗口

最初讓 LLM 直接決定哪一句該出現 A-Roll、哪一句該出現 B-Roll，看起來自然，實際上很不可靠。HLN 改用更工程化的方法：計算句子熵，找出資訊密度與視覺需求更高的窗口，再將 B-Roll 插入這些區段。