AI 工廠真正困難的地方,不是讓模型生成一次結果,而是讓每一次失敗都能被看見、被定位、被替換,最後重新接回管線。

HLN Machine 是一座短影片工廠:給它一個新聞 seed,它會自己完成選題理解、腳本生成、配音、字幕、B-Roll、合成、放大與 YouTube Short 上傳。聽起來像一個魔法按鈕,但真正讓它能工作的,不是「按一下就自動完成」的想像,而是大量可觀測、可替換、可重啟的工程設計。

這篇文章記錄的不是一個單點 AI demo,而是一套本地化、零運行成本、但工程成本極高的生產系統。HLN 的核心價值,在於它把短影片製作拆成一組白盒管線,讓每一次生成的不穩定性都有地方被接住。

不是魔法按鈕

如果只看最終輸入與輸出,HLN 像是典型的「AI 一鍵生成短片」產品:輸入新聞,輸出短片。但這種敘事很容易誤導工程判斷。短影片的商業現實是單支內容的邊際收益很低,若每次生成都依賴昂貴的閉源 API,模型成本會直接吞掉實驗空間。

因此 HLN 一開始就不是在追求最漂亮的一次性輸出,而是在追求「可以反覆運行」的系統。這個約束非常硬:盡可能本地化,盡可能零運行成本,盡可能讓每個環節都能被檢查、替換與重跑。

本地模型不是免費午餐

HLN 運行在 Mac Studio M2 Ultra 128GB 上,主要依賴本地模型完成文本、語音、視覺理解與影片生成。這包括 indexTTS2、Qwen3 Next、Qwen3-VL、Wan 2.2 與 Whisper 這類組件。從帳單角度看,單次生成幾乎沒有雲端 API 成本;從工程角度看,成本只是換了形態。

所謂零成本,並不是沒有成本,而是把成本從每次調用的帳單,轉移到硬體、等待、失敗恢復與工程維護上。一次完整生成可能需要三到六小時,這使得「中途可恢復」比「一次跑完」更重要。

高熵創造與低熵抽取必須分離

HLN 的一個重要教訓是:不能把創作與抽取混在同一個 LLM 任務裡。讓模型同時重寫新聞、塑造 HLN 式語氣、抽取結構化欄位、標記 B-Roll 位置,通常會得到看似合理但不穩定的結果。

創作是高熵任務,需要模型發散;抽取是低熵任務,需要模型收斂。HLN 將這兩者拆開:先抽取,再改寫;先擴展候選,再打分;先生成腳本,再由下游 QA 檢查時長、字幕與片段結構。這種拆分看起來更繁瑣,但它把不可控的生成問題,變成了多個可以獨立觀察的小問題。

B-Roll 的關鍵不是想像,而是現實符號

直接讓 LLM 寫 prompt,再交給 Wan 做 text-to-video,往往會產生抽象、泛化、缺少新聞感的畫面。HLN 後來轉向另一條路:先尋找真實世界符號,再讓視覺模型描述素材,最後由 LLM 在語意描述中選擇可用片段。

這裡的重點不是圖片本身,而是圖片背後提供的「語意錨點」。新聞短片需要觀眾能立刻識別的現實符號:人物、場景、產品、機構、地點、衝突。當 B-Roll 來源建立在這些符號上,影片生成才不會只剩下漂亮但空泛的背景動畫。

句子熵如何驅動 B-Roll 窗口

最初讓 LLM 直接決定哪一句該出現 A-Roll、哪一句該出現 B-Roll,看起來自然,實際上很不可靠。HLN 改用更工程化的方法:計算句子熵,找出資訊密度與視覺需求更高的窗口,再將 B-Roll 插入這些區段。