第1週課程筆記整理

前半I 學習目標

課程目標就如這裡所寫，希望大家能理解LLM的概要。但只談概要的話內容會說不完，所以我更希望大家能思考，在這門課中，各位能學到什麼，或者說，對於參與課程的各位而言，現在為什麼要學習LLM？為什麼現在要學習這些技術？以及學了之後能如何應用？我會加入一些個人的觀點來談論這些部分。

LLM的核心概念與應用

那麼，我們就直接進入正題吧。雖然這部分可能大家已經覺得理所當然了，但我們都希望能有一個能操縱自然語言的助理，我們都想要一個自己的秘書，不是嗎？讓工作更輕鬆、幫忙整理會議摘要、寫好回信等等。如果有一個這樣的助理，生活會變得輕鬆許多。

再舉個比較技術性的例子，當我們遇到不懂的事情時，雖然這個例子可能太簡單了，但問「日本的首都是哪裡？」，它會回答「東京」。或者問「LLM為什麼這麼重要？」，它也會回答。或者在國外旅行時，它能像秘書一樣，「幫我把這段文字翻成英文」，或者拍張照就自動翻譯成英文或日文。

或者再舉個奇怪的例子，「幫我做個俄羅斯方塊的遊戲」，或是當你想自己做一個系統時，只要用語言下指令，它就能自動幫你寫出應用程式。這些事情，如果能實現，我們的生活將會變得更美好。

在幾年前，要實現這些事情簡直是天方夜譚，大家可能會覺得「你在說什麼啊？」。但現在，我想各位也深有體會，這些事情已經變得越來越接近現實，甚至不只是研究者，對大多數人來說，這已經是一個可以親手實現的世界了。

LLM的普及與生態系

當然，現在在網頁上就能做到。這對上這堂課的各位來說應該都不陌生了。不僅是OpenAI，還有Gemini、Claude，開源模型也有Llama、Qwen，日本的Swallow等等。在網頁上隨便問問就能得到答案，或者使用Hugging Face和Transformers函式庫，這個生態系也發展得非常成熟。

Hugging Face是一個模型和資料的共享平台，在美國也獲得了大量投資，上面已經有超過一百萬個模型，不僅是語言，還包括圖像、音訊，以及各種任務，像是影像轉文字等等，各種模型和資料集，以及它們是如何被創造出來的資訊，都被共享出來。

利用這些工具，舉例來說，如果只是想做情感分析，也就是判斷一段文字是正面還是負面，只要寫三行程式碼就能實現。這在以前是難以想像的，顯示出「使用」LLM的門檻已經變得非常低了。

本次講座的核心：理解LLM的創造過程

不過，在這門課中，我們不只要學習如何「使用」它，更要深入了解「它是如何被創造出來的」。關於這個部分，雖然在別的課程中也會提到，但今天我想稍微回顧一下，大規模語言模型究竟是如何實現的。

首先，因為它叫做「大規模語言模型」，所以我們可以想像，它是一個非常巨大的「語言模型」。那麼，「語言模型」又是什麼呢？如果用非常形式化的方式來定義，它就是一個為文章（例如，「我的名字是岩澤佑介」這句話可以拆解成「我」、「的」、「名字」、「是」等等一個個的詞語）的生成機率P賦予數值的機率模型P。

因為是機率，所以它會回傳一個數值。例如，對於「日本的首都是東京」這句話，因為是正確的知識，所以機率會比較高；而「日本的首都是巴黎」是錯誤的知識，不太可能出現，所以數值會比較低。像「東京的首都是日本」這種句子，雖然文法上可能成立，但可能性也不高。語言模型就是做這樣的事情。

聽到這裡可能會覺得「嗯？」，但基本上語言模型在做的就只有這件事。如何創造這個機率模型P，正是我們長久以來在技術上一直在討論的問題。那麼，為什麼光是這樣就能做到那麼多事情呢？詳細的解釋起來會很複雜，但簡單來說，只要能知道這個生成機率，我們就能表達各種各樣的事情。