玉山人工智慧公開挑戰賽2020夏季賽 - NLP應用挑戰賽

今年玉山比賽真的很充實，幾天以來也已經看到許多強者貼出比賽心得了，例如

玉山 NLP 應用挑戰賽、玉山人工智慧公開挑戰賽 2020 夏季賽 — Brainchild。

NLP 底子沒有那麼深厚的我在佩服之餘，也思考能夠如何回饋給社群。我想我的特殊之處在於身為一個一邊比賽、一邊從頭學習 NLP 的新手，我希望也能夠給和我一樣缺乏基礎的人一些思路上的參考。

這篇文章主要目的是分享我的作法，以及我是如何在有限時間內從 0 經驗推進到打造出一個初步可行的解方。我本身是碩班開始念統計，只初步以自學得到有限的深度學習知識（大概知道backpropagation、activation function、Optimizers 等大致概念），之前也完全沒有接觸過自然語言處理。但我知道這個領域正蓬勃發展，比賽前看到很多文章討論 OpenAI 釋出超大模型GPT-3（例如這篇），就躍躍欲試，很想找機會好好了解這個領域。

比賽那麼多，玉山的有什麼特別？

現在外面的機器學習相關活動和比賽像雨後春筍一樣冒出，玉山每年也都會舉辦資料科學或機器學習相關比賽，今年（2020）的比賽和往常不同的特點在：

題目是 NLP 應用相關
比賽方式並非直接上傳 submission，而是呼叫 API 進行預測，更貼近實際應用場景（因為 API 的形式更為靈活，可以即時可以批量，也可以很輕鬆地更換模型版本或者是給不同的人使用）

對於比賽的期望

基於以上原因，我很快報名比賽，這次比賽過程，我主要希望能夠學習：

NLP 的概念與實務應用
佈署模型到 API Server

比賽主題

<aside> 🥅 目標 : 判斷該新聞內文是否含有洗錢防制 (AML) 相關焦點人物，並擷取出焦點人物名單（名單有可能為複數或為空）

</aside>

「模型訓練」進行方式如下：參賽隊伍於 T-Brain 平台 Dataset Download 區下載訓練資料集，主辦單位提供新聞連結與該新聞對應的焦點人物名單，參賽隊伍需自行實作爬蟲程式獲取新聞內文。... 參賽隊伍須提供 RESTful API Server 並將模型部署於此 API Server，並以 API 服務形式供「線上對決 – 模型準度爭霸戰」使用...

「線上對決 – 模型準度爭霸戰」進行方式如下：爭霸戰為期九天，包含一天測試賽（2020/07/22），與八天正式賽... 主辦單位將會使用 HTTP Request 方式驗證參賽者模型成效，每日多輪提問，每輪一題，... 將以模型擷取之名單準確度作為積分（詳見下方評分方式），並於每日 24:00 前於活動 Slack（channel # 公告區）公布當日累積積分排名，每日加總後積分為最終排名依據。

簡單來說：

全對會獲得一分