今年玉山比賽真的很充實,幾天以來也已經看到許多強者貼出比賽心得了,例如

玉山 NLP 應用挑戰賽玉山人工智慧公開挑戰賽 2020 夏季賽 — Brainchild

NLP 底子沒有那麼深厚的我在佩服之餘,也思考能夠如何回饋給社群。我想我的特殊之處在於身為一個一邊比賽、一邊從頭學習 NLP 的新手,我希望也能夠給和我一樣缺乏基礎的人一些思路上的參考。

這篇文章主要目的是分享我的作法,以及我是如何在有限時間內從 0 經驗推進到打造出一個初步可行的解方。我本身是碩班開始念統計,只初步以自學得到有限的深度學習知識(大概知道backpropagation、activation function、Optimizers 等大致概念),之前也完全沒有接觸過自然語言處理。但我知道這個領域正蓬勃發展,比賽前看到很多文章討論 OpenAI 釋出超大模型GPT-3(例如這篇),就躍躍欲試,很想找機會好好了解這個領域。

比賽那麼多,玉山的有什麼特別?

現在外面的機器學習相關活動和比賽像雨後春筍一樣冒出,玉山每年也都會舉辦資料科學或機器學習相關比賽,今年(2020)的比賽和往常不同的特點在:

  1. 題目是 NLP 應用相關
  2. 比賽方式並非直接上傳 submission,而是呼叫 API 進行預測,更貼近實際應用場景(因為 API 的形式更為靈活,可以即時可以批量,也可以很輕鬆地更換模型版本或者是給不同的人使用)

對於比賽的期望

基於以上原因,我很快報名比賽,這次比賽過程,我主要希望能夠學習:

  1. NLP 的概念與實務應用
  2. 佈署模型到 API Server

比賽主題

<aside> 🥅 目標 : 判斷該新聞內文是否含有洗錢防制 (AML) 相關焦點人物,並擷取出焦點人物名單(名單有可能為複數或為空)

</aside>

「模型訓練」進行方式如下: 參賽隊伍於 T-Brain 平台 Dataset Download 區下載訓練資料集,主辦單位提供新聞連結與該新聞對應的焦點人物名單,參賽隊伍需自行實作爬蟲程式獲取新聞內文。... 參賽隊伍須提供 RESTful API Server 並將模型部署於此 API Server,並以 API 服務形式供「線上對決 – 模型準度爭霸戰」使用...

「線上對決 – 模型準度爭霸戰」進行方式如下: 爭霸戰為期九天,包含一天測試賽(2020/07/22),與八天正式賽... 主辦單位將會使用 HTTP Request 方式驗證參賽者模型成效,每日多輪提問,每輪一題,... 將以模型擷取之名單準確度作為積分(詳見下方評分方式),並於每日 24:00 前於活動 Slack(channel # 公告區)公布當日累積積分排名,每日加總後積分為最終排名依據。

簡單來說:

  1. 全對會獲得一分