今年玉山比賽真的很充實,幾天以來也已經看到許多強者貼出比賽心得了,例如
玉山 NLP 應用挑戰賽、玉山人工智慧公開挑戰賽 2020 夏季賽 — Brainchild。
NLP 底子沒有那麼深厚的我在佩服之餘,也思考能夠如何回饋給社群。我想我的特殊之處在於身為一個一邊比賽、一邊從頭學習 NLP 的新手,我希望也能夠給和我一樣缺乏基礎的人一些思路上的參考。
這篇文章主要目的是分享我的作法,以及我是如何在有限時間內從 0 經驗推進到打造出一個初步可行的解方。我本身是碩班開始念統計,只初步以自學得到有限的深度學習知識(大概知道backpropagation、activation function、Optimizers 等大致概念),之前也完全沒有接觸過自然語言處理。但我知道這個領域正蓬勃發展,比賽前看到很多文章討論 OpenAI 釋出超大模型GPT-3(例如這篇),就躍躍欲試,很想找機會好好了解這個領域。
現在外面的機器學習相關活動和比賽像雨後春筍一樣冒出,玉山每年也都會舉辦資料科學或機器學習相關比賽,今年(2020)的比賽和往常不同的特點在:
基於以上原因,我很快報名比賽,這次比賽過程,我主要希望能夠學習:
<aside> 🥅 目標 : 判斷該新聞內文是否含有洗錢防制 (AML) 相關焦點人物,並擷取出焦點人物名單(名單有可能為複數或為空)
</aside>
「模型訓練」進行方式如下: 參賽隊伍於 T-Brain 平台 Dataset Download 區下載訓練資料集,主辦單位提供新聞連結與該新聞對應的焦點人物名單,參賽隊伍需自行實作爬蟲程式獲取新聞內文。... 參賽隊伍須提供 RESTful API Server 並將模型部署於此 API Server,並以 API 服務形式供「線上對決 – 模型準度爭霸戰」使用...
「線上對決 – 模型準度爭霸戰」進行方式如下: 爭霸戰為期九天,包含一天測試賽(2020/07/22),與八天正式賽... 主辦單位將會使用 HTTP Request 方式驗證參賽者模型成效,每日多輪提問,每輪一題,... 將以模型擷取之名單準確度作為積分(詳見下方評分方式),並於每日 24:00 前於活動 Slack(channel # 公告區)公布當日累積積分排名,每日加總後積分為最終排名依據。
簡單來說: