1)CommonCrawlの多人数データ抽出 (日本語)


こちら, すでに動いている内容で14名の方に動いて いただいております. CommonCrawlは過去のサイトのアーカイブ データであり, 多くのサイトデータが格納されています.

このサイトデータを使いGPT3のようなLLMは学習されています. そのため, 今回のプロジェクトでもこのCommonCrawlを使うことを 検討しています. いったんはまず日本語データからということで 日本語のコードと環境を提供しております

しかし、あまりにデータが多いため, 多人数でGoogle Colabや 個人環境を使い日本語データ抽出を行っております.このように 個人が集まり共同でデータセットを構築するというプロジェクトは 貴重であり, この事例を元に今後日本におけるデータセット構築が 加速することを狙いの1つとして挙げています.

これまでに1万/9万以上のデータが抽出されており, データ抽出 そのもののタスクは順調です.ぜひ, このテーマをメインで志望される方は

データ抽出だけでなく1>コード改良, 2>noteやqlitaなどでの発信, 3>notion化などにも 参加いただきたきたいです.

<具体的な内容> 1-1)提供を受けたスクリプトを使った日本語データ抽出

1-2)抽出されたデータの確認 (どのデータでエラーがあるなど)

1-3)このテーマに関するnotionの整備 (多くの方が参加できるように)


2)CommonCrawl+mC4 日本語/英語/(+ヒンディー)の整備(抽出+加工)

1)では個人が多く集まり, CommonCrawlのデータから日本語 データを抽出するという内容でした. しかし, 個人だけでは データ抽出には時間がかかるのも事実です.

さらに, CommonCrawlからデータを抽出したいのは日本語 だけではありません. 英語やヒンディー語などLLMの性能 を上げる可能性のあるデータも残っています.

そして, CommonCrawlはデータを抽出するだけでなく、 様々な加工をデータに施す必要があります.データは htmlなのでそこからテキストをどのように抽出するか, ノイズとなるテキストの除去, 重複テキストの除去など 検討事項は多いです. (しかし, これらがLLMの性能へ直結してきます.)

コードを書くことが時間的, 経験的に難しい場合でも調査を行ってくれる方 も募集しております.