かたてわざ

いろんなことを、気が向く範囲で片手間で。って言いながら最近 2nd ブログと更新ペースがどっこいどっこい。

SIGNATE Beginner 限定コンペ その後

趣味と実益を兼ねたデータ サイエンスの腕試しは続いています。

 

仕事でも RStudio を再び触り始めたこともあり、オンでもオフでも初歩的な統計的機械学習を実践中。

 

しかしながら SIGNATE の Beginner 限定コンペはスコアがなかなか上がりません。

 

1. 「こういうアプローチでどうだろう」と考えつく

2. 手元の訓練データで確認してみる

3. 結構いい感じに適合する

4. 念のため交差検証もしてみる

5. それでもいい感じに適合する

6. 「これでどうじゃ」と言わんばかりにテスト データに当てはめて投稿

7. スコアを見て固まる → #1 に戻る

 

ホントにこれの繰り返しです。

1 日の投稿回数が 5 回までと決まっているので、そこでハード ストップになるわけですが、この制限がなかったらどうなることかと思うくらい。

 

そうした中で昨日、これこそはという着想を得て、本日それを改良のうえ検証。

これはきっと一気に合格ライン (正確率 78.5%) を突き抜けちゃうのでは、と何度目かの楽観的妄想とともに投稿すると…

 

 

 

スコア: 0.7850000

 

 

 

めっちゃギリギリやん。

 

でも、ついに、ついに到達!

と思ってリーダーボードを見てみると…

 

 

 

f:id:katatewaza:20210122204603j:plain

 

 

 

なぜ昇格 Line より下w

 

実はこれ、表示上のあやみたいなものらしく、その後届いたメールで無事昇格を確認しました。

 

f:id:katatewaza:20210122205648p:image

 

しかしまぁ、21 回も投稿してギリギリ到達するレベルか…という感じがぬぐえませんね。

これまでの最高が 78.45% で、そこから個人的には革新的とさえ思えるアプローチに切り替えたものの、正確率で 0.05 ポイント、予測データ数にして 1 件分しか精度が向上しなかったというのは、ちょっと残念です。

 

締め切りまではあと一週間ちょっとあるので、改善を続けてみましょうかね。

とはいえ打ち手はかなり出し尽くした感もあるので、これ以上精度が上がるとしたら、アルゴリズムのランダム性によるものでしかないかもしれませんが。

 

いやー、データ サイエンスの道は楽しくも厳しいですねー。

 

~ 追記 ~

翌朝に手法を変えて臨んでみたところ、見事に昇格ラインをぶち抜けました。

ランクも一気に上昇。

 

f:id:katatewaza:20210123105503j:plain

 

これで心置きなくほかの課題にチャレンジできそうです。