趣味と実益を兼ねたデータ サイエンスの腕試しは続いています。
仕事でも RStudio を再び触り始めたこともあり、オンでもオフでも初歩的な統計的機械学習を実践中。
しかしながら SIGNATE の Beginner 限定コンペはスコアがなかなか上がりません。
1. 「こういうアプローチでどうだろう」と考えつく
2. 手元の訓練データで確認してみる
3. 結構いい感じに適合する
4. 念のため交差検証もしてみる
5. それでもいい感じに適合する
6. 「これでどうじゃ」と言わんばかりにテスト データに当てはめて投稿
7. スコアを見て固まる → #1 に戻る
ホントにこれの繰り返しです。
1 日の投稿回数が 5 回までと決まっているので、そこでハード ストップになるわけですが、この制限がなかったらどうなることかと思うくらい。
そうした中で昨日、これこそはという着想を得て、本日それを改良のうえ検証。
これはきっと一気に合格ライン (正確率 78.5%) を突き抜けちゃうのでは、と何度目かの楽観的妄想とともに投稿すると…
スコア: 0.7850000
めっちゃギリギリやん。
でも、ついに、ついに到達!
と思ってリーダーボードを見てみると…
なぜ昇格 Line より下w
実はこれ、表示上のあやみたいなものらしく、その後届いたメールで無事昇格を確認しました。
しかしまぁ、21 回も投稿してギリギリ到達するレベルか…という感じがぬぐえませんね。
これまでの最高が 78.45% で、そこから個人的には革新的とさえ思えるアプローチに切り替えたものの、正確率で 0.05 ポイント、予測データ数にして 1 件分しか精度が向上しなかったというのは、ちょっと残念です。
締め切りまではあと一週間ちょっとあるので、改善を続けてみましょうかね。
とはいえ打ち手はかなり出し尽くした感もあるので、これ以上精度が上がるとしたら、アルゴリズムのランダム性によるものでしかないかもしれませんが。
いやー、データ サイエンスの道は楽しくも厳しいですねー。
~ 追記 ~
翌朝に手法を変えて臨んでみたところ、見事に昇格ラインをぶち抜けました。
ランクも一気に上昇。
これで心置きなくほかの課題にチャレンジできそうです。