『データ分析失敗事例集』を再読したが改めてデータサイエンスに関わる全ての人が読むべき本だと思った
様々なデータ分析現場での失敗事例をまとめた『データ分析失敗事例集』という本を数年ぶりに再読したのだが、生成AIが流行してそれを使った PoC 施策がますます発生しがちな昨今、改めてデータサイエンスに関わる全員が読むべき価値のある本だと思ったので紹介したい。
世の中で光が当たるのは大抵成功事例で、自分もニュースレターや技術ブログなどをフォローして、有名な企業の事例をよく読んでいる。ただ、その裏には表に出てこない失敗事例が多くあるのは現場で働いているみなさんならご存知の通りで、しかしそういう話はイベントの懇親会で近くの人と話すとかそういう機会でもないとなかなか入手できない。そのような影に葬られがちな話を収集し(匿名化して)扱っている点で、本書は非常に稀有である。
成功というのは運の要素が多くあり、またそのプロダクト特有の事情に左右されたりもするため、なかなか再現できないものである。一方で失敗は、結構限られたパターンに落ち着くことが多い。本書は、そうした失敗事例を20個以上集めており、そのどれもが思い当たる節があったり、自分も同じ現場にいたら同じような判断をしてしまいそう、と感じるものになっている。
例えばロット単位でしか発注できない商品に対して個数単位の予測精度を向上させようと頑張ってしまう事例が紹介されているが、自分も(小売ではないが)そのような予測結果がどう使われるか意識しないモデリングをやってしまったことがある。
最近は AI の性能向上が凄まじく、とりあえず PoC してみよう、とりあえず作って動かしてみよう、というプロダクトアウト的な動きが強くなっているように感じる。個人的にはそれ自体は悪いことではないと思っているが、作って試していろいろやってみても、結局それがユーザーにとって価値がなければ、ビジネスとしては成功しない。
本書にはいろいろな失敗の形が出てくるが、そこから得られる教訓を一言で言うと「ビジネスとして意味のあることをやろう」という話だと理解している。
関係者全員がビジネスとして意味のある方向を向いていれば成功…とまでは行かずとも、想定外の分析結果が出てきた際にも軟着陸できる可能性がある。その一方で、誰かが技術的なことにしか興味を持たなかったり、自分の成果がどう使われるかを想像できなかったり、自分の発言を後から覆せなかったりすると、失敗していくのだろう。また、自分の立場だけで物事を判断してしまうことも、失敗につながりやすい。
本書では、受託分析のように、複数の会社が関わるケースの失敗事例が多く出てくる。会社間でのコミュニケーションがどうしても取りづらかったり、納期がかっちり決まっていたり、クライアントサイドがITに投資していないせいでデータが不完全だったりという構造的な要因が多いのだろうと察せられる。一方、自分の経験の範囲では、事業会社内の施策でも似たような失敗事例や失敗まで行かずとも、これって本当に意味のあることやってるのか?これだけリソースを費やして得られる利益が釣り合っているのか?と首を捻りたくなる事例は少なくない。
ここ数年で一気に高性能な学習済みモデルが使えるようになり、自然言語処理や画像処理は自分でモデルを作る方が今や少数派である。だからこそ、MLエンジニアやデータサイエンティストも、単に技術に詳しいだけではなく、それをどうビジネスとして意味のあるものにするかを考えなければならない時代になっている。
結局のところ、ビジネスとして役に立っているか、ユーザーの課題を解決できているか、会社の利益につながっているか、そういう観点を持ち続けることが重要で、この時代に改めて読むと、とても身につまされる本である。