TODAY'S HOT
  • 2012年4月19日 東出輝裕(広島)が通算250犠打を達成。 (vs.DeNA)
  • 1977年4月19日 斉藤明夫(大洋)がプロ初登板を記録。(vs.ヤクルト)
  • 1977年4月19日 松本匡史(巨人)がプロ初盗塁を記録。(vs.阪神)
  • 2011年4月19日 丸佳浩(広島)がプロ初本塁打を記録。 (vs.横浜)
  • 2007年4月19日 古田敦也(ヤクルト)が通算2000試合出場を達成。 (vs.横浜)
  • 1990年4月19日 秋山幸二(西武)が通算200本塁打を達成。 (vs.ロッテ)
コラム COLUMN

野球ビッグデータをより輝かせるために―結果の予測から新たな価値の創出を目指して―(前編)

株式会社スタージェン 菅谷 勇樹

0  「結果の予測」に向けた取り組み

 11月10日の壮行試合を皮切りに、12日から5試合の予定で日米野球が開幕します。8年振りの開催とあって、試合を楽しみにされている野球ファンの方も多いのではないでしょうか。近年は多くの日本選手が海を渡り、活躍の場を広げたことも手伝って、メジャーリーグの情報がほぼリアルタイムに取得できるようになりました。データベースも整備され、まさに野球もビッグデータ時代を迎えたといっても過言ではないでしょう。このビッグデータを米国ではすでにチームの戦略方針や選手評価に活用しており、セイバーメトリクスと呼ばれています。
 ところが、これまでのところよく知られたいくつかのデータを組み合わせることで新しい指標を作り出す解析が多いように感じます。例えば、OPS という指標は出塁率+長打率という計算から得られますが、出塁率や長打率自身もまた、安打や打数、塁打などの指標の組み合わせから計算されるものです。データを集計してある年の、あるいはある時点までの通算成績を総括しているという点では、これまでのセイバーメトリクスは主に過去の成績データの要約を行なってきたといえるのではないでしょうか。

 株式会社スタージェンは、選手のキャリアのような数年単位の長期的な視点から、1打席あるいは1球といった短期的な視点まで、これまでのような過去の要約ではなく「結果の予測」につながるようなデータ解析に取り組んでいます。1球単位から観測可能になった野球ビックデータから、これまでとは異なった視点の導入や、新たな価値を生み出していくことを目指しています。

 本コラムでは日米野球の開催に合わせて、今シーズンの成績データを利用しながら、解析成果の一部を統計的なデータの眺め方とともに紹介していきたいと思います。結果の予測のためには観測データを抽象化し、得られた一般的な事実を数学的なモデル式として表現していく必要がありますが、そのためにはまず、経験や先入観にとらわれることなく素直にデータを眺めることが大切です。世の中ではデータサイエンスという言葉が流行っていますが、データを科学の対象とし、そこから新たな知見を抽出するためにはデータのことをよく知る必要があります。
 侍ジャパンに選出された日本選手の特徴はよく知られたところだと思いますが、来日するMLB選手についてはあまり知らないといった方も多いのではないでしょうか。ここではまず、2014年MLBレギュラーシーズンの成績データを眺めることで、出場選手の特徴を探ることから始めてみたいと思います。

1 2014 SUZUKI 日米野球 開幕

1.1 MLB出場選手の特徴は?

 MLBの公式ホームページでは、打率、HR数、盗塁数、出塁率など28の観測項目に関する打撃成績データ、いわゆるスタッツが表の形式で公開されています。既定打席数をクリアした選手のみを対象とすれば、2014年のデータでは147選手の成績を見ることができます。このデータを使って、日米野球に出場するMLB選手の特徴を探ってみることにしましょう。

 いまこの表データから打率の高い選手を探り出すためには打率についてデータを降順に並べ替え、パワーヒッターの場合にはHR数、あるいは長打率に対して同様の操作をします。それでは、ふたつのデータを同時に眺めたいといった場合にはどうでしょうか。打率がよく、長打力もあるような選手を見つけたいという場合です。打率、HR数ともに非常に優れた成績を残していれば簡単に見つけ出すことができるかもしれませんが、そうでない場合には目的の選手を探し出すことは難しいでしょう。さらに盗塁数が多い選手など、同時に考慮する項目が増えるにしたがってより困難になることは想像に難くないと思います。このような複数の観測項目からなるデータを眺める場合には、データを表の形式のまま扱うのではなく、''TextilePlot''(Kumasaka et al., 2008)というデータ視覚化手法が有効に作用します。

1.2 要注意選手は誰だ?

 TextilePlotは複数の観測項目からなるデータのありのままの姿を眺める場合に適した視覚化手法になります。各観測項目の軸は表データと同じように縦に並べてありますので、表を眺めるようにデータを見ることができますが、各項目ごとにデータを並べ替えるような操作なしに、直感的に各選手の特徴を一枚の図から把握することができるという特徴があります。TextilePlotの詳細についてはここでは割愛しますが、こちらのサイト(http://datascience.jp/TextilePlotguide.html)で詳しく説明されています。

図1:2014年MLB規定打席到達者の打撃成績を示すTextilePlot

 それでは2014年MLBの打撃データをTextilePlotで眺めてみましょう(図1)。図では似通った観測項目を順々にまとめていくクラスタリングという方法で座標軸を並べ替えてあり、試合数などの背景情報を除けば概ね左から、「打率」、「走力」、「出塁率」、「長打力」を表す項目が配置されています。ゴロアウト/フライアウト、犠打、盗塁死、3塁打数の4項目では座標軸の向きが逆になっていることに注意が必要ですが、その他の軸は上向きになっていますので、打率、出塁率、長打力などの成績がよければその選手の折れ線は図の上部で結ばれていくことになります。

 図1では出場選手のデータをハイライトして表示しました。すべての指標で成績が突出している選手はいなそうが、ほとんどの選手は何らかの指標で折れ線のピークをもっていますので、その項目では優れた打撃特徴を有しているといえそうです。またいろいろな特徴の選手をまんべんなく選んできているところをみると、MLBチームの日米野球に対する本気度がうかがえそうです。

1.3 打撃で注意すべきはアルトゥーベ

 図1のTextilePlotでは、アルトゥーベの成績に目がいくのではないでしょうか。HR数はそれほど多くありませんが、今シーズンメジャー最多の225本のヒットを打っており、2塁打も数多く記録しています。盗塁数が多いのもひとつの特徴です。ヒット性のあたりを許してしまえば2塁まで狙われてしまいますし、一度出塁させてしまうと盗塁にも警戒しなければなりませんのでMLBチームの攻撃のキーマンであると考えられそうです。打率に関連する項目ではカノ、モーノー、プイグの成績も優れていますが、HR数でもある程度の成績を残していますので長打力に関連する項目も高い数値を取っています。
 長打力のみに特化した選手といえばジョーンズとサンタナですが、サンタナはメジャー随一の四球数を記録し選球眼も優れていますので、甘い球は禁物です。
 また、長打力や出塁率ではあまりよい成績を残していませんが、今シーズン31盗塁を成功させているエスコバルが出塁した際にはその足には注意が必要でしょう。犠打を戦略として用いることが少ないMLBにおいて、犠打を多用しているところをみると出塁率の欠点を補い、快足の長所を生かすためのひとつの戦術なのかもしれません。

 このようにTextilePlotという視覚化表現を用いれば、各選手の特徴をたった一枚の図から読み取っていくことが可能となり、それぞれの選手のどのような点に注意すべきか、あるいはそれほど注意を払わなくてもよいのかといったことがわかります。今年の打撃成績データによると、アルトゥーベをいかに抑えられるかが日米野球の勝敗を分けるひとつの重要なポイントになりそうです。
 そこで後編では、三振確率の数理モデルから奪三振率を予測することにより、アルトゥーベに有効な配球を探り、対策を考えてみることにします。


※後編はこちら

執筆者紹介

菅谷 勇樹
理学博士(慶應義塾大学)。慶應義塾大学で、柴田里程理工学部前教授、現名誉教授の下、データサイエンスを学ぶ。2010年、株式会社スタージェン入社。遺伝統計解析事業部に所属し、ゲノムデータ、臨床データなどのデータ解析業務に携わる。専門はデータサイエンス・遺伝統計学。