IoTやデジタルトランスフォーメーションの普及・進展によって、日々膨大なデータが生み出されています。そのような膨大なデータを解析し、課題解決や価値創出に結びつけるために必要とされているのがデータサイエンティストです。今回は2018年4月に首都圏初となるデータサイエンス学部を開設した、横浜市立大学のデータサイエンス学部長・岩崎学さんにお話を伺いました。
「ここ数年でビッグデータやIoTといったキーワードが、企業の間でも急速に話題にあがるようになりました。この10年くらいの間に蓄積されてきたデータが、急速に花開いているような状況です。現状ではデータサイエンティストも人材不足で、手探り状態の企業も多いのではないでしょうか。本学としても、社会で通用するデータサイエンティストの育成が急務だと認識していますが、学問としてもデータサイエンスはまだまだ新しい領域です。腰を据えて教育体制を充実させていこうと、産学連携など、さまざまな取り組みを展開しています」
「本学では、データサイエンティストにとって必要な三つの力を定義しています。一つ目が統計学やデータ解析の知見を通じて、戦略的なデータ分析を行う『データアナリティクス力』。二つ目が『データエンジニアリング力』。計算機科学やアルゴリズムなどに代表される、データそのものを扱う力のことを指します。最後に『社会展開力』です。これら三つの力をバランスよく兼ね備えているのが理想的なデータサイエンティストですが、世界的に見てもそうした人材は少ないのが現状です。学生にはいつも、どれでもいいから最低一つはものにして欲しいと話しています。
また、データサイエンティストは複数の部署と協働したり、課題設定を行ったりする必要もあるので、コミュニケーション能力も不可欠です。コングロマリットな企業の場合、一つの会社の中にもさまざまな業種・業態があるわけなので、常に他分野に対する知見とリスペクトを持っておくべきだと思います。
加えて、データサイエンティストのニーズは世界的に高まっているので、大学としても語学教育は重視しています」
「私個人の研究キャリアとしては医薬品開発の現場と関係が深いのですが、例えば製薬メーカーなどの新薬開発には高度なデータ活用が行われています。新薬開発における臨床試験では、医師に依頼して被験者のデータを収集してもらうのですが、被験者一人あたり100万円以上のコストがかかることも普通です。例えば100人のデータを収集しようとすると、1億円以上かかってしまうことになるのです。そのため、少ない人数でも有効なデータを大量に引き出す手法が日々研究されているわけです。
また、新薬でなくても現在市販されている薬の販売後のデータも意味のあるデータになっています。いわゆる『リアルワールドデータ』と呼ばれるデータです。」
「例えばレセプト(診療報酬明細書)や電子カルテなど、個人にひもづく患者単位の実際の診療履歴に基づくデータのことです。
昔であればカルテは医師の手書きでしたし、『こういう薬を処方しました』と薬剤師が逐一記録していました。今はスマートフォンなどの普及によって患者の毎日の行動から日々の食事など、背景情報も含めた細やかなデータも収集できるようになりました。単純に数字やテキスト画像だけでなく、日々の行動もデータ化できるようになってきています。例えば食事をスマートフォンのカメラで撮れば、カロリー数がその場で分かったり、どんな栄養素が足りないかが瞬時に分かったりするわけです。
このように、データの取得や収集については飛躍的な技術向上が進んでいます。20年前と比べると、取得できるデータの量と質は比べものになりません。その一方で、なかなか進んでいないのがデータの『解析』です」
「データに対する『感受性』を高めた人間がもっと必要だと思います。電子化されたデータは、紙に書かれたものと違って普段は目に見えない。それをどうやって可視化し、社会に役立てていくのか。データと対話し、格闘しながらそれを考え、解析していくのがデータサイエンティストの役割です」
「大いに役立ってくれると思うのですが、最後の部分ではどうしても人の手に頼らざるを得ないところがあると思います。『AIがあれば何でもできる』『AIが言うことは正しい』というわけでは決してない。オートマチックにできる部分は機械やAIに任せればいい。しかし、課題を設定するのはあくまでも人間なのです。機械が勝手に課題を見つけてくれて、勝手に解決策を考えてくれることは現状ではまだ考えにくいでしょう。AIもまた、インプットされたデータから最適なアウトプットを引き出すための一つの方法論である、と私は考えています。すなわち、AIも統計学の一つの応用なのです。
データとは、『数値』と『背景情報』を組み合わせたもの。数値を解析するだけならば、それはあくまで数値解析であり、データ解析とは別物です。データサイエンティストは数値が持つ背景情報まで取り込んで、解析のモデルづくりまでやらなければならないのです」
「最近ではストレージの発展も目覚ましいものがあると思いますし、ローカルでデータを保存・管理するような措置も相変わらず重要だと思います。慎重な取り扱いが求められるデータに関しては、ネットにつなげていない、USB も差し込めないようなスタンドアローンのマシンに入れ、カメラで監視するようなセキュリティ体制でも決してやり過ぎではないでしょう。特に個人情報の取り扱いに関しては『データの持ち主が意図しない使い方はしない』というのは鉄則だと思います。これからは、データ分析のあり方も、社会の仕組みも、今よりもっと変わったものになってくるかもしれませんね」
デジタルツールやIoT活用がさまざまな企業や業界で進んでいる現在、データの量は増加しつづけています。また、データを収集・蓄積する技術も飛躍的に向上してきています。大切なのは、これらのビッグデータをどう解析し、課題解決や価値創造につなげていけるか。データサイエンティストの担う役割や期待はとても大きなものだと感じました。そして、データサイエンティストはもちろん、ビジネスの現場にいる人間なら誰しも、「データ」に対する高いリテラシーが求められる時代が到来しつつあるのかもしれません。
横浜市立大学 データサイエンス学部 学部長
専門は統計科学。2018年から開設された横浜市立大学データサイエンス学部長を務める。2015年〜2017年まで日本統計学会会長。2018年より応用統計学会会長。