• 装飾

    データサイエンティストの生産性を何倍にも上げる方法は

    • 意外と待ち時間が多いデータサイエンティストの1日

      企業内外に存在する膨大なデータ(ビッグデータ)を企業経営やビジネスに生かしたい。こうしたニーズが世界中で高まっている。既に先行している米国では、職業としてビッグデータを専門に扱う「データサイエンティスト」は10万人規模になっており、その職種への認知も広がっている。教育面でも「データサイエンティスト」専攻を設置する大学が増えている。

      もちろん日本でも、ビッグデータ活用への要望は高い。2013年7月には一般社団法人データサイエンティスト協会も発足しており、100社を超える企業が会員として名を連ねる。しかしデータサイエンティストの数は現在もまだ数千人程度。データサイエンティストという職種への認知も、まだ十分とはいえない状況だ。

      とはいえ、データサイエンティストといわないまでも、膨大なデータを分析してビジネスに生かすという活動を日常的に行っている専門職の数は、着実に増えている。データの集計・分析を専用ツールで行うのはもちろん、機械学習やディープラーニングの活用に従事する担当者も増えている。しかしデータサイエンティストたちが働く環境を見ると、その能力を十二分に発揮できる仕組みが提供されているとは、必ずしもいえない。

      これはデータサイエンスで先行する米国でも、似たような状況のようだ。下のグラフは米国のデータサイエンティストの1日を示したもの。コンピューターでデータ処理を回している時間が長く、その間はコーヒータイム(=コンピューターによる処理の待ち時間)になっていることが分かる(図1)。

       

      図1●米国におけるあるデータサイエンティストの1日

      コンピューターによる処理の待ち時間が、意外なほどに多いことが分かる。高額な給与で獲得した優秀なデータサイエンティストも、これでは十分な能力を発揮できない
    • これではその優秀な人材を十分に生かしているとはいえないだろう。日本ではデータサイエンティストはただでさえ不足している。総務省の調査によれば、2020年以降は38.9%、2025年以降は46.4%の割合で人員が不足するという(※)。

      今後はデータサイエンティストに関連した職種も増えていくはずだが、その能力を最大限に引き出すには、環境を整備することが重要な経営課題となることが分かる。とはいえ、そのために何十台ものサーバーを用意するなど、数千万ものコストをかけることは一部の企業を除くと難しいだろう。それでは具体的に、どうすればいいのだろうか。

      ※総務省「IoT時代におけるICT経済の諸課題に関する調査研究」(平成29年)

    • データサイエンティストの生産性が上がらない理由とその対策

      なぜ、データサイエンティストの生産性がなかなか上がらないのか。「もちろん様々な原因がありますが、その中でもデータを分析するインフラ環境は大きな要因の1つです」と指摘するのは、エヌビディアの田中 秀明氏だ。

      エヌビディア合同会社
      エンタープライズマーケティング
      シニアマネージャー
      田中 秀明氏

      同社はグラフィックボード(GPU)のメーカーとして知られているが、近年では機械学習やディープラーニングなど、AI分野でも積極的な活動を展開。GPUに新たな機能ブロック(コア)を実装することで、AIの処理を高速化している。「データサイエンティストの待ち時間が長いのは、CPUベースのサーバーでデータを処理しているからです。CPUでは同時に実行できる処理数が限られており、高額なサーバーを使った場合でもビッグデータ処理には時間がかかります。ここに並列処理が得意なGPUを活用することで、ビッグデータの処理時間を大幅に短縮できるのです」(田中氏)。

      エヌビディアではこのようなGPUの能力を利用できるワークステーションを「NVIDIA Data Science Workstation(DSWS)」として定義。これを活用することで、ビッグデータ処理をより身近で効率的なものにすることを提唱している。

      「当社は2018年夏にディープラーニング向け専用コア『Tensorコア』を持つ『NVIDIA Turing』というアーキテクチャを発表。これに基づくGPU製品『NVIDIA Quadro RTX』を、データサイエンティスト向けに提供しています。このGPUを実装したワークステーションがDSWSです」(田中氏)

      GPU製品としてラインアップされているのは、「RTX 8000」「RTX 6000」「RTX 5000」「RTX4000」の4モデル。最上位モデルのRTX 8000は48GBのメモリを搭載、その下のRTX 6000は24GBメモリとなっているが、実装しているコアは同じもの。RTX 8000、RTX 6000とRTX 5000は2枚セットでワークステーション内に格納でき、最大100GB/秒での相互通信が可能。RTX 8000×2なら96GBのメモリを確保でき、ほとんどの企業のビッグデータをその上で処理できるようになるという。

      「例えばこれをAIで利用した場合、CPUベースのものに比べデータの事前処理時間を約1/30、AIの学習時間を約1/8、検証まで含めたトータル時間を約1/10に短縮できます(図2)。CPUベースのサーバーに比べて圧倒的な処理能力を、データサイエンティストの手元に置くことが可能なのです」(田中氏)

    • 図2●CPUベースの処理時間と、RTX 8000による処理時間の比較

      左から、データの事前処理時間、AIの学習時間、検証まで含めたトータル時間であり、値が小さいほど高速である。AI専用コアを持つGPUの圧倒的な優位性が見てとれる
    • データサイエンスに必要なソフトもまとめて提供

      このようなワークステーションが手元にあれば、データサイエンティストの1日は次のように変化するはずだ(図3)。コンピューター処理の待ち時間が大幅に短縮され、1日の間にトライできる処理の数が一気に増大するからだ。

       

      図3●改善されたデータサイエンティストの1日

      最新のGPUを搭載したワークステーションを使った場合のデータサイエンティストの1日。待ち時間が短縮され、より多くのトライアルが可能になる
    • ただし、最新GPUを搭載したワークステーションがあれば、このような成果がすぐに得られるわけではない。必要なソフトウエアやフレームワークをそろえ、それらを導入・設定することで、自社の目的に適した利用環境を整えなければならない。データサイエンス向けのフレームワークとしては、RAPIDSやTensorFlow、PyTorch、Caffeなどがある。また、国産のディープラーニングフレームワークとしてはChainerが有名だ。しかしこれらのフレームワークを使うには、適切な組み合わせが求められる。

      エヌビディアではこれらの組み合わせを検証した上で、まとめてダウンロードして利用できる『NGC(NVIDIA GPU Cloud )コンテナ』を用意。その一方でGPU向け汎用並列コンピューティングプラットフォーム『CUDA(Compute Unified Device Architecture)』も提供しており、これをAI向けに拡張した『CUDA-X AI』も2019年6月に発表している。これらを活用することで、データサイエンティスト向けの環境を短時間で構築できるという。

      さらにエヌビディアは、ハードウエアベンダーのサーバー製品が要求の厳しいAI処理を実行できることを認証する『NGC Ready』というプログラムも展開。2019年3月にはそのワークステーション版も開始し、DSWSの普及促進を積極的に推進している。

      「AIなどのビッグデータ処理に対応できる高性能サーバーを用意しようとすると、投資額は数千万円から数億円になりますが、DSWSなら数百万円で入手可能です。1/10以下の投資金額で、データサイエンティストの能力を最大限に引き出せる環境を整備できるのです」(田中氏)

    • エヌビディアとの緊密な連携で最新GPUの能力を引き出すデル製品

      デル株式会社
      クライアント・ソリューションズ統括本部
      クライアント製品マーケティング本部
      フィールドマーケティングマネージャー
      湊 真吾氏

      このデータサイエンスに対応するワークステーションとして特に注目を集めているのが、デルが提供するDell Precisionシリーズだ。RTX 8000×2を搭載できる「Dell Precision 7920 Tower」や、RTX 6000を搭載できる「Dell Precision 5820 Tower」など、データサイエンス用途に対応し、一部構成については既に『NGC Ready』の認証を受けている。

      「DellはNVIDIAの数少ないグローバルパートナーの1社であり、緊密な連携を行うことでGPUの能力を引き出せる設計を行っています」と語るのは、デルの湊 真吾氏。例えばDell Precision 7920 Towerでは『マルチチャネルサーマルソリューション』と呼ばれる冷却機構を装備し、静音性と高い冷却性を両立していると説明する。「GPUは高温になると自動的にクロックレートが下がってしまい、処理能力も低下します。RTX 8000のようなハイエンドGPUを2枚挿しにしてその能力を引き出すには、一般的なワークステーション以上の冷却機構が必要なのです」。

      また、特許取得済みの独自技術『RMT(Reliable Memory Technology)Pro』を実装していることも、Dell Precisionの優位性の1つといえるだろう。これはリアルタイムでメモリエラーを検出し、自動的に修正する機能。負荷の高い処理を長時間にわたって回す場合でも、メモリエラーの影響を受けることなく、安定した処理が可能になると湊氏は説明する。

      さらにデルでは、AIにも活用できるモバイルRTX 5000を搭載するモバイルワークステーション『Dell Precision 7740』も2019年7月に発表。モバイルワークステーションにより、データサイエンスの活用の幅を広げていくことを視野に入れている。そうなれば、PoCの現場などで、データサイエンティストが仮説を立てながら、分析を繰り返していくことができるようになるだろう。

    • デルがデータサイエンティスト向けにリリースした、Dell Precisionシリーズのラインアップ。左から、RTX 8000×2を搭載できる「Dell Precision 7920 Tower」、RTX 6000を搭載できる「Dell Precision 5820 Tower」、モバイルRTX 5000を搭載しAIにも活用できるモバイルワークステーション「Dell Precision 7740」

       

      「先行してリリースしたタワーモデルは、ワールドワイドで既に数多くの企業に導入されており、モバイルワークステーションの出荷も始まっています。3Dの眼の画像分析を行うことで、既知の病状の識別の精度と速度を高めたり、小売りの需要予測を行ったり、クレジットカードの不正利用防止に役立てたりといったことはその一例です」と湊氏は語る。

      トライアル&エラー段階のビッグデータ活用では社外秘のデータを扱うことが多く、セキュリティ確保も重要になるため、データサイエンティストの手元で使えるワークステーションへのニーズは高いという。「この価格帯であれば、組織の一部門あるいはエリアを限定したデータ分析に適用できるかもしれません。日本でもワークステーションを活用し、トライアル&エラーを積極的に進めていただきたい。データサイエンティストたちに数多くのトライアル&エラーを実践させることこそが、データサイエンスを成功させる近道となるからです」と湊氏は語った。

    • 日経BP社の許可により、2020年1月20日~ 2020年4月12日掲載 の 日経 xTECH Active Special を再構成したものです。

  • ご不明な点は
    お気軽にお問合せください
    専門的なアドバイスの提供から複雑な問題の解決まで、お客様を確実にサポートします。