データサイエンスの提唱

  1. 第64回日本統計学会 共通テーマ 「データサイエンス I, II, III」,於 千葉大学,1996年9月. (同時開催された国際分類学会に参加した W.S. Cleveland,日本でデータサイエンス・パラダイムのアイディアを得る )
  2. 第65回日本統計学会 共通テーマ 「データサイエンス I, II, III, IV」,於 大阪大学,1997年7月.
  3. 柴田里程,データサイエンスから見えるもの --自然科学から経済まで--, 日経サイエンス, 9月号, p.56, 1998.
  4. 柴田里程, データサイエンスのすすめ,日本統計学会誌, 30, pp. 327-332, 2000.
  5. Cleveland, W. S., Data science: an action plan for expanding the technical areas of the field of statistics. International Statistical Review / Revue Internationale de Statistique, pp. 21-26,2001.
  6. 柴田里程,北川源四郎,清水邦夫,神保雅一,柳川堯,データサイエンスシリーズ 刊行,共立出版,2001-
  7. 柴田里程,『データリテラシー』, 共立出版, 2001.
  8. 文科省COEプログラム 「統合数理科学」データサイエンスによる現象の数理,2003年度-2007年度.
  9. 柴田里程, データサイエンス:統計科学からデータの科学へ,数学セミナー, 43, pp. 18-21, 2004.
  10. 柴田里程,横内大介,リレーショナルデータベース/その基礎理論と課題,数学セミナー,43, pp. 22-27, 2004.
  11. R. Shibata, "Envrironment for Good Data Mining", CSPS International Conference in Beijing, 2005-07.
  12. R. Shibata, "Model-Building in Data Science", Reassessing the pradigms of Statistical Model-Building at Mathematsches Forschungsinstitut Oberwolfach, 2007-10.
  13. R. Shibata, "Activities in Data Science Division of Keio University", Australian Statistical Society Regional Meeting at University of New South Wales, 2008-09.
  14. 柴田里程 統計科学からデータサイエンスへ, ゑれきてる, 2011
  15. B. Obama,"Big Data Initiative", Office of Science and Technology Policy Executive Office of the President, USA, 2012-03-29. (NSF: Big Data Science & and Engineering, DD: Data to Decisions, NIH: Data Available on Cloud, DE: Scientific Discovery, USGS: Big Data for Earth System Science)
  16. 佐々木俊尚, 絶対に知っておきたい最新常識62「データサイエンティスト」,文藝春秋四月号,287-288, 2013

データサイエンス

たとえば英語のWikipediaでは「データから何らかの意味で役立つことを抽出し,新たな価値を創りだす科学」がデータサイエンスであり,「各専門分野の専門家と協力しながら,必要なデータを探し出し,それらをフルに利用することで新たな価値を創造する専門家」がデータサイエンティストというように説明されています.この説明でデータサイエンスとは何か,データサイエンティストとは何かが概略おわかりになると思いますが,もう少し具体的な補足が必要でしょう.まず,この説明では,データサイエンスの基本はなにか,どうすれば新たな価値の創造に結び付けられるかなどの説明が抜けています.

データサイエンスの基本は「データの多様性と一般性の理解」です.データは状況により様々な姿をとり,個々別々に扱わざるを得ないように見えることもありますが,冗長になることをいとわず関係形式のテーブルデータの集まりとして書き直してみれば,一般性が見えてくることも多いのです.それと同時に外部キーだけでは記述しきれないメタデータの存在も浮かび上がってくるかもしれません.一つのテーブルデータ内での属性(列)の間の非明示的な関係の存在も浮かび上がってくるかもしれません.さらにさまざまなイレギュラリティーも見つかるかもしれません.これがデータの意味を理解し,全体像をつかむ第一歩です.DandD はこのためのインフラストラクチャーとして開発したものです.   

新たな価値の創造に結び付けるには,「データを無心に眺め,その背後にある現象に想像を巡らせる」豊かな好奇心とあくなき探究心が必要です.データを総体として理解することで,特定の手法に依存しない,より高い価値の創造を期待できます.

データサイエンティスト

データサイエンティストは,データのプロとしてデータの取得,蓄積,解析,検証のすべての段階に関与し責任を持つ存在です.創造した価値が本物であるかどうか十分に検証を重ねます.与えられたデータを解析するだけなら,適当なソフトウエアを動かせばすむかもしれません.しかしそれがどれだけの価値の創造に結び付くでしょうか.ひょっとして見当違いな結果ではないでしょうか? たとえば,売上高を価格と広告量で説明できたとしましょう.そうすると価格の係数が正になることはよくあります.それでもこの結果は価値を持ちますか? 価格を上げれば上げるほど売上高は増える,これはどう見ても変ですね.売上高の代わりに売上量をとるだけで,価格の係数は負に,広告量の係数は正になり,広告量の効果ははっきり浮かび上がってくるのにも関わらずです. つまり,結果が十分な説明能力をもち,様々な批判に耐え,本当に価値を発揮できるところまで保証できなければ新たな価値の創造とはいえません.アマの仕事とプロの仕事の違いですね.場合によっては,その結果次第で経営戦略や政策が変わったり,実験の方向が変わったりするわけですから,責任が重いのは当たり前です.

場合によっては,与えられた環境では結果がポジティブな価値ではなくネガティブな価値しか持たないこともありえます.それを結論とする勇気も必要でしょう.それがデータのプロとしての誇りです.さらには,大量のデータにも関わらず,ほとんどゴミでそこから価値の創造などできないということもあるかも知れません.しかし,これはこれでデータサイエンティストとしての立派な成果です.今後のデータ取得,蓄積の仕方を改善する大きな契機となります.いいかえればデータを腐らせてしまわないよう努力する,変質してしまわないようメインテナンスすること,これもデータサイエンティストの大きな仕事です.

しかし,ここまでのプロ意識をもったデータサイエンティストは一朝一夕には育ちません.まずは,信頼できるデータサイエンティストを擁した,しかるべき外部組織の指導のもと,データサイエンスの実践と人材育成を図るのが現実的な解決策だと思います.また,Davenport and Patil (Harvard Business Review, 2012)らの提唱する通り,さまざまな科学分野で活躍している科学者をデータの世界に招き入れデータサイエンティストとして育てるのも一つの方法でしょう.これはちょうど金融商品開発(Quants)が盛んになったとき,NASA の規模縮小に伴い失職した大量の科学者をファイナンス分野に招き入れた時と状況は似ていることは,彼らも指摘して通りです.しかし,金融商品開発の場合は収益という明確な基準で,裁定機会が存在しないという理想的な状況を想定することで明確な理論を構築し,そこから導出された価格を参考に市場参加者が取引するという世界を作り上げることができました. しかし,データサイエンスの場合は新たな価値の発見というどちらかというと漠然として目標に挑戦しなければなりませんし,その守備範囲も多岐にわたります.さまざまな科学分野で活躍してきた科学者がその専門知識と論理的な思考を生かす機会が多いことは確かですが,データという魔物の怖さ,難しさを実感し,それを乗り越える努力は金融商品開発の場合とはくらべものにならないほど大きいことは覚悟していただく必要があります.

一方,流行りに乗って規格化された”データサイエンティスト"を大量生産しようとする動きもあります.指示に従ってプログラムを動かしレポートにまとめる大量の「兵隊」さえ用意すれば,人海戦術でなんとかなるという楽観論にもとづいているように思えます.これではとても新たな価値の創出が可能になるとは思えません.中身は変わっていないのに看板の架け替えで流行に乗ろうとするこのようなビジネスモデルは結果的に落胆を招くだけではないか,大いに危惧せざるを得ません.

ビッグデータとデータサイエンス

ビッグデータといっても,記録数が多いだけなら,テクニカルな問題は残るものの,扱いが極端に難しくなることはないでしょう.問題は,属性数(変量数)が多く,それらが陰に陽に絡み合っているビッグデータです.英語のBigには単に規模が大きいという意味だけ でなく,「重大な」,「大変な」といった意味もありますので,Big data science は「重要な意味を持つ(かもしれない)データ」の科学,「扱いの大変なデータ」の科学という意味で使われているのではないかと思っています. このような場合でも,正面からその複雑さに挑戦すれば,大きな価値を生み出せると信じています.そのためには,高次元のデータの可視化の道具であるTextilePlot やサンプリングといった古典的な道具も使えるでしょうし,データをなるべく等質な部分に分割して解析し,それをあとでまとめるといったメタアナリシスに相当する作業も必要になるかも知れません.いずれにしろ,ビッグデータの場合は,目標をしっかり立て,データの存在状況,管理状況,整合性などをよくチェックしたうえで,適切なストラテジーで臨むことが必要なことは言うまでもないでしょう.その際インターデータベースといったデータサイエンスの基盤技術もきっと役立つことと思います.

データサイエンスとデータエンジニアリング

「なぜ」という疑問から出発し,その答えを発見し,正当性を可能な限り論理づけるのがサイエンスです.それに対し, 設定した「目標」を達成する(最適な)道筋をみつけ,実際にモノなりソフトウエアなりストラテジーなりを創りだすのがエンジニアリングです.データに関してもこの2種類の異なるパラダイムが存在します.その性格はずいぶん違いますから区別が必要でしょう. サイエンスのアプローチは一見まどろっこしく見えますが,「急がば回れ」という言葉もありますね. もちろん,データサイエンスとデータエンジニアリングの守備範囲は重なる部分も多いですね.データサイエンスがデータエンジニアリングで開発したさまざまなツールを使いこなすことは当然ですし,逆にデータエンジニアリングが目標の設定に当たってデータサイエンスが確立した知見を利用したり,目標達成にあたってデータサイエンティストの助言が必要な場面も多いと思います.性格の異なる2つのパラダイムですが,当然シナジー効果が大いに期待できるパラダイムと考えればよいのではないでしょうか.いいかえればデータサイエンティストとデータエンジニアの協働がうまくいって初めて大きな価値を生み出せるのです.それを支えるのがデータテクニシャンでしょう.

はやり言葉

データという言葉もサイエンスという言葉も,人によって違う意味で使われていることがあります.最近では,データには「推論の根拠となる資料」という意味のほかに「コンピュータで扱う対象すべて」といった広い意味もあるのでやっかいです.この意味でデータサイエンスという言葉を使うとコンピュータサイエンスの言い換えでしかなくなってしまいます.英語の Wikipedia の説明をもう一度よくご覧になれば,データをここまで拡大解釈していないことはおわかりになると思います.サイエンスという言葉についても同じことがいえるでしょう. エンジニアリングまで含めてしまうと「サイエンスってなに?」という疑問が生じるのも当然でしょう.サイエンスやサイエンティストという言葉を使うなら,その名前に値する仕事をしないといけませんね.