ピコシムのブログ

読者です 読者をやめる 読者になる 読者になる

ピコシムのブログ

社会の出来事を「なぜ?だから何なの?」の視点で探ります

『データサイエンティスト』と『R』の概要

プログラミング

こんにちは、ピコシムです。

半年前、ADHDって別に他人事じゃん!と思っていたら(社会人編)の最後で、自分の適正にあった職種、『データサイエンティスト』じゃないの?とGoogle先生に教えてもらったことを思い出してたので、本を買って調べてみました。

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

データサイエンティストとは何か

データサイエンティストとは、ビッグデータを活用し、企業内外を取り巻く大量のデータを分析、それをマーケティング等に活かしてビジネス的な価値を生み出す役割を持った専門人材の事。

データサイエンティストとは | データサイエンティストの意味

必要な技能(ハードスキル)

  • IT系スキル(RDBMS関連、QSL、Hadoop関連、JAVAなど)
  • 分析系スキル(R、Python 、Perlなど、各種統計解析、機械学習に関する知識など)

必要な技能(ソフトスキル)

  • ビジネス系スキル(業界・業務に関する知識、質問力、理解力、伝達力など)

ザックリ言うと、データベースをイジって、Rなどのソフトで統計解析して、経営者に分かるように簡単な言葉で説明する人。

 

データサイエンスの7つのスキーム

  1. 業務理解

    事業責任者にヒアリングして業務の全体像を把握する

  2. データ理解

    営業部やネット集客の担当者にヒアリング。どの業務とデータ連携しているか、現状の自動運用、着手する分析の影響範囲の把握

  3. データ抽出

    データウェアハウスやデータマートからデータを抽出し、処理可能な状態にする(インスタンス化)

  4. データ加工

    異なるシステムデータを統合

    フィールド値の異なる型の統一

    欠損値、不正確な値、極端な値の定義

    データの選択

    分析に必要な形式にデータを再構成

    関連フィールドを変換する

    → この辺りはArcGIS(地理情報システム)と同じイメージ

    →最も時間がかかり、最重要の工程

  5. モデリング

    教師ありモデル

    1つ以上のフィールドに基づいて対象フィールドの予測をモデル化、結果が道である将来のケースを予測

    →ニューラルネットワーク

    →決定木

    →線形回帰

    →ロジスティック回帰などがある

    教師なしモデル

    予測されるフィールドはなく、データ内の関連性を検索して全体的な構造を発見するために利用

    →Kohonen

    →Twostep

    →K-means

    その他のモデル
    →アソシエーションツール

  6. 効果検証
    データサイエンスの結果から、ビジネス上で何にどの様に役立つか評価

  7. サービス実装
    予測や新しいデータに対する評価を作成するためのモデル展開
    既存サービスと接続
    既存データベースへの接続
    自動化など

データの種類や定義

ファイル形式

  • CSV
  • TSV
  • SPSS Statistics,SASデータファイル
  • Oracle,SQL Server, MySQL
  • Excel, Access

データ型

  • 連続型
    (0から100、整数、実数、日付、時間)
  • カテゴリ型
    (文字型の値、インスタンス化されていないもの)
  • フラグ型
    (ありorなし, 0/1)
  • 名義型
    (複数の値:東/西/南/北 セットカテゴリ型)
  • 順序型
    (少ない、普通、多い 固有の順序を持つもの)

このあたりは、QGISやArcGISと同じようなイメージです。

データベースの種類

  • Hadoop
  • Dynamo
  • Cassandra
  • MongoDB
  • VoltDB
  • Voldemort

データベースはほどんどイジったことがないので、概要だけつかんで必要になってから勉強する予定。

 

で、解析するためのソフト「R」についてお勉強

www.slideshare.net

 

ザックリ言うと

  • Rは統計解析環境
  • Rはプログラミング言語
  • 分野ごとの適切な知識が必要
  • RビギナータイプはRを使って統計を勉強しようね

必要なもの

  • R本体(使いにくいけど)
  • RStudio (使いやすい、Rが裏で動く)

 

開発環境についての例えが秀逸

RStudio=食洗機

R=たわし

 (分かりやすすぎて、コーヒー吹いた)

 

林さんに感謝

 

次回は、RとRStudioをインストールして動かしてみます。

 

今回の参考図書

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

  • 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成浩子,奥野晃裕,中川帝人,長岡裕己,中原誠
  • 出版社/メーカー: 技術評論社
  • 発売日: 2016/08/25
  • メディア: 大型本
  • この商品を含むブログ (1件) を見る
 

 

id:picsim

最後までお読み頂きありがとうございます!

次回もお楽しみに!