かずきのBlog@hatena

すきな言語は C# + XAML の組み合わせ。Azure Functions も好き。最近は Go 言語勉強中。日本マイクロソフトで働いていますが、ここに書いていることは個人的なメモなので会社の公式見解ではありません。

Googleビッグクエリー #devsumiD

めもめも

ビッグデータを「Googleスピード」で扱うためのテクノロジー

GoogleのBigData

これらを素早く圧相対。MapReduce?DWH?

DWHやMapReduceだけでは足りない
  • Data Warehouseソリューション
    • 超高い
    • アドホックな分析に対応しにくい
  • MapReduceソリューション
    • Hadoop
      • 高くない
      • スケールする
    • 課題
      • レスポンスが遅い
      • 数分から数時間
Dremel

Dremelとは

  • Googleが2006年から使ってる
  • 大規模並列クエリインフラ
  • 検索がありえない速さ
  • インデックス不要
    • 全てフルスキャン
    • そのかわり数千台のマシンを使ってる
  • あらゆるビッグデータをGoogleスピードで扱える
  • いまのGoogleを支えるコア・テクノロジー
Google BigQuery = Dremelの公開版
  • 2012年5月公開
  • 低コスト
  • Dremelのサブセット
    • ProtocolBuf未対応
    • しかし性能は同じ
  • デモを一般公開中
BigQueryの使い方
  • インポート

Google BigQueryデモ

BigQueryを使ったサービス

Google BigQueryはなぜ早い?

  • カラム指向データベース
  • 並列処理
    • 1テラのデータを一秒で解析するには一万台のマシンが必要

MapReduceとGoogle BigQueryの適材適所

  • 得手不得手がある
  • MapReduceはバッチ処理向き
  • BigQueryは、大量データを出力するのには向かない
  • BigQueryは更新できない