かずきのBlog@hatena

日本マイクロソフトに勤めています。XAML + C#の組み合わせをメインに、たまにASP.NETやJavaなどの.NET系以外のことも書いています。掲載内容は個人の見解であり、所属する企業を代表するものではありません。

Googleビッグクエリー #devsumiD

めもめも

ビッグデータを「Googleスピード」で扱うためのテクノロジー

GoogleのBigData

これらを素早く圧相対。MapReduce?DWH?

DWHやMapReduceだけでは足りない
  • Data Warehouseソリューション
    • 超高い
    • アドホックな分析に対応しにくい
  • MapReduceソリューション
    • Hadoop
      • 高くない
      • スケールする
    • 課題
      • レスポンスが遅い
      • 数分から数時間
Dremel

Dremelとは

  • Googleが2006年から使ってる
  • 大規模並列クエリインフラ
  • 検索がありえない速さ
  • インデックス不要
    • 全てフルスキャン
    • そのかわり数千台のマシンを使ってる
  • あらゆるビッグデータをGoogleスピードで扱える
  • いまのGoogleを支えるコア・テクノロジー
Google BigQuery = Dremelの公開版
  • 2012年5月公開
  • 低コスト
  • Dremelのサブセット
    • ProtocolBuf未対応
    • しかし性能は同じ
  • デモを一般公開中
BigQueryの使い方
  • インポート

Google BigQueryデモ

BigQueryを使ったサービス

Google BigQueryはなぜ早い?

  • カラム指向データベース
  • 並列処理
    • 1テラのデータを一秒で解析するには一万台のマシンが必要

MapReduceとGoogle BigQueryの適材適所

  • 得手不得手がある
  • MapReduceはバッチ処理向き
  • BigQueryは、大量データを出力するのには向かない
  • BigQueryは更新できない