HOME > 人材育成プログラム>講座一覧 > ビッグデータ・データマイニング概論 D05-02

ビッグデータ・データマイニング概論D05-02

講義概要

講座日程:2016年8月30日(1日間)

大規模な構造データを分散処理する原理と技術について学ぶ.特に,インターネット上の大規模データあるいはデータウェアハウスに格納されたビジネスデータを分析する事例に基づいて,分散データ処理の原理と技術を講義・演習を行う.

講師大阪大学大学院情報科学研究科    鬼塚 真

2014年より大阪大学大学院情報科学研究科教授.2000年~2001年ワシントン大学客員研究員,2010年~2014年NTT特別研究員.これまで多次元メモリDBMS, XMLデータベース/ストリーム処理,大規模分散処理基盤,分散データベースにおけるクエリ最適化,分散グラフ処理および高速化アルゴリズムに関する研究開発に従事.


講義内容

  1. 導入
    • クラウドコンピューティングの概要
    • NoSQL と MapReduce
  2. MapReduceの基礎
    • API,分散ファイルシステム,システムアーキテクチャ
  3. MapReduceのデザインパターン
    • 単語の頻度計算,複数単語の共起頻度計算,Naïve Bayes,二次キーによるソート,データベースジョイン
  4. Web検索システム
    • クローラ,転置インデックス,インデックスの圧縮
  5. グラフ処理アルゴリズム
    • 幅優先探索,PageRank計算
  6. 予備:EMアルゴリズム

受講要件

以下の情報を事前に学んでおくこと

教科書

  • 講義2週間前に電子ファイル送付(事前学習を推奨) 

講義に関連する解説記事・参考文献等

↑ページトップへ