データマイニング手法【3訂版】〈予測・スコアリング編〉

―営業、マーケティング、CRMのための顧客分析―

ゴードンS・リノフ/マイケルJ・A・ベリー 著
上野勉/江原淳/大野知英/小川祐樹/斉藤史朗/佐藤栄作/谷岡日出男/原田慧/藤本浩司

実務と手法をつないだベストセラー、待望の3訂版を2分冊で発行。ビッグデータへすぐに応用できるようケーススタディで解説。本編では、モデル作成と顧客分析で入手可能なデータ/決定木とダイレクトマーケティング/ニューラルネットワークと不動産価格/記憶ベース推論とリコメンデーション/顧客の生存時間分析を解説。

書籍データ

発行年月 2014年3月
判型 A5
ページ数 272ページ
定価 2,860円(税込)
ISBNコード 978-4-303-73427-5

amazon 7net

概要

ビッグデータの時代となった。これまでの業務トランザクションデータに加えて、センシングやGPSなどM2M(マシンtoマシン)データ、SNSやweb上のソーシャルデータなど、どの組織においてもデータの増大とそれへの対処が喫緊の課題となっている。

本書は、この領域でのデータ利活用についての著名なコンサルタントであり20年近く前からデータマイニングを実践している著者による、数式なしでの事例と図解による、ユーザのためのきわめて優れた手法紹介・解説である。本書では、最新の手法と応用事例によってほぼ全面的に改訂された『Data Mining Techniques(Third Edition)』からデータマイニング手法に関する章のみを翻訳している。

データマイニングは、ビジネス課題解決のために行われる。したがってデータの選択やデータクリーニングから変数変換、手法選択、報告まで、その目的に照らして適切に行われなければならない。原著のChapter 1を開いただけでも、適切なデータ量、履歴期間、変数選択、データ抽出方法、欠損値の扱いなどについて、ビジネス課題のためのモデル構築の視点から具体的に触れていることがわかる。データサイエンティストは、まずビジネスサイエンティストでもなければならないのである。たとえば、判別問題の要因となる変数を探すときに、平均値の周辺を除いて両端のデータだけを使ったCARTから変数選択する、というような実務から生まれたたくさんのノウハウと手法に満ちているのが本書である。

データマイニングにはビジネス上の目的がある。購買金額、顧客維持、解約行動、類似顧客からのリコメンデーションなどビジネス上の成果変数が明らかであり、それを向上させるためにモデルを利用することについては〈予測・スコアリング編〉で扱っている。ビッグデータから顧客をセグメント分けして、より効率的・効果的なCRMを行いたいというような課題については、〈探索的知識発見編〉で扱っている自動クラスタリングやバスケット分析、リンク分析、テキストマイニングなどが役立つであろう。

このようにデータマイニング実務経験から生み出された本書は、実務の関係者にとって貴重なものであることが第一の特徴である。第二に、事例のポイントを的確に伝えるために翻訳者もすべてデータマイニング実務経験のある者としたことも特徴かもしれない。第三に、この数年で普及してきたサポートベクターマシン、協調フィルタリング、生存時間分析、テキストマイニング、ナイーブベイズなどの新たな手法についても触れられている点があげられる。

著者は最も経験のあるデータマイニングコンサルタントである。本書を手に取ることによってそのコンサルティング経験を追体験することからあなたのデータマイニングをスタートしてほしい。ビッグデータではほとんどの差異は統計的に有意となるので、データの海に溺れないためには本書のような確かな指針が必要と思われる。そして、データサイエンスを学ぶ学生にも、実務視点で学習分野を見直す機会となる良い参考書となると思われる。(「訳者まえがき」より)

目次

[CHAPTER 1]記述と予測:プロファイリングと予測モデル
     1.1 目的志向的データマイニング
     1.2 目的志向的データマイニングの方法論
     1.3 第1段階:ビジネスの問題をデータマイニングの問題に翻案する
     1.4 第2段階:適切なデータを選択する
     1.5 第3段階:データについて知る
     1.6 第4段階:モデル用データを作る
     1.7 第5段階:データで問題を定義する
     1.8 第6段階:問題を浮かび上がらせるためにデータを変換する
     1.9 第7段階:モデルを構築する
     1.10 第8段階:モデルを評価する
     1.11 第9段階:モデルを実装する
     1.12 第10段階:結果を評価する
     1.13 第11段階:再び開始する
     1.14 得られた教訓

[CHAPTER 2]決定木
     2.1 決定木とは何か、どのように使われるのか
     2.2 決定木は局所モデルである
     2.3 決定木を育てる
     2.4 最良の分岐を見つける
     2.5 枝刈り
     2.6 決定木からルールを生成する
     2.7 決定木のいろいろ
     2.8 決定木の品質を評価する
     2.9 決定木が適切なのはいつか
     2.10 ケーススタディ:コーヒー焙煎工場におけるプロセス管理
     2.11 得られた教訓

[CHAPTER 3]人工ニューラルネットワーク
     3.1 ちょっとした歴史
     3.2 生物学的モデル
     3.3 人工ニューラルネットワーク
     3.4 応用例:不動産査定
     3.5 ニューラルネットワークの学習
     3.6 RBFネットワーク
     3.7 ニューラルネットワークの実際
     3.8 学習用データを選ぶ
     3.9 データを準備する
     3.10 ニューラルネットワークの出力を解釈する
     3.11 時系列に対するニューラルネットワーク
     3.12 ニューラルネットワークのモデルを説明できるか
     3.13 得られた教訓

[CHAPTER 4]最近傍アプローチ:記憶ベース推論と協調フィルタリング
     4.1 記憶ベース推論(MBR)
     4.2 MBRの課題
     4.3 ケーススタディ:マンモグラム画像の異常検出にMBRを利用する
     4.4 距離と類似性を計測する
     4.5 結合関数:近傍データから答えを導く方法
     4.6 ケーススタディ:Shazam-曲名検索アプリへの応用
     4.7 協調フィルタリング:レコメンデーションのための最近傍アプローチ
     4.8 得られた教訓

[CHAPTER 5]心配すべき時を知る:顧客理解のための生存分析の活用
     5.1 顧客の生存
     5.2 ハザード確率
     5.3 ハザードから生存へ
     5.4 比例ハザード
     5.5 生存分析の実際
     5.6 得られた教訓

プロフィール

訳者(五十音順)
上野 勉(株式会社ジーリサーチ 代表取締役、神奈川大学大学院 非常勤講師)
江原 淳(専修大学ネットワーク情報学部 教授)
大野 知英(ウェッジソフトウェア合同会社 代表)
小川 祐樹(株式会社ジーリサーチ)
斉藤 史朗(株式会社金融エンジニアリング・グループ 主任コンサルタント)
佐藤 栄作(千葉大学人文社会科学研究科 教授)
谷岡 日出男(データマインテック株式会社 代表取締役)
原田 慧(株式会社金融エンジニアリング・グループ コンサルタント)
藤本 浩司(テンソル・コンサルティング株式会社 代表取締役社長、東京農工大学工学研究院 客員教授)