渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

ビジネスの現場でデータマイニングに取り組むなら必読の一冊(ただし洋書)

週末ということで、何となく書籍紹介でも。isseing333さんのブログ記事で紹介されていたのを見て、僕も買った本です。


Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)

Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)


洋書*1なので多少読むのに手間取るかもですが、僕の知る限り、これ以上実際のビジネスへの応用を意識し尚且つデータマイニングのmethodologyを網羅的に紹介している本は今のところ他にはない、と思います。


特に、この本の優れているところとしては

  • なぜデータマイニングがビジネスの現場での意思決定に重要か?を実際の事例を挙げながら説いている
  • データマイニングソフトウェア間での性能比較を23ページにも渡って一覧表にして示してある(R / SAS / SPSS etc.)
  • 統計分析&機械学習の諸手法を「どのようなデータに対して」「どういう場面で」「何を目的として」「どうやって」用いるべきかを分かりやすく説明してくれる
  • 実際に世界中の企業がどのようなデータマイニングの取り組みを行っているかについてもふれている

といった点があり、現実のビジネスにコミットしているデータサイエンティストにとっては痒いところに手が届く感のある百科事典的な本だと言って良いでしょう。


惜しい点を挙げるとすれば、フランス現地の状況がそうだからなのか、もしくは書かれた時期が少し前だったからなのか、テキストマイニングとwebデータマイニングについての記述が少ないところ。


とは言え、そこを補って余りあるほどのデータマイニング諸手法に関する解説と、大量の事例紹介は、紛れもなくビジネスの現場で格闘するデータサイエンティストにとってはこの上なく心強い味方になるのではないでしょうか。僕も、職場でこの本を脇に置いていて常々何か困った時には参照するようにしています。


最後に、目次を引用しておきます。僕個人が興味深いと思ったトピックを太字にしておきました。

  1. Oveview of data mining.
    1. What is data mining?
    2. What is data mining used for?
    3. Data mining and statistics.
    4. Data mining and information technology.
    5. Data mining and protection of persona; data.
    6. Implementation of data mining.
  2. The development of a data mining study.
    1. Defining the aims.
    2. Listing the existing data.
    3. Collecting the data.
    4. Exploring and preparing the data.
    5. Population segmentation.
    6. Drawing up and validating predictive models.
    7. Synthesizing predictive models of different segments.
    8. Iteration of the preceding steps.
    9. Deploying the models.
    10. Training the model users.
    11. Monitoring the models.
    12. Enriching the models.
    13. Remarks.
    14. Life cycle of a model.
    15. Costs of a pilot project.
  3. Data Exploration and preparation.
    1. The different types of data.
    2. Examining the distribution of variables.
    3. Detection of rare or missing values.
    4. Detection of aberrant values.
    5. Detection of extreme values.
    6. Tests of normality.
    7. Homoscedasticity and heteroscedasticity.
    8. Detection of the most discriminating variables.
    9. Transformation of variables.
    10. Choosing ranges of values of binned variables.
    11. Creating new variables.
    12. Detecting interactions.
    13. Automatic variable selection.
    14. Detection of collinearity.
    15. Sampling.
  4. Using commercial data.
    1. Data used in commercial applications.
    2. Special data.
    3. Data used by business sector.
  5. Statistical and data mining software.
    1. Types of data mining and statistical software.
    2. Essential characteristics of the software.
    3. The main software packages.
    4. Comparison of R, SAS and IBM SPSS.
    5. How to reduce processing time.
  6. An outline of data mining methods.
    1. Classification of the methods.
    2. Comparison of the methods.
  7. Factor analysis.
    1. Principal component analysis.
    2. Variants of principal component analysis.
    3. Correspondence analysis.
    4. Multiple correspondence analysis.
  8. Neural networks.
    1. General information on neural networks.
    2. Structure of a neural network.
    3. Choosing the learning sample.
    4. Some empirical rules for network design.
    5. Data normalization.
    6. Learning algorithms.
    7. The main neural networks.
  9. Cluster analysis.
    1. Definition of clustering.
    2. Applications of clustering.
    3. Complexity of clustering.
    4. Clustering structures.
    5. Some methodological considerations.
    6. Comparison of factor analysis and clustering.
    7. Within-cluster and between-cluster sum of squares.
    8. Measurements of clustering quality.
    9. Partitioning methods.
    10. Agglomerative hierarchical clustering.
    11. Hybrid clustering methods.
    12. Neural clustering.
    13. Clustering by similarity aggregation.
    14. Clustering of numeric variables.
    15. Overview of clustering methods.
  10. Association analysis.
    1. Principles.
    2. Using taxonomy.
    3. Using supplementary variables.
    4. Applications.
    5. Example of use.
  11. Classification and prediction methods.
    1. Introduction.
    2. Inductive and transductive methods.
    3. Overview of classification and prediction methods.
    4. Classification by decision tree.
    5. Prediction by decision tree.
    6. Classification by discriminant analysis.
    7. Prediction by linear regression.
    8. Classification by logistic regression.
    9. Developments in logistic regression.
    10. Bayesian methods.
    11. Classification and prediction by neural networks.
    12. Classification by support vector machines.
    13. Prediction by genetic algorithms.
    14. Improving the performance of a predictive model.
    15. Bootstrapping and ensemble methods.
    16. Using classification and prediction methods.
  12. An application of data mining: scoring.
    1. The different types of score.
    2. Using propensity scores and risk scores.
    3. Methodology.
    4. Implementing a strategic score.
    5. Implementing an operational score.
    6. Scoring solutions used in a business.
    7. An example of credit scoring (data preparation).
    8. An example of credit scoring (modeling by logistic regression).
    9. An example of credit scoring (modeling by DISQUAL discriminant analysis).
    10. A brief history of credit scoring.
  13. Factors for success in a data mining project.
    1. The subject.
    2. The people.
    3. The data.
    4. The IT systems.
    5. The business culture.
    6. Data mining: eight common misconceptions.
    7. Return on investment.
  14. Text mining.
    1. Definition of text mining.
    2. Text sources used.
    3. Using text mining.
    4. Information retrieval.
    5. Information extraction.
    6. Multi-type data mining.
  15. Web mining.
    1. The aims of web mining.
    2. Global analyses.
    3. Individual analyses.
    4. Personal analysis.

*1:ちなみに原著は実はフランス語版でこれは英訳版