关于郑钧的回答,我觉得涉及的点很好,但是有些知识不是很准确;
map/reduce 是一种分布式计算的框架,TIIDF可以看作是一种特征表示方法;统计方法比较常用的包括,朴素贝叶斯,最大后验概率,EM算法,CRF(比如用于分词)等;
SVM不是聚类方法,而是分类回归方法; VSM应该是vector-space-model吧,是向量空间模型,是文本表示的基本模型;常见的聚类方法分为两类,层次聚类和扁平聚类,扁平聚类的代表算法是经典的KMean算法。分类方法也用的很多,比如SVM和决策树。
NLP本身有一点比较特别的是语言模型;