《机器学习实践》的代码,包含了大量修改
本代码库是个人学习《Machine Learning in Action》一书过程中,根据书本代码和scikit-learn library的demo编写的 ,基本上涵盖了原生代码和基于scikit代码。 目前涵盖范围:
分类: KNN分类(适合数值型分类); Decision Tree分类(适合标量型数据分类,但同样要进行数值化); Bayersian分类; Logistic回归分类; SVM支持向量机分类; AdaBoost分类; 聚类: KMeans 文本挖掘: LSI(LSA) pLSA Recommend(基于物品、特征性的推荐) 信息获取: SinaWeiboService BaiduMapService
hmgis/ TextMining/ /parseFile /parseCSV 将从微博数据中获得的CSV文件转化为分词后的文件 Classifier/ 分类器包 /KNN /KNNDemo KNN分类 /createDataSet 加载一个内部数据集 /classify0 分类器 /file2matrix 将tab文件转化为矩阵 /show2DTest 数据2D可视化 /show3DTest 数据3D可视化 /knnTest 最简单的分类器,测试单个值分类 /autoNorm 数据归一化,是进行可视化前的必要程序 /knnTest2 将数据文件中的数据进行分类 /knnTestScikit SCIKIT的KNN例子 /DecisionTree /DecisionTreeDemo /createDataset 将标称数据转化为数值数据矩阵 /dtTest 使用scikit的DT例子 /Bayesian /Bayesian /RSSBayesian /EmailClassifier