Tag Archives: 机器学习

机器学习中Nomalize(规范化)和Standardize(标准化)

1. 标准化(Standardize):
标准化给定数据集中所有数值属性(或者分别对每个feature列处理)的值到一个0均值和单位方差的正态分布。

2.规范化(Nomalize):
规范化给定数据集中的所有数值(或者分别对每个feature列处理)属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。[......]

继续阅读

Mahout - Clustering (聚类篇)

什么是Mahout?

" Apache Mahout™ project's goal is to build a scalable machine learning library "

我来拓展一下:
(1) Mahout 是Apache旗下的开源项目,集成了大量的机器学习算法。
(2) 大部分算法,可以运行在Hadoop上,具有很好的拓展性,使得大数据上的机器学习成为可能。

本篇主要探讨 Mahout 0.9 中的聚类(Clustering)工具的用法。

一、数据准[......]

继续阅读