5.聚类模型 - 二、DBSCAN - 《AI算法工程师手册》

- eps：参数，用于确定邻域大小。
- min_samples：参数，用于判断核心对象。
- metric：一个字符串或者可调用对象，用于计算距离。
  
  如果是字符串，则必须是metrics.pairwise.calculate_distance中指定的。
- metric_params：一个字典，当metric 为可调用对象时，为metric 提供关键字参数。
- algorithm：一个字符串，用于计算两点间距离并找出最近邻的点。可以为：
  - ：由算法自动选取合适的算法。
  - 'ball_tree'：用ball树来搜索。
  - 'brute'：暴力搜索。
- leaf_size：一个整数，用于指定当algorithm=ball_tree或者kd_tree时，树的叶结点大小。
  
  该参数会影响构建树、搜索最近邻的速度，同时影响存储树的内存。
- ：指定并行度。
属性：
- core_sample_indices_：一个形状为[n_core_samples,] 的数组，给出了核心样本在原始训练集中的位置。
- components_：一个形状为[n_core_samples,n_features] 的数组，给出了核心样本的一份拷贝
- labels_：一个形状为[n_samples,] 的数组，给出了每个样本所属的簇标记。
  
  对于噪音样本，其簇标记为 -1。
考察参数的影响：
- 断崖下降是因为产生的训练样本的间距比较小，最远的两个样本点之间的距离不超过 30。当过大时，所有的点都在一个邻域中。
- 核心样本数量随着的增长而上升。
  
  这是因为随着的增长，样本点的邻域在扩展，则样本点邻域内的样本会更多，这就产生了更多满足条件的核心样本点。
  
  但是样本集中的样本数量有限，因此核心样本点数量的增长到一定数目后稳定。
考察参数的影响：
- 指数随着的增长，平稳的下降。
- 核心样本数量随着的增长基本上线性下降。