附录一、有用的 Python 数据科学包

以下是 Python 中可能对数据科学有用的包一般概述。

数据科学模块

这些包都包含在 anaconda 发行版中。

  • numpy - 数组和数组运算的数值计算。
  • - 数据结构和数据分析。
  • scikit-learn - 机器学习和数据分析。

文本挖掘

  • - 自然语言处理。
  • gensim - 主题建模。

数学和统计学

  • - HTTP 请求。
  • scrapy - 网络爬虫。

可视化库

  • - 2D 绘图库。
  • seaborn - 可视化(基于 Matplotlib)
  • - 交互式可视化。

图论/网络

  • - 多维数组的数学运算。
  • tensorflow - 使用数据流图进行数值计算。
  • - 高级神经网络库。

标准库的有用部分

基本工具

  • os - 杂项操作系统操作。
  • - 系统操作。
  • datetime - 日期时间操作。
  • - 搜索路径名称。

实用函数

  • math - 数学函数。
  • - (伪)随机数生成器。
  • re - 正则表达式。
  • - 支持处理 JSON 文件。
  • csv - 支持处理 CSV 文件

数据对象

  • - 容器数据类型。