在大数据时代,我们建模数据量可能达到千万级甚至TB。大数据在给投资者介绍时很必要,容易得到融资。但对于数据科学家来说,有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。如果用全量数据建模或数据分析,成本太高,需要高性能服务器存储数据。这对中小公司来说不现实。

最经典案例是二战中德军坦克问题。在第二次世界大战期间,西方盟国不懈地努力确定德国的生产规模,并以两种主要方式进行处理:常规情报收集和统计估计。

英国人用统计学方法估计德国坦克数量和德国真实坦克数量非常接近,远比情报部门数据准确。

python的pandas中自带有抽样的方法。这是相关官网文档介绍:

pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.org

输入参数说明

欢迎各位学习更多数据分析知识(博主录制)

https://edu.51cto.com/sd/8faab

©著作权归作者所有:来自51CTO博客作者PythonEducation的原创作品,如需转载,请注明出处,否则将追究法律责任

你的鼓励让我更有动力

赞赏

0人进行了赞赏支持

更多相关文章

  1. 监控系统项目实施--安装与部署—zabbix安装
  2. Thanos 简介和实践
  3. Oracle Linux 7.9+Oracle 12c+ASM安装文档--5、数据库软件安装
  4. Spark与Python结合:PySpark初学者指南
  5. 如何从io.Reader 中读数据
  6. 监控系统项目实施--安装与部署-- MySQL数据库
  7. 监控系统项目实施--安装与部署-- MySQL数据库--分区表创建
  8. 监控系统项目实施--安装与部署-- MySQL数据库--分区表创建2
  9. 监控系统项目实施--安装与部署-- MySQL数据库--备份脚本

随机推荐

  1. Android Studio获取数字签名(SHA1)的方法
  2. Android Volley:使用方法总结及实例解析
  3. Android之用Handler实现主线程和子线程互
  4. Android 歌词Lrc显示 自定义View
  5. Android 事件输入系统整体框架
  6. Android图片缓存处理
  7. 使用AndServer在Android上搭建Web服务器
  8. Android Studio精彩案例(一)《ActionBar
  9. [置顶] 【Android开发】问答机器
  10. 关于Weex你需要知道的一切