大数据最大的问题:数据清理太花时间

诗书塞外 Python程序员
大数据最大的问题:数据清理太花时间
大数据能够给商业带来不菲的价值,大多数公司都意识到了这一点。随着近年来大数据领域的迅猛发展,数据分析的软件以及解决方案已经非常丰富了。但是在应用大数据的过程中,另外一个问题却十分棘手:我们如何把我们的数据放到分析软件中?

这个问题是有数据依据的,根据专业的第三方机构的研究,公司往往花费50%到90%的时间在数据清理及数据准备上,只有28%的公司确信自己整理的数据是有切实意义的。

这意味着很多专业的数据人士目前工作的很大比例都在做一些“不太专业的工作”,这大大限制了大数据技术的应用。尤其是随着获取数据的工具越来越方便(网络工具越来越健全),更加突出了清理数据麻烦这个困境。

由此,我们可以预测一些可能的解决方案。

大数据分析软件更加完善

不过老实说,虽然大数据软件一直在进步,不过实在看不出来在数据清理方面它能有什么突破性的改进。

数据准备员变成数据科学家的专业助手

由于数据清理工作的比重如此之大,那很有可能数据清理的工作形成一个专门的职业。已经有媒体称数据准备员为数据领域的新蓝领。如果你觉得直接做大数据的工作会比较困难,也许数据准备员是一个新选择哦。

通过AI协助清理数据

听起来非常高大上,似乎也非常靠谱。我们都非常希望这个能成为现实。不过另一方面我们也要看到,微软、Amazon、IBM它们也在使用人类帮助机器来识别一些机器难以识别的问题,它们可是数据领域的先锋啊,这多少让人感到,AI帮助我们减轻工作恐怕还要再等一些时间。

观点来源:http://www.zdnet.com/article/big-datas-biggest-problem-its-too-hard-to-get-the-data-in/

更多相关文章

  1. IDA调试修改内存数据
  2. 2.docker容器管理、仓库管理、数据管理、数据卷备份恢复
  3. navicate premium 如何导入excel表数据
  4. 从0开始搭建数据仓库(2):产品经理如何“玩转”Hive SQL
  5. 初始化 Java 数据字段(学习 Java 编程语言 033)
  6. 数据库两大神器【索引和锁】
  7. Navicat实用功能:数据备份与结构同步
  8. 我们到底该如何学习数据结构与算法

随机推荐

  1. 树形结构的处理——组合模式(四)
  2. springMVC使用html视图配置详解
  3. 80端口占用异常解决方法java.net.BindExc
  4. Java中的数据类型
  5. 基于Java的应用程序的GUI测试工具
  6. java.lang.NoSuchMethodException:在strut
  7. jsp中如何使用javabeans,如何使用一个已经
  8. r项目:xlsx包安装失败(由于java问题)
  9. JDK1.5到1.7的进化
  10. Java区分大小写字母数字和符号