大数据最大的问题:数据清理太花时间
16lz
2021-01-22
大数据最大的问题:数据清理太花时间
诗书塞外 Python程序员
大数据能够给商业带来不菲的价值,大多数公司都意识到了这一点。随着近年来大数据领域的迅猛发展,数据分析的软件以及解决方案已经非常丰富了。但是在应用大数据的过程中,另外一个问题却十分棘手:我们如何把我们的数据放到分析软件中?
这个问题是有数据依据的,根据专业的第三方机构的研究,公司往往花费50%到90%的时间在数据清理及数据准备上,只有28%的公司确信自己整理的数据是有切实意义的。
这意味着很多专业的数据人士目前工作的很大比例都在做一些“不太专业的工作”,这大大限制了大数据技术的应用。尤其是随着获取数据的工具越来越方便(网络工具越来越健全),更加突出了清理数据麻烦这个困境。
由此,我们可以预测一些可能的解决方案。
大数据分析软件更加完善
不过老实说,虽然大数据软件一直在进步,不过实在看不出来在数据清理方面它能有什么突破性的改进。
数据准备员变成数据科学家的专业助手
由于数据清理工作的比重如此之大,那很有可能数据清理的工作形成一个专门的职业。已经有媒体称数据准备员为数据领域的新蓝领。如果你觉得直接做大数据的工作会比较困难,也许数据准备员是一个新选择哦。
通过AI协助清理数据
听起来非常高大上,似乎也非常靠谱。我们都非常希望这个能成为现实。不过另一方面我们也要看到,微软、Amazon、IBM它们也在使用人类帮助机器来识别一些机器难以识别的问题,它们可是数据领域的先锋啊,这多少让人感到,AI帮助我们减轻工作恐怕还要再等一些时间。
观点来源:http://www.zdnet.com/article/big-datas-biggest-problem-its-too-hard-to-get-the-data-in/
更多相关文章
- IDA调试修改内存数据
- 2.docker容器管理、仓库管理、数据管理、数据卷备份恢复
- navicate premium 如何导入excel表数据
- 从0开始搭建数据仓库(2):产品经理如何“玩转”Hive SQL
- 初始化 Java 数据字段(学习 Java 编程语言 033)
- 数据库两大神器【索引和锁】
- Navicat实用功能:数据备份与结构同步
- 我们到底该如何学习数据结构与算法