异步社区

异步社区是国内领先的IT专业图书社区,由人民邮电出版社主办,致力于优质学习内容的出版和分享。

34篇博客

数据科学实战(二):理解数据科学管道

异步社区2018-12-25 10:44


1.1 理解数据科学管道


开始安装各种软件之前,我们需要对贯穿本书的数据分析过程所要用到的重复性步骤有所了解。


1.1.1 操作流程


下面是数据分析的5个关键步骤。


1.获取:数据科学管道的第一步是获取不同来源的数据,它包括关系型数据库、NoSQL和文档、网页抓取、分布式数据库(如Hadoop平台上的HDFS、RESTful API和文本文件)以及PDF文档(当然我们不希望看到这种格式)。


2.探索和理解:第二步是理解你要分析的数据以及数据是如何收集的。这一步通常需要进行有意义的探索分析。


3.修改、整合和处理:这一步通常是数据科学管道中最耗时也是最重要的一步。数据几乎从来不会以你分析需要的形式出现。


4.分析和建模:这一步是最有意思的部分。数据科学家开始探索数据变量间的统计关系,施展他们掌握的机器学习技巧来对数据进行聚类、分类、归类,进一步创建预测模型以便对未来的数据进行分析。


5.沟通和实施:在管道的最后一步,我们需要以吸引人的形式和结构展示结果,有时是对我们自己展示从而进行下一轮分析,有时是对各种不同的用户。展示的数据产品可以是一次性报告,也可以是可扩展的成千上万人使用的We b产品。


1.1.2 工作原理


虽然上述步骤是按顺序列出的,但并不是每一个分析项目都要严格按照上面的顺序一步一步地实施。事实上,灵活的数据科学工作者知道这些步骤是相互交织的。通常,数据探索分析会提示你数据是如何清洗的,然后对清洗过的数据进行进一步的探索分析进而更深入地理解。上述步骤中哪一步先来通常依赖于你开始时对数据的熟悉程度。如果你使用每天产生和获取数据的系统,那么初始的数据探索和理解过程可能不需要太长时间,当然这需要假设前述系统不出问题。相反,如果你对手头要处理的数据没有任何背景知识,那么数据探索和理解过程将需要非常多的时间(很多是非编程时间,比如与系统开发者的沟通等)。


下图展示了数据科学管道的整个流程。


正如你可能已经知道的,数据改写、整合和处理可能消耗项目时间和资源的80%甚至更多。在完美的世界里,我们总是拥有完美的数据。但不幸的是,现实并非如此,你能遇到的数据问题几乎是无限的。有时候,数据字典可能会改变,也可能会丢失,所以在这种情况下理解字段值是不可能的。有些数据字段可能包含垃圾信息或者包含一些与别的字段混淆了的值。升级一个We b应用产品可能产生一些漏洞,导致之前的数据无法收集,从而丢失成百上千行的数据。如果发生了这些问题,你所分析的数据就可能会包含所有这些错误。


最后一步,沟通和实施是非常关键的,但这一步错综复杂,通常不受重视。注意管道中的最后一步并不是数据可视化,也不是仅画一些漂亮的或引人入胜的图形,这本身也是一个丰富的主题。相反,数据可视化将和数据一起成为一个更大问题中的一部分。有些数据科学工作者可能会考虑得更远,他们声称最终分析结果应该是一个论据,如果不能用它来说服决策者,那么你所做的所有努力都将毫无价值。


内容来源:异步社区;版权属【人民邮电出版社 异步社区】所有,转载已获得授权;未经授权,不得以任何方式复制和传播本书内容,如需转载请联系异步社区。