数据科学实战(一):准备数据科学环境

猪小花1号2018-12-24 10:31
传统的食谱书籍包含作者擅长的烹饪秘诀,可以帮助读者丰富可做食物的种类。许多人相信,一份食谱的最终收获就是菜品本身。类似于此,读者可以用同样的观点来阅读本书。本书中每一章都伴随着不同目标、针对不同数据集、应用数据科学管道(pipeline)的各个阶段进行分析,进而展示给读者。同时,正如烹饪一样,最后结果可以仅仅是对某一个特定数据集的分析。


然而,我们希望读者能有更广阔的视角。数据科学工作者通过实践进行学习,确保每一次重复和假设验证都能增进实践知识。通过使用两种不同的编程语言(R和Python)结合数据科学管道对多个数据集进行处理,我们希望读者可以学会抽象出分析模式,能够看到更广阔的图景,并能对数据科学这一尚未完善的领域有更深刻的理解。


我们同时也希望读者认识到,数据科学食谱并不像传统烹饪食谱那样清晰明确。当厨师开始做某道菜时,他们在脑海中对最后成品的样子是很明确的。然而对数据科学工作者来说情形则完全不同。人们对要分析的数据集的内容可能并不是很清楚,在不同时间和资源限制下,分析结果可能是这样也可能是那样。数据科学工作者的菜谱本质上只是深入挖掘数据的一条路径,是朝着正确的问题并最终完成可能的最好的菜肴之路前行的开始。


如果读者具有统计学或数学背景,那么本书所展现的建模技术本身可能并不会让你兴奋。你可以把注意力集中在数据科学管道中那些偏重于解决实践问题的方法,如加载一个大数据集、使用可扩展工具结合已有技术完成数据应用、交互式可视化展示及Web应用等,而略过那些报告和论文。我们希望可以提升你对数据科学的欣赏和理解,帮助你在你自己的领域用好数据科学。


实践中数据科学工作者需要丰富多样的工具才能完成他们的工作。数据分析人员利用各种工具完成抓取、清洗、可视化、建模以及展示数据等大量任务。如果你与许多数据工作者交流过,那么你将发现他们的工具中最重要的部分是进行数据分析和建模的语言。回答哪种编程语言对某个任务是最合适的这种问题堪比回答世界上最难回答的问题。


本书中,我们将同时关注两种应用广泛且用于数据分析的不同的语言—R和Python,读者可以根据自己的喜好选择用哪一种。我们将提示读者每种语言所适用的任务,我们也会对每种语言针对同一数据集分析的结果进行对比。


在学习新的概念和技术时,深度和广度总是需要权衡的问题。时间和精力有限,应该同时学习R和Python达到中等程度,还是全力学习一种语言?从我们的职业经验看,强烈建议读者精通一种语言,同时酌情了解另一种。这是否意味着可以跳过关于某种语言的某些章节呢?当然不是!在你阅读本书时,确实应该选择一种语言并深入下去,不仅掌握这种语言,而且能熟练地使用它。


为继续本章的内容,应确保你有足够的带宽能在合理的时间内下载几个数GB大小的软件。



内容来源:异步社区;版权属【人民邮电出版社 异步社区】所有,转载已获得授权;未经授权,不得以任何方式复制和传播本书内容,如需转载请联系异步社区。