数据科学实战pdf

发布时间: 2021-03-17 00:30:28

Ⅰ 怎样进行大数据的入门级学习

怎样进行大数据的入门级学习？

文 | 郭小贤

数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。

但从狭义上来看，我认为数据科学就是解决三个问题：

1. datapre-processing；(数据预处理）

2. datainterpretation；（数据解读）

3.datamodeling and analysis.（数据建模与分析）

这也就是我们做数据工作的三个大步骤：

1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据；

2、我们想看看数据“长什么样”，有什么特点和规律；

3、按照自己的需要，比如要对数据贴标签分类，或者预测，或者想要从大量复杂的数据中提取有价值的且不易发现的信息，都要对数据建模，得到output。

这三个步骤未必严谨，每个大步骤下面可能依问题的不同也会有不同的小步骤，但按我这几年的经验来看，按照这个大思路走，数据一般不会做跑偏。

这样看来，数据科学其实就是门复合型的技术，既然是技术就从编程语言谈起吧，为了简练，只说说R和Python。但既然是荐数据科学方面的书，我这里就不提R/Python编程基础之类的书了，直接上跟数据科学相关的。

R programming

如果只是想初步了解一下R语言已经R在数据分析方面的应用，那不妨就看看这两本：

R inaction：我的R语言大数据101。其实对于一个没有任何编程基础的人来说，一开始就学这本书，学习曲线可能会比较陡峭。但如果配合上一些辅助材料，如官方发布的R basics（http：//cran.r-project.org/doc/contrib/usingR.pdf），stackoverflow上有tag-R的问题集（Newest ‘r’ Questions），遇到复杂的问题可在上面搜索，总会找到解决方案的。这样一来，用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松，紧贴实战。

Dataanalysis and graphics using R：使用R语言做数据分析的入门书。这本书的特点也是紧贴实战，没有过多地讲解统计学理论，所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强，也就是说哪怕你手头没电脑写不了代码，有事没事拿出这本书翻一翻，也能读得进去。

但如果你先用R来从事实实在在的数据工作，那么上面两本恐怕不够，还需要这些：

Modernapplied statistics with S：这本书里统计学的理论就讲得比较多了，好处就是你可以用一本书既复习了统计学，又学了R语言。（S/Splus和R的关系就类似于Unix和Linux，所以用S教程学习R，一点问题都没有）

Datamanipulation with R：这本书实务性很强，它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样，本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说，这本书的内容非常重要，因为对于任何研究，一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则，你的研究总是要等待你的数据。

RGraphics Cookbook：想用R做可视化，就用这本书吧。150多个recipes，足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看，R是最容易做出最漂亮的图表的工具了。

Anintroction to statistical learning with application in R：这本书算是著名的the element of statistical learning的姊妹篇，后者更注重统计（机器）学习的模型和算法，而前者所涉及的模型和算法原没有后者全面或深入，但却是用R来学习和应用机器学习的很好的入口。

Ahandbook of statistical analysis using R：这本书内容同样非常扎实，很多统计学的学生就是用这本书来学习用R来进行统计建模的。

Python

Think Python，ThinkStats，Think Bayes：这是AllenB. Downey写的著名的Think X series三大卷。其实是三本精致的小册子，如果想快速地掌握Python在统计方面的操作，好好阅读这三本书，认真做习题，答案链接在书里有。这三本书学通了，就可以上手用Python进行基本的统计建模了。

PythonFor Data Analysis：作者是pandas的主要开发者，也正是Pandas使Python能够像R一样拥有dataframe的功能，能够处理结构比较复杂的数据。这本书其实analysis讲得不多，说成数据处理应该更合适。掌握了这本书，处理各种糟心的数据就问题不大了。

Introctionto Python for Econometrics， Statistics and DataAnalysis：这本书第一章就告诉你要安装Numpy， Scipy， Matplotlib， Pandas， IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面，但读起来比较枯燥，可以用来当工具书。

PracticalData Analysis：这本书挺奇葩，貌似很畅销，但作者把内容安排得东一榔头西一棒子，什么都讲一点，但一个都没讲透。这本书可以作为我们学习数据分析的一个索引，看到哪块内容有意思，就顺着它这个藤去摸更多的瓜。

PythonData Visualization Cookbook：用Python做可视化的教材肯定不少，我看过的也就这一本，觉得还不错。其实这类书差别都不会很大，咬住一本啃下来就是王道。

Exploratory Data Analysis 和 Data Visualization

Exploratory DataAnalysis：John Tukey写于1977年的经典老教材，是这一领域的开山之作。如今EDA已经是统计学里的重要一支，但当时还是有很多人对他的工作不屑一顾。可他爱数据，坚信数据可以以一种出人意料的方式呈现出来。正是他的努力，让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了，内容略过时。要想完整地了解EDA，推荐下一本：

ExploratoryData Analysis with MATLAB：这本书虽然标题带了个MATLAB，但实际上内容几乎没怎么讲MATLAB，只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于，这是我读过的讲EDA最系统的一本书，除了对visualization有不输于John Tucky的讲解外，对于高维的数据集，通过怎样的方法才能让我们从中找到潜在的pattern，这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码，而且还提供了GUI（图形用户界面）。所以这本书学起来还是相当轻松愉悦的。

VisualizeThis：中译本叫“鲜活的数据”，作者是个“超级数据迷”，建立了一个叫http：//flowingdata.com的网页展示他的数据可视化作品，这本书告诉你该选择什么样的可视化工具，然后告诉你怎样visualize关系型数据、时间序列、空间数据等，最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么，可以直接点开下面这个链接感受下吧！A tour through the visualization zoo（A TourThrough the Visualization Zoo）

Machine Learning & Data Mining

这一块就不多说了，不是因为它不重要，而是因为它太太太重要。所以这一部分就推两本书，都是”世界名著“，都比较难读，需要一点点地啃。这两本书拿下，基本就算是登堂入室了。其实作为机器学习的延伸和深化，概率图模型（PGM）和深度学习（deep learning）同样值得研究，特别是后者现在简直火得不得了。但PGM偏难，啃K.Daphne那本大作实在太烧脑，也没必要，而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大，各个domain的应用如火如荼，但要有公认的好教材问世则还需时日，所以PGM和deep learning这两块就不荐书了。

TheElement of Statistical Learning：要学机器学习，如果让我只推荐一本书，我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了，大厦建得够高够大，结构也非常严谨，而且很有前瞻性，纳入了很多前沿的内容，而不仅仅是一部综述性的教材。（图表也做得非常漂亮，应该是用R语言的ggplot2做的。）这本书注重讲解模型和算法本身，所以需要具备比较扎实的数理基础，啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习（统计学习）的库现在已经非常丰富，即使你没有完全搞懂某个模型或算法的原理和过程，只要会用那几个库，机器学习也能做得下去。但你会发现你把数据代进去，效果永远都不好。但是，当你透彻地理解了模型和算法本身，你再调用那几个库的时候，心情是完全不一样的，效果也不一样。

DataMining： Concepts and Techniques， by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋，之所以推荐这本韩家炜爷爷的，是因为虽然他这本书的出发点是应用，但原理上的内容也一点没有落下，内容非常完整。而且紧跟时代，更新的很快，我看过的是第二版，就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了，我还没看过，但应该也加入了不少新内容。其实这本书并不难读，只是篇幅较长，啃起来比较耗时。

其实这两本书里单拎出来一块内容可能又是几本书的节奏，比如bayesian方法，再拿出两三本书来讲也不为过，我个人用到的比较多，而且也确实有不少好书。但并非是所有data scientist都要用到，所以这一块就不再细说。

还有一些印象比较深刻的书：

Big DataGlossary：主要讲解大数据处理技术及工具，内容涵盖了NoSQL，MapRece，Storage，Servers，NLP库与工具包，机器学习工具包，数据可视化工具包，数据清洗，序列化指南等等。总之，是一本辞典式的大数据入门指导。

Mining ofMassive Datasets：这本书是斯坦福大学Web Mining的讲义，里面很多内容与韩家炜的Data Mining那本书重合，但这本书里详细地讲了MapRece的设计原理，PageRank（Google创业时期的核心排序算法，现在也在不断优化更新）讲解得也比较详细。

DevelopingAnalytic Talent：作者是个从事了十几年数据工作的geek，技术博客写得很有个人风格，写的内容都比较偏门，通常只有具备相关数据处理经验的人能体会出来，丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办，或者MapRece在什么时候不好用的问题，才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结，用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。

Past， Present and Future of Statistical Science：这本书是由COPSS（统计学社主席委员会，由国际各大统计学会的带头人组成）在50周年出版的一本纪念册，里面有50位统计学家每人分别贡献出的一两篇文章，有的回忆了自己当年如何走上统计学这条路，有的探讨了一些统计学的根本问题，有的谈了谈自己在从事的前沿研究，有的则给年轻一代写下了寄语。非常有爱的一本书。

其它资料

Harvard Data Science：这是H大的Data science在线课，我没有修过，但口碑很好。这门课需要费用8千刀左右，比起华盛顿大学的4千刀的Data science在线课虽贵一倍，但比斯坦福的14千刀要便宜将近一半（而且斯坦福的更偏计算机）。如果想自学，早有好心人分享了slides：（https：//drive.google.com/folderview？id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing）和homeworks and solutions：（https：//github.com/cs109/content）

PyData：PyData是来自各个domain的用Python做数据的人每年举行一次的聚会，期间会有各路牛人举行一些规模不大的seminar或workshop，有好心人已经把video上传到github，有兴趣的去认领吧（DataTau/datascience-anthology-pydata · GitHub）

工具

R/Python/MATLAB（必备）：如果是做数据分析和模型开发，以我的观察来看，使用这三种工具的最多。R生来就是一个统计学家开发的软件，所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具，但因为很多人不是专业做数据的，做数据还是为了自己的domain expertise（特别是科学计算、信号处理等），而MATLAB又是个强大无比的Domain expertise工具，所以很多人也就顺带让MATLAB也承担了数据处理的工作，虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件，但作为一个面向对象的高级动态语言，其开源的生态使Python拥有无比丰富的库，Numpy， Scipy 实现了矩阵运算/科学计算，相当于实现了MATLAB的功能，Pandas又使Python能够像R一样处理dataframe，scikit-learn又实现了机器学习。

SQL（必备）：虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展，但对于很多人来说，他们每天都有处理数据的需要，但可能一辈子都没机会接触TB级的数据。不管怎么说，不论是用关系型还是非关系型数据库，SQL语言是必须要掌握的技能，用什么数据库视具体情况而定。

MongoDB（可选）：目前最受欢迎的非关系型数据库NoSQL之一，不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用，扩展性强，Web2.0时代的必需品。

Hadoop/Spark/Storm（可选）： MapRece是当前最著名也是运用最广泛的分布式计算框架，由Google建立。Hadoop/Spark/storm都是基于MapRece的框架建立起来的分布式计算系统，要说他们之间的区别就是，Hadoop用硬盘存储数据，Spark用内存存储数据，Storm只接受实时数据流而不存储数据。一言以蔽之，如果数据是离线的，如果数据比较复杂且对处理速度要求一般，就Hadoop，如果要速度，就Spark，如果数据是在线的实时的流数据，就Storm。

OpenRefine（可选）：Google开发的一个易于操作的数据清洗工具，可以实现一些基本的清洗功能。

Tableau（可选）：一个可交互的数据可视化工具，操作简单，开箱即用。而且图表都设计得非常漂亮。专业版1999美刀，终身使用。媒体和公关方面用得比较多。

Gephi（可选）：跟Tableau类似，都是那种可交互的可视化工具，不需要编程基础，生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。

来自知乎

以上是小编为大家分享的关于怎样进行大数据的入门级学习？的相关内容，更多信息可以关注环球青藤分享更多干货

Ⅱ 如何高效地使用RStudio

RStudio Server 是 RStudio 公司打造的一款基于 Web 的开源编辑器，如果你熟悉 RStudio的桌面版本，那么使用RStudio Server对你来说基本上没什么难度。
在
实际的工程中，我们的服务器大多是基于Linux的，比如常见的 ubuntu、centos
等。这些操作系统有时并不提供图形化界面，这时候RStudio的服务器版本就派上用场了。启动RStudio
Server后，进入在浏览器中进入某一个页面后就可以像桌面版一样使用RStudio编辑器。当R的代码在服务器上出现bug了，线上的hotfix是
在所难免的，这时候必然会用到 RStudio Server 应个急。
这一次，我们将继续利用Docker神器，快速初始化RStudio Server环境的配置，并结合Git实现代码的版本控制。
准备
一个 Ubuntu 服务器
第一步：安装 RStudio Server
首先，我们通过docker 安装一个标准的RStudio Server
docker pull quantumobject/docker-rstudio
docker run -d -p 8787:8787 quantumobject/docker-rstudio

这样在你的电脑的8787端口就可以访问到rstudio的登陆界面了。
第二步：初始化 RStudio 账号
接着，我们需要初始化一个rstudio的账号
docker exec -it container-id /bin/bash
adser harryzhu # 设置新用户名
passwd harryzhu # 设置该用户的密码
mkdir /home/harryzhu # 初始化工作空间
chmod -R harryzhu /home/harryzhu # 给工作空间赋权

第三步：安装 git
然后，我们进入rstudio的服务器，我们打算引入git版本控制
sudo apt-get install git-core

第四步：解决 ssh 的认证问题
使用 git 的过程可能遇到SSL certificate problem。对于ssh的问题，我们可以选择建立一个ssh认证的key，也可以在git中设置为忽略。
生成一个key：
$ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):
Created directory '/root/.ssh'.

连续按下回车，跳过密码设置
显示秘钥信息：
sudo cat /root/.ssh/id_rsa.pub

如果没有ssh认证的需求，也可以选择忽略:
git config --global http.sslVerify false

第五步：在 RStudio Server 中配置Git
在最上方的菜单栏中可以选择Project Options。

接着填写配置。

第六步：克隆 Git 项目到本地
Git 功能已经集成在 RStudio-Server 中了，在新建项目时可以选择新建一个Version Control 的 Git 项目。

大功告成！
参考资料
docker-rstudio 手册
张丹老师的 RStudio-Server 配置实战
Rstudio 官方 git 解决方案
刘坤老师的 Git 中文教程
---------------------------------------------------------------------------------------------------------------
概述
本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程做一个汇总，可以看到Rstudio对统计报告的Web化和工程化做了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献！
谢溢辉：LaTex/Word的统计报告大逃亡之Rmarkdown生态
教学视频地址
在可交互、可复用的统计报告中，谢溢辉将介绍一众R包，包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。
快速标准的论文书写# $something$ 或者 $$something$$ 可以解决数学公式的问题
# 利用 bib 文件和[@something] 可以解决引用的问题
# 同样的，你也可以根据一些机构要求引入标准的模板。

参考谢溢辉的Rmarkdown论文
参考谢溢辉的bib文件
屏蔽源码# ```{r echo=F}屏蔽源代码
# ```{r, fig.width=5, fig.height=4} 设置配图大小
# 脚注

代码段内存共享
利用cache选项复用代码和数据
Sys.sleep(5)
rnorm(1)

输出其他语言代码
利用engine选项选择代码引擎，驱动python、R、scala、Rcpp、bash、perl、node等
x = 'hello, python
world!'
print(x)
print(x.split(' '))

交互式文档
利用yaml配置中的runtime选项
---
author: Harry Zhu
output: html_document
runtime: shiny
---

同理，你也可以选择输出slide、pdf或者word，你甚至可以给html定制一个css皮肤。
在我看来，rmarkdown是一款超越Zeppelin和iPython notebook的产品。
最总要的意义在于，学术工作者和工程师们不仅仅可以摆脱格式对创作的束缚专注于代码和文档，更是随意输出pdf、slide、html、word、latex等多种格式，形成强有力的跨界冲击。
谢溢辉本人有超过10年以上的LaTex使用经验，他的rmarkdown和knitr造福了一代学术工作者，显然LaTex和Word的体系在这种降维攻击下已经摇摇欲坠。
Hadley Wickham：R与大数据共舞
教学视频地址
R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一起还能发挥作用吗? 我们定义数据量大于单机内存的数据为大数据。让我们对比一下大数据与小数据的生命周期。
一个小数据分析项目的生命周期：
阐明：熟悉数据、模板解决方案
开发：创建有效模型
产品化：自动化与集成
发布：社会化
一个大数据分析项目的生命周期：
切片：抽取部分数据
阐明：熟悉数据、模板解决方案
开发：创建有效模型
扩展：使用到整个数据集
产品化：自动化与集成
发布：社会化
dplyr与数据读取
教学视频地址

PackageDBMSsrc_sqlite()SQLitesrc_mysqlMySQLsrc_postgresPostgreSQLlibrary(bigquery) src_bigquery()Google BigQuery
显示SQLshow_query(clean)

中间缓存
collapse()返回正在处理的结果
# 抽取 1% 的训练数据
random <- clean %>%
mutate(x = random()) %>%
collapse() %>%
filter(x <= 0.01) %>%
select(-x) %>%
collect()

数据存储
_to() 根据本地的data frame 在数据库创建一个表
# air为connection名称，query5为data frame，"gains"为表名
_to(air, query5, name = "gains")
# 关闭连接
rm(air)
# 垃圾收集器
gc()

Hadley Wickham:ETL
教学视频地址
本节将讨论一个有效的数据分析/数据科学问题框架，包括：
数据读取 readr/httr/DBI
数据清洗 tidyr/jsonlite
数据处理 dplyr/rlist
数据可视化 ggplot2/ggvis
数据建模 broom
broom：快速分析install.packages("broom")
# 查看相关例子
browseVignettes(package="broom")

Hadley Wickham是RStudio的首席科学家，并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各种R包,并概述大数据和R,但主要是解释为什么他相信你不应该担心大数据的问题。
garrettgman:packrat与虚拟化技术
教学视频地址
你
是否有过这样与人合作开发的经历：在自己机器上运行完美的R代码，复制到另外一台同事的机器上运行就有很多R包需要重新安装，有的R包甚至依赖于不同的版
本？现在，在不使用Docker或Vagrant等全局虚拟化技术的条件下，只需要运用packrat包，就可以保证你的R项目的依赖问题被很好的解决，
一次运行，到处运行。
if(!require(packrat)){install.packages("packrat")}
getOption("repos") # 显示代码镜像源
packrat:: bundle() # 打包当前环境并虚拟化
packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境
packrat::opts$local.repos("~/R") # 设置本地repos为路径
packrat::install_local("pryr") # 从本地安装

Hadley Wickham:Git与团队协作
教学视频地址
团队协作:利用Git 和 GitHub，你可以很轻松的与人协作，你不再需要用邮件附件来备份文档，或者在Dropbox上为争夺编辑权限而争吵。相反，你可以独立工作，最后只需要合并你们的成果就可以。
版本控制: Git 在我们制造重大错误时都允许我们回滚到之前的任意时间点。我们也可以回顾我们之前所做的一起历史记录，跟踪bug的形成过程。

Ⅲ 如何入门大数据

大数据
数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。
但从狭义上来看，我认为数据科学就是解决三个问题：
1. data pre-processing;(数据预处理）
2. data interpretation；（数据解读）
3.data modeling and analysis.（数据建模与分析）
这也就是我们做数据工作的三个大步骤：
1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据；
2、我们想看看数据“长什么样”，有什么特点和规律；
3、按照自己的需要，比如要对数据贴标签分类，或者预测，或者想要从大量复杂的数据中提取有价值的且不易发现的信息，都要对数据建模，得到output。
这三个步骤未必严谨，每个大步骤下面可能依问题的不同也会有不同的小步骤，但按我这几年的经验来看，按照这个大思路走，数据一般不会做跑偏。
这样看来，数据科学其实就是门复合型的技术，既然是技术就从编程语言谈起吧，为了简练，只说说R和Python。但既然是荐数据科学方面的书，我这里就不提R/Python编程基础之类的书了，直接上跟数据科学相关的。
R programming
如果只是想初步了解一下R语言已经R在数据分析方面的应用，那不妨就看看这两本：
R in action：我的R语言大数据101。其实对于一个没有任何编程基础的人来说，一开始就学这本书，学习曲线可能会比较陡峭。但如果配合上一些辅助材料，如官方发布的R basics（http://cran.r-project.org/doc/contrib/usingR.pdf），stackoverflow上有tag-R的问题集（Newest ‘r’ Questions），遇到复杂的问题可在上面搜索，总会找到解决方案的。这样一来，用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松，紧贴实战。
Data analysis and graphics using R：使用R语言做数据分析的入门书。这本书的特点也是紧贴实战，没有过多地讲解统计学理论，所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强，也就是说哪怕你手头没电脑写不了代码，有事没事拿出这本书翻一翻，也能读得进去。
但如果你先用R来从事实实在在的数据工作，那么上面两本恐怕不够，还需要这些：
Modern applied statistics with S：这本书里统计学的理论就讲得比较多了，好处就是你可以用一本书既复习了统计学，又学了R语言。（S/Splus和R的关系就类似于Unix和Linux，所以用S教程学习R，一点问题都没有）
Data manipulation with R：这本书实务性很强，它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样，本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说，这本书的内容非常重要，因为对于任何研究，一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则，你的研究总是要等待你的数据。
R Graphics Cookbook：想用R做可视化，就用这本书吧。150多个recipes，足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看，R是最容易做出最漂亮的图表的工具了。
An introction to statistical learning with application in R：这本书算是著名的the element of statistical learning的姊妹篇，后者更注重统计（机器）学习的模型和算法，而前者所涉及的模型和算法原没有后者全面或深入，但却是用R来学习和应用机器学习的很好的入口。
A handbook of statistical analysis using R：这本书内容同样非常扎实，很多统计学的学生就是用这本书来学习用R来进行统计建模的。
Python
Think Python，Think Stats，Think Bayes：这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子，如果想快速地掌握Python在统计方面的操作，好好阅读这三本书，认真做习题，答案链接在书里有。这三本书学通了，就可以上手用Python进行基本的统计建模了。
Python For Data Analysis：作者是pandas的主要开发者，也正是Pandas使Python能够像R一样拥有dataframe的功能，能够处理结构比较复杂的数据。这本书其实analysis讲得不多，说成数据处理应该更合适。掌握了这本书，处理各种糟心的数据就问题不大了。
Introction to Python for Econometrics, Statistics and Data Analysis：这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面，但读起来比较枯燥，可以用来当工具书。
Practical Data Analysis：这本书挺奇葩，貌似很畅销，但作者把内容安排得东一榔头西一棒子，什么都讲一点，但一个都没讲透。这本书可以作为我们学习数据分析的一个索引，看到哪块内容有意思，就顺着它这个藤去摸更多的瓜。
Python Data Visualization Cookbook：用Python做可视化的教材肯定不少，我看过的也就这一本，觉得还不错。其实这类书差别都不会很大，咬住一本啃下来就是王道。
Exploratory Data Analysis 和 Data Visualization
Exploratory Data Analysis：John Tukey写于1977年的经典老教材，是这一领域的开山之作。如今EDA已经是统计学里的重要一支，但当时还是有很多人对他的工作不屑一顾。可他爱数据，坚信数据可以以一种出人意料的方式呈现出来。正是他的努力，让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了，内容略过时。要想完整地了解EDA，推荐下一本：
Exploratory Data Analysis with MATLAB：这本书虽然标题带了个MATLAB，但实际上内容几乎没怎么讲MATLAB，只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于，这是我读过的讲EDA最系统的一本书，除了对visualization有不输于John Tucky的讲解外，对于高维的数据集，通过怎样的方法才能让我们从中找到潜在的pattern，这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码，而且还提供了GUI（图形用户界面）。所以这本书学起来还是相当轻松愉悦的。
Visualize This：中译本叫“鲜活的数据”，作者是个“超级数据迷”，建立了一个叫http://flowingdata.com的网页展示他的数据可视化作品，这本书告诉你该选择什么样的可视化工具，然后告诉你怎样visualize关系型数据、时间序列、空间数据等，最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么，可以直接点开下面这个链接感受下吧！A tour through the visualization zoo（A Tour Through the Visualization Zoo）
Machine Learning & Data Mining
这一块就不多说了，不是因为它不重要，而是因为它太太太重要。所以这一部分就推两本书，都是”世界名著“，都比较难读，需要一点点地啃。这两本书拿下，基本就算是登堂入室了。其实作为机器学习的延伸和深化，概率图模型（PGM）和深度学习（deep learning）同样值得研究，特别是后者现在简直火得不得了。但PGM偏难，啃K.Daphne那本大作实在太烧脑，也没必要，而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大，各个domain的应用如火如荼，但要有公认的好教材问世则还需时日，所以PGM和deep learning这两块就不荐书了。
The Element of Statistical Learning：要学机器学习，如果让我只推荐一本书，我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了，大厦建得够高够大，结构也非常严谨，而且很有前瞻性，纳入了很多前沿的内容，而不仅仅是一部综述性的教材。（图表也做得非常漂亮，应该是用R语言的ggplot2做的。）这本书注重讲解模型和算法本身，所以需要具备比较扎实的数理基础，啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习（统计学习）的库现在已经非常丰富，即使你没有完全搞懂某个模型或算法的原理和过程，只要会用那几个库，机器学习也能做得下去。但你会发现你把数据代进去，效果永远都不好。但是，当你透彻地理解了模型和算法本身，你再调用那几个库的时候，心情是完全不一样的，效果也不一样。
Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋，之所以推荐这本韩家炜爷爷的，是因为虽然他这本书的出发点是应用，但原理上的内容也一点没有落下，内容非常完整。而且紧跟时代，更新的很快，我看过的是第二版，就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了，我还没看过，但应该也加入了不少新内容。其实这本书并不难读，只是篇幅较长，啃起来比较耗时。
其实这两本书里单拎出来一块内容可能又是几本书的节奏，比如bayesian方法，再拿出两三本书来讲也不为过，我个人用到的比较多，而且也确实有不少好书。但并非是所有data scientist都要用到，所以这一块就不再细说。
还有一些印象比较深刻的书：
Big Data Glossary：主要讲解大数据处理技术及工具，内容涵盖了NoSQL，MapRece，Storage，Servers，NLP库与工具包，机器学习工具包，数据可视化工具包，数据清洗，序列化指南等等。总之，是一本辞典式的大数据入门指导。
Mining of Massive Datasets：这本书是斯坦福大学Web Mining的讲义，里面很多内容与韩家炜的Data Mining那本书重合，但这本书里详细地讲了MapRece的设计原理，PageRank（Google创业时期的核心排序算法，现在也在不断优化更新）讲解得也比较详细。
Developing Analytic Talent：作者是个从事了十几年数据工作的geek，技术博客写得很有个人风格，写的内容都比较偏门，通常只有具备相关数据处理经验的人能体会出来，丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办，或者MapRece在什么时候不好用的问题，才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结，用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。
Past, Present and Future of Statistical Science：这本书是由COPSS（统计学社主席委员会，由国际各大统计学会的带头人组成）在50周年出版的一本纪念册，里面有50位统计学家每人分别贡献出的一两篇文章，有的回忆了自己当年如何走上统计学这条路，有的探讨了一些统计学的根本问题，有的谈了谈自己在从事的前沿研究，有的则给年轻一代写下了寄语。非常有爱的一本书。
其它资料
Harvard Data Science：这是H大的Data science在线课，我没有修过，但口碑很好。这门课需要费用8千刀左右，比起华盛顿大学的4千刀的Data science在线课虽贵一倍，但比斯坦福的14千刀要便宜将近一半（而且斯坦福的更偏计算机）。如果想自学，早有好心人分享了slides: （https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing）和homeworks and solutions: （https://github.com/cs109/content）
PyData：PyData是来自各个domain的用Python做数据的人每年举行一次的聚会，期间会有各路牛人举行一些规模不大的seminar或workshop，有好心人已经把video上传到github，有兴趣的去认领吧（DataTau/datascience-anthology-pydata · GitHub）
工具
R/Python/MATLAB（必备）：如果是做数据分析和模型开发，以我的观察来看，使用这三种工具的最多。R生来就是一个统计学家开发的软件，所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具，但因为很多人不是专业做数据的，做数据还是为了自己的domain expertise（特别是科学计算、信号处理等），而MATLAB又是个强大无比的Domain expertise工具，所以很多人也就顺带让MATLAB也承担了数据处理的工作，虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件，但作为一个面向对象的高级动态语言，其开源的生态使Python拥有无比丰富的库，Numpy, Scipy 实现了矩阵运算/科学计算，相当于实现了MATLAB的功能，Pandas又使Python能够像R一样处理dataframe，scikit-learn又实现了机器学习。
SQL（必备）：虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展，但对于很多人来说，他们每天都有处理数据的需要，但可能一辈子都没机会接触TB级的数据。不管怎么说，不论是用关系型还是非关系型数据库，SQL语言是必须要掌握的技能，用什么数据库视具体情况而定。
MongoDB（可选）：目前最受欢迎的非关系型数据库NoSQL之一，不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用，扩展性强，Web2.0时代的必需品。
Hadoop/Spark/Storm（可选）: MapRece是当前最著名也是运用最广泛的分布式计算框架，由Google建立。Hadoop/Spark/storm都是基于MapRece的框架建立起来的分布式计算系统，要说他们之间的区别就是，Hadoop用硬盘存储数据，Spark用内存存储数据，Storm只接受实时数据流而不存储数据。一言以蔽之，如果数据是离线的，如果数据比较复杂且对处理速度要求一般，就Hadoop，如果要速度，就Spark，如果数据是在线的实时的流数据，就Storm。
OpenRefine（可选）：Google开发的一个易于操作的数据清洗工具，可以实现一些基本的清洗功能。
Tableau（可选）：一个可交互的数据可视化工具，操作简单，开箱即用。而且图表都设计得非常漂亮。专业版1999美刀，终身使用。媒体和公关方面用得比较多。
Gephi（可选）：跟Tableau类似，都是那种可交互的可视化工具，不需要编程基础，生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。

Ⅳ 如何系统地自学 Python

是否非常想学好 Python，一方面被琐事纠缠，一直没能动手，另一方面，担心学习成本太高，心里默默敲着退堂鼓？

幸运的是，Python 是一门初学者友好的编程语言，想要完全掌握它，你不必花上太多的时间和精力。

Python 的设计哲学之一就是简单易学，体现在两个方面：

语法简洁明了：相对 Ruby 和 Perl，它的语法特性不多不少，大多数都很简单直接，不玩儿玄学。

切入点很多：Python 可以让你可以做很多事情，科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等，总有一个是你感兴趣并且愿意投入时间的。

废话不多说，学会一门语言的捷径只有一个： Getting Started

¶ 起步阶段
任何一种编程语言都包含两个部分：硬知识和软知识，起步阶段的主要任务是掌握硬知识。

°1 硬知识
“硬
知识”指的是编程语言的语法、算法和数据结构、编程范式等，例如：变量和类型、循环语句、分支、函数、类。这部分知识也是具有普适性的，看上去是掌握了一
种语法，实际是建立了一种思维。例如：让一个 Java 程序员去学习 Python，他可以很快的将 Java 中的学到的面向对象的知识 map 到
Python 中来，因此能够快速掌握 Python 中面向对象的特性。

如果你是刚开始学习编程的新手，一本可靠的语法书是非常重要的。它看上去可能非常枯燥乏味，但对于建立稳固的编程思维是必不可少。

下面列出了一些适合初学者入门的教学材料：

❖「笨方法学 Python」：http://learnpythonthehardway.org/book/
这本书在讲解 Python 的语法成分时，还附带大量可实践的例子，非常适合快速起步。

❖「廖雪峰的 Python 2.7 教程」：Home - 廖雪峰的官方网站
Python 中文教程的翘楚，专为刚刚步入程序世界的小白打造。

❖「The Hitchhiker’s Guide to Python!」：The Hitchhiker’s Guide to Python!
这本指南着重于 Python 的最佳实践，不管你是 Python 专家还是新手，都能获得极大的帮助。

❖「Python 官方文档」：Our Documentation
实践中大部分问题，都可以在官方文档中找到答案。

❖ 辅助工具：Python Tutor
一个 Python 对象可视化的项目，用图形辅助你理解 Python 中的各种概念。

Python 的哲学：
用一种方法，最好是只有一种方法来做一件事。
学习也是一样，虽然推荐了多种学习资料，但实际学习的时候，最好只选择其中的一个，坚持看完。

必要的时候，可能需要阅读讲解数据结构和算法的书，这些知识对于理解和使用 Python 中的对象模型有着很大的帮助。

°2 软知识
“软知识”则是特定语言环境下的语法技巧、类库的使用、IDE的选择等等。这一部分，即使完全不了解不会使用，也不会妨碍你去编程，只不过写出的程序，看上去显得“傻”了些。

对
这些知识的学习，取决于你尝试解决的问题的领域和深度。对初学者而言，起步阶段极易走火，或者在选择 Python 版本时徘徊不决，一会儿看 2.7
一会儿又转到 3.0，或者徜徉在类库的大海中无法自拔，Scrapy，Numpy，Django
什么都要试试，或者参与编辑器圣战、大括号缩进探究、操作系统辩论赛等无意义活动，或者整天跪舔语法糖，老想着怎么一行代码把所有的事情做完，或者去构想
圣洁的性能安全通用性健壮性全部满分的解决方案。

很多“大牛”都会告诫初学者，用这个用那个，少走弯路，这样反而把初学者推向了真正的弯路。
还不如告诉初学者，学习本来就是个需要你去走弯路出 Bug，只能脚踏实地，没有奇迹只有狗屎的过程。

选择一个方向先走下去，哪怕脏丑差，走不动了再看看有没有更好的解决途径。

自己走了弯路，你才知道这么做的好处，才能理解为什么人们可以手写状态机去匹配却偏要发明正则表达式，为什么面向过程可以解决却偏要面向对象，为什么我可以操纵每一根指针却偏要自动管理内存，为什么我可以嵌套回调却偏要用 Promise...

更重要的时，你会明白，高层次的解决方法都是对低层次的封装，并不是任何情况下都是最有效最合适的。

技术涌进就像波浪一样，那些陈旧的封存已久的技术，消退了迟早还会涌回的。就像现在移动端应用、手游和 HTML5 的火热，某些方面不正在重演过去 PC 的那些历史么？

因此，不要担心自己走错路误了终身，坚持并保持进步才是正道。

起步阶段的核心任务是掌握硬知识，软知识做适当了解，有了稳固的根，粗壮的枝干，才能长出浓密的叶子，结出甜美的果实。

¶ 发展阶段
完成了基础知识的学习，必定会感到一阵空虚，怀疑这些语法知识是不是真的有用。

没错，你的怀疑是非常正确的。要让 Python 发挥出它的价值，当然不能停留在语法层面。
发展阶段的核心任务，就是“跳出 Python，拥抱世界”。

在你面前会有多个分支：科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等，这些都不是仅仅知道 Python 语法就能解决的问题。

拿
爬虫举例，如果你对计算机网络，HTTP协议，HTML，文本编码，JSON一无所知，你能做好这部分的工作么？而你在起步阶段的基础知识也同样重要，如
果你连循环递归怎么写都还要查文档，连 BFS 都不知道怎么实现，这就像工匠做石凳每次起锤都要思考锤子怎么使用一样，非常低效。

在这个阶段，不可避免要接触大量类库，阅读大量书籍的。

°1 类库方面
「Awesome Python 项目」：vinta/awesome-python · GitHub
这里列出了你在尝试解决各种实际问题时，Python 社区已有的工具型类库，如下图所示：

你可以按照实际需求，寻找你需要的类库。

至于相关类库如何使用，必须掌握的技能便是阅读文档。由于开源社区大多数文档都是英文写成的，所以，英语不好的同学，需要恶补下。

°2 书籍方面：
这里我只列出一些我觉得比较有一些帮助的书籍，详细的请看豆瓣的书评：

科学和数据分析：
❖「集体智慧编程」：集体智慧编程 (豆瓣)
❖「数学之美」：数学之美 (豆瓣)
❖「统计学习方法」：统计学习方法 (豆瓣)
❖「Pattern Recognition And Machine Learning」：Pattern Recognition And Machine Learning (豆瓣)
❖「数据科学实战」：数据科学实战 (豆瓣)
❖「数据检索导论」：信息检索导论 (豆瓣)

爬虫：
❖「HTTP 权威指南」：HTTP权威指南 (豆瓣)

Web 网站：
❖「HTML & CSS 设计与构建网站」：HTML & CSS设计与构建网站 (豆瓣)

...

列到这里已经不需要继续了。

聪明的你一定会发现上面的大部分书籍，并不是讲 Python 的书，而更多的是专业知识。

事实上，这里所谓“跳出 Python，拥抱世界”，其实是发现 Python 和专业知识相结合，能够解决很多实际问题。这个阶段能走到什么程度，更多的取决于自己的专业知识。

¶ 深入阶段
这个阶段的你，对 Python 几乎了如指掌，那么你一定知道 Python 是用 C 语言实现的。

可是 Python 对象的“动态特征”是怎么用相对底层，连自动内存管理都没有的C语言实现的呢？这时候就不能停留在表面了，勇敢的拆开 Python 的黑盒子，深入到语言的内部，去看它的历史，读它的源码，才能真正理解它的设计思路。

这里推荐一本书：
「Python 源码剖析」：Python源码剖析 (豆瓣)
这本书把 Python 源码中最核心的部分，给出了详细的阐释，不过阅读此书需要对 C 语言内存模型和指针有着很好的理解。

另
外，Python 本身是一门杂糅多种范式的动态语言，也就是说，相对于 C 的过程式、 Haskell 等的函数式、Java
基于类的面向对象而言，它都不够纯粹。换而言之，编程语言的“道学”，在 Python
中只能有限的体悟。学习某种编程范式时，从那些面向这种范式更加纯粹的语言出发，才能有更深刻的理解，也能了解到 Python 语言的根源。

这里推荐一门公开课
「编程范式」：斯坦福大学公开课：编程范式
讲师高屋建瓴，从各种编程范式的代表语言出发，给出了每种编程范式最核心的思想。

值得一提的是，这门课程对C语言有非常深入的讲解，例如C语言的范型和内存管理。这些知识，对阅读 Python 源码也有大有帮助。

Python 的许多最佳实践都隐藏在那些众所周知的框架和类库中，例如 Django、Tornado 等等。在它们的源代码中淘金，也是个不错的选择。

¶ 最后的话
每个人学编程的道路都是不一样的，其实大都殊途同归，没有迷路的人只有不能坚持的人。虽然听上去有点鸡汤，但是这是事实。

希望想学 Python 想学编程的同学，不要犹豫了，看完这篇文章，Just getting started～

Ⅳ 怎么写科技小论文或实践报告（以自然科学范畴的论文为主）

格式如下
1.题目
2.内容摘要
3.关键词
4.作者名字，地址，邮政编码
5.正文
6.参考文献
7.其他

青少年科技活动充满趣味性、探索性、好奇性和创造性，积极开展科技活动是贯彻实施以培养创新意识为核心的素质教育的一个重要渠道。科技小论文是科技活动的总结，是在科技实践活动的基础上进行分析归纳、演绎推理、类比想象、抽象概括，从而得出具有普遍推广意义的新规律、新理论、新假设等结论。指导学生写作科技小论文，是引导学生进行科学探索，了解和学习科学研究的一般方法，提高学生科技素质和培养创造型人才的有效途径。我在1997年开始从事科技活动辅导以来，就如何指导学生写作科技小论文作了一些尝试和探索，取得了一点成效。在我指导学生完成的10多篇科技小论文中，获全国二等奖1篇，广西一等奖1篇，三等奖1篇，地、市级奖励6篇。现将本人的肤浅认识和体会简单介绍如下，以向同行请教。
一、提高认识，激发兴趣，消除科技小论文的神秘感
首先，坚持在课堂教学中渗透科技教育，培养和提高学生的科技素质。备课时，选择教学内容要突出科技知识，并及时将本学科的最新研究成果充实到教学内容中。改革教育观念和教学方法，重视科学研究方法的训练和科技史教育。比如在学习铁的性质时，介绍α－Fe2O3和γ－Fe2O3在录音材料上的重要用途，学生往往热情高涨，感到科学技术离他们并不遥远，从而增强学生的科技意识。
其次，通过讲座、板报、科技知识竞赛、科技读书笔记比赛、科技手抄报比赛等活动，使学生充分认识科学技术的迅猛发展及其对世界各国综合国力的巨大影响。例如，在1997年第一届全国中师化学科普知识竞赛中，我辅导的学生获全国二等奖1人，全国三等将2人，广西一等奖3人，二等奖5人，三等奖12人，我本人获全国中师化学科普知识竞赛优秀辅导员称号；在2000年7月广西首届中师科技艺术节的各项比赛中，我辅导的学生均获得优异成绩；在2000年12月第二届全国中师化学科普知识竞赛中，我辅导的学生获全国一等奖1人，二等奖2人，三等奖8人，广西一等奖13人，二等奖38人，我本人获全国优秀辅导员称号。这些成绩的取得，极大地激发了学生对科技活动的兴趣和热情。
第三，向学生介绍一些他们熟悉的短小精悍的优秀科技小论文，揭开科技小论文的神秘面纱。例如，联系生活实际介绍获全国一等奖的科技小论文《水浮莲净化污水的观察与调查》、《银杏快速培育的实验》、《音乐对某些植物生长发育影响的实验》等，联系教学内容向学生介绍变废为宝利用柑子皮水解后进行银镜反应的科技小论文《柑子皮的妙用》以及《蓟草可解烟毒》、《禾苗枯萎之迷》等科技小论文。这些通俗易懂的例子说明科技小论文的写作并不是高深莫测、可望而不可及的事情，同时也为学生写作科技小论文提供了良好的范例。
二、联系实际，选好科技小论文的写作题材
第一、引导学生选择自己熟悉的感兴趣的题材。我们是指导学生写作科技小论文，所以要放手让学生自己选题，这样才能选出学生感兴趣的、能独立完成的好题材。我校学生大部分来自农村，学校培养的目标是小学教师。因此，我指导学生选题的要求和原则是：面向小学，立足农村，服务农村，选择身边熟悉的感兴趣的题材。比如，我指导的获奖科技小论文《流动灌溉——马蹄优质高产试验》、《龙眼罩网防果蝠实验》、《油茶树抵御砖厂污染的调查》等题材都是学生从自己熟悉的生产生活中选择的，其实践结果对促进农村经济发展起到一定的积极作用。比如《流动灌溉——马蹄优质高产试验》的结果可使农民种植马蹄每亩增收500多元，在学生家乡已得到广泛推广，并于2000年8月26日被广西科技报在第一版宣传推广。立足农村选择的题材所需实验条件简单易行，适合学生今后在小学教学中开展科技活动。
第二、选择的题材要具有新颖性。选择新颖的好题材意味着科技小论文的写作成功了一半。我首先是在学生中开展各种形式的读书活动，积累科技知识，引导学生用科学眼光观察生活，大胆质疑，发现生活中的科学现象和科学问题，从多种角度分析问题产生的原因，筛选提炼论文题材，确定实践方案。其次，还结合具体例子说明科技小论文选题的方向和规律。例如，《肉桂驳枝繁殖试验》的“驳枝繁殖”、《人工上篱种植绞股蓝试验》的“人工上篱种植”、《生姜倒种优质高产》的“倒种”、《西瓜嫁接栽培试验》的“嫁接栽培”、《竹荪的室内栽培试验》的“室内栽培”、《磁化水对几种花卉生长发育影响的实验》的“磁化水”等等，代表了科技小论文选题的一般方向和规律，都是优秀的选题。
第三、了解不宜选择的题材。除了青少年科技活动规定不宜选择的如药物、药理、药效等题材外，我认为需要时间较长的、不具备实验条件的、不符合青少年学生特点的题材也不宜选择。
第四、选题宜早不宜迟。这样才能保证有足够的时间开展科学实验，查阅图书资料以及论文的写作修改。我指导学生写作的获奖科技小论文的题材一般都是学生提前1年甚至2年就选好了的。
三、明确要求，规范格式，培养学生的科研能力
严格地说，科技小论文不是“写”出来的，而是科技实践活动的结晶。指导学生写作科技小论文的最终目的是使学生了解科学研究的一般方法，培养学生的科研能力。据了解，许多科技小论文在各级评比中落选的原因，是内容和格式不符合要求，或者是数据材料不足，尽管学生和辅导员都作了大量的实践工作。因此，指导学生写作科技小论文之前，必须使学生了解科学研究的一般方法和步骤、科技小论文的选题要求、实验数据记录的方法和要求、写作的格式等等。这样才能有计划有目的有步骤地开展科学实践活动，作好原始记录，为科技小论文的写作做好准备。此外，还要使学生明确一篇好的科技小论文，应该有一定数量的图表和照片等直观说明材料，才能更好的体现真实性，增强说服力。
四、指导学生查阅资料，分析归纳，提高科技小论文的质量
如何依据诸多个别的实验考察的现象和数据记录得出具有普遍推广意义的结论？这是指导学生写作科技小论文至关重要的一步。
首先引导学生根据科技小论文的主题对实验考察的现象和数据学会分辨取舍，去伪存真，归纳出一般结论。其次，指导学生查阅图书资料和运用学到的科技知识进行演绎推理，从一般结论得出特殊的新观点、新发现、新方法、新设想等。最后，指导学生运用类比思维将上述的特殊结论进行推广，从而得出具有普遍推广意义的新结论、新规律，运用想象思维对原始的朦胧的观点、设想进行加工、改造，突破时空限制，得出创造性的结论。这样，既提高了科技小论文的质量，又锻炼了学生的创造性思维，培养了学生的科研能力
五、刻苦钻研，认真总结，不断提高辅导水平
1. 刻苦钻研，虚心请教，是提高辅导水平的主要方法
我开始从事科技活动辅导的时候，对科技活动了解甚少。由于我校将青少年科技教育定位为学校的办学特色，浓厚的科技活动氛围激励我认真系统地学习有关青少年科技活动的内容、途径和要求。尤其是我校教务科陈勇副科长和贺州市教育局原科技活动专干高兴平老师的热心指导，使我的辅导水平产生了质的飞跃。1998年我辅导学生写作的科技小论文《流动灌溉——马蹄优质高产试验》获全国二等奖。这极大地增强了我指导学生开展科技活动的信心，同时也有了更强的责任感。为了进一步提高辅导能力，我先后参加了计算机培训和研究生主要课程进修，2000年又考取了在职研究生班，现在正在学习中。
2. 指导学生写作科技小论文需要有热心、耐心和无私奉献的精神
就拿我指导学生完成《流动灌溉——马蹄优质高产试验》一文来说，虽然学生在我的指导下做了大量的实践工作，但写出的初稿过于简单，尚不足300字。于是，我从实验方案的设计到实验数据的记录，从实验结果的分析到图书资料的查阅，一一指导学生改进，其间八易其稿，整个辅导过程倾注了我大量的心血，花费的精力决不亚于自己撰写一篇在国家级刊物发表的学术论文。有人问我这样做值得吗？我笑之以答：“这是一名科技辅导员的职责。只有全身心投入辅导活动中，才有可能辅导出好成绩，辅导水平才会不断提高。”
3. 勤于动笔，善于总结科技活动的经验教训
1999年，我在辅导学生科技活动中受到启发而设计的一个创新实验，获全国中师化学老师实验大赛二等奖。2000年，我将辅导学生科技活动的一点做法和经验整理成文章参加第八届中国青少年科技辅导员论文比赛，获一等奖。这些成绩的取得对我辅导学生科技活动具有很大的促进作用，也是学生写作科技小论文的榜样和动力。
总之，指导学生写作科技小论文是一项艰辛而又繁琐却富有意义的工作。教师虽然不是科学家，但应该是科学家的引路人。然后是实践报告你可以找几种小动物养在家里，观察它们的习性并做好记录。过几天后，写出你对小动物习性的看法和你对试验的总结。老sei，选我为满意答案哦~~~

Ⅵ 调查方法有哪些

1、访问调查法：访问者通过口头交谈等方式直接向被访问者了解社会情况或探讨社会问题的调查方法。

2、问卷调查法：运用统一的问卷向被调查者了解情况或征询意见。是标准化的、书面的、抽样的。分为自填式问卷和代填式问卷。

3、问卷调查法：范围大一些的调查，常采用问卷的方式进行。问卷即是书面提问的方式。问卷调查通过收集资料，然后作定量和定性的研究分析，归纳出调查结论。

(6)数据科学实战pdf扩展阅读：

主要特点：

调查法是科学探究常用的方法之一，调查时要明确调查目的和调查对象，制定合理的调查方案，如实记录，对结果进行整理和分析，有时还要用数学方法进行统计。常用的调查方法有普查法和抽样法等。

调查法的主要特点是，以问题的方式要求被调查者针对问题进行陈述的方法。根据研究的需要，可以向被调查者本人作调查，也可以向熟悉被调查者的人作调查。调查法可以分为书面调查和口头调查两种。

调查法能够同时收集到大量的资料，使用方便，并且效率高。

参考资料：调查法-网络

Ⅶ Python科学计算为目标学习路线应该怎么走

Python是一种计算机程序设计语言。是一种动版态的、面向对象的脚本语权言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。

我发的是Python的学习路线图，及Python各阶段技能说明，你可以看一下你想走的路线，然后跟着学习路线图来学习哦！

Ⅷ 有哪些 Python 经典书籍

【Python从入门到精通经典书籍推荐】

Python入门
目的：了解Python，学会用Python编程。
Python入门书众多，没必要全部阅读，根据介绍挑选合适自己的。PS：排名不分先后。

《Python编程入门：从入门到实践》
【同时使用Python 2.X和3.X讲解】

Amazon编程入门类榜首图书，最值得关注的Python入门书

从基本概念到完整项目开发，帮助零基础读者迅速掌握Python编程，开发实际项目

这本书分两部分：
第一部分介绍用Python编程所必须了解的基本概念，包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍，以及列表、字典、if语句、类、文件与异常、代码测试等内容；
第二部分将理论付诸实践，讲解如何开发三个项目，包括简单的Python 2D游戏开发，如何利用数据生成交互式的信息图，以及创建和定制简单的Web应用，并帮读者解决常见编程问题和困惑。

《Python基础教程（第2版·修订版）》
【Python 2.5讲解，Python 3上也能运行】

各大网店最畅销的Python入门书

全书分为三部分。
第一部分讲述Python语法，没有废话，还掺入了一些Python 3.0要注意的细节。
第二部分介绍了常用的GUI、框架等应用，点到即止，算是为第三部分做铺垫了，从数目众多的应用中可以了解到Python的强大。
第三部分是Project，全书最大的亮点，大家肯定喜欢。
作者将前面讲述的内容应用到10个引人入胜的项目中，并以模板的形式介绍了项目的开发过程，手把手教授Python开发。

《Python语言及其应用》
【Python 3.X】

语言风格轻松诙谐，讲解多种Python工具和第三方库

实例涉及商业、科研以及艺术领域使用Python开发各种应用

亚马逊最受欢迎的Python编程书之一，评分4.5

书中首先介绍了Python的基础知识，然后逐渐深入多种主题，结合教程和攻略式风格来讲解Python 3中的概念。每章结尾的练习可以帮助你巩固所学的知识。
本书会为你学习Python打下坚实的基础，包括测试、调试、代码复用的最佳实践以及其他开发技巧。

《Python编程入门（第3版）》
【Python 3.X 】

从算术运算、字符串、变量，到函数、数据结构、输入输出和异常处理，应有尽有

《父与子的编程之旅：与小卡特一起学Python》
【Python 2.X 】

原版Amazon 最受欢迎的青少年编程图书

最简单易学的内容组织方式，老少皆宜

第一版获Jolt大奖

本书中，Warren和Carter父子以亲切的笔调、通俗的语言，透彻全面地介绍了计算机编程世界。
他们以简单易学的Python语言为例，通过可爱的漫画、有趣的例子，生动地介绍了变量、循环、输入和输出、数据结构以及图形用户界面等编程的基本概念。
只要懂得计算机的基本操作，如启动程序、保存文件，任何人都可以跟随本书，由简入难，学会编写程序，甚至制作游戏。
本书内容经过教育专家的评审，经过孩子的亲身检验，并得到了家长的认可。

《编程导论》
【Python 2.7】

以麻省理工学院开放式课程（OpenCourseWare）中最受欢迎的计算机科学课程为基础，旨在培养读者的编程思维，使读者拥有计算机科学家的视野

本书涵盖了Python的大部分特性，重点介绍如何使用Python这门语言，共包含编程基础、Python程序设计语言、理解计算的关键概念、计算问题的解决技术等四个方面。
本书将Python语言特性和编程方法贯穿全书，目的是帮助读者在学习Python的同时掌握如何使用计算来解决有趣的问题。

Python进阶
需要一定Python基础。

《流畅的Python》
【兼顾Python 3和Python 2】

PSF研究员、知名PyCon演讲者心血之作

Python核心开发人员担纲技术审校

全面深入，对Python语言关键特性剖析到位

大量详尽代码示例，并附有主题相关高质量参考文献和视频链接

本书致力于帮助Python开发人员挖掘这门语言及相关程序库的优秀特性，避免重复劳动，同时写出简洁、流畅、易读、易维护，并且具有地道Python风格的代码。本书尤其深入探讨了Python语言的高级用法，涵盖数据结构、Python风格的对象、并行与并发，以及元编程等不同的方面。

《Python项目开发实战（第2版）》
【Python 2.7】

网罗Python项目开发中的流程，让你的编程事半功倍

Python项目与封装/团队开发环境/问题驱动开发/源码管理（Mercurial） Jenkins持续集成（CI）/环境搭建与部署的自动化（Ansible）/Django框架……

这是一本偏工程的图书，没怎么讲Python语言基础知识，直接告诉你怎么搭建开发环境，做好代码管理和文档管理以及缺陷管理等工作。

《Python网络编程攻略》
【Python 2.7】

可作为任何一门网络编程课程中培养实践技能的补充材料

需要读者对Python语言及TCP/IP等基本的网络概念有了解，但即使不精通也能通过本书理解相关概念

本书全面介绍了Python网络编程涉及的重要问题，包括网络编程、系统和网络管理、网络监控以及Web应用开发。作者通过70多篇攻略，清晰简明地描述了各种网络任务和问题，提出了可用于多种场景的解决方案，并细致地分析了整个操作过程。

《Python网络编程（第3版）》
【Python 3.X】

涵盖网络编程所有经典话题，提供大量代码清单及示例

从应用开发角度介绍网络编程基本概念、模块以及第三方库

本书针对想要深入理解使用Python来解决网络相关问题或是构建网络应用程序的技术人员，结合实例讲解了网络协议、网络数据及错误、电子邮件、服务器架构和HTTP及Web应用程序等经典话题。
具体内容包括：全面介绍Python3中最新提供的SSL支持，异步I/O循环的编写，用Flask框架在Python代码中配置URL，跨站脚本以及跨站请求伪造攻击网站的原理及保护方法，等等。

《Python性能分析与优化》
【Python 2.X】

全面掌握Python代码性能分析和优化方法

消除性能瓶颈，迅速改善程序性能

本书首先介绍什么是性能分析，性能分析如何在项目开发周期中发挥作用，以及通过在项目中进行性能分析实践能够取得的效果。
紧接着介绍分析性能所需的核心工具（性能分析器和可视化性能分析器）。
然后介绍一系列性能优化技术，最后一章会介绍一个具有实际意义的优化案例。

《精通Python设计模式》
【Python 3.X】

用现实例子展示各模式的关键特性

16种基本设计模式，轻松解决软件设计常见问题

本书分三部分，共16章介绍一些常用的设计模式。
第一部分介绍处理对象创建的设计模式，包括工厂模式、建造者模式、原型模式；
第二部分介绍处理一个系统中不同实体（类、对象等）之间关系的设计模式，包括外观模式、享元模式等；
第三部分介绍处理系统实体之间通信的设计模式，包括责任链模式、观察者模式等。

《Flask Web开发：基于Python的Web应用开发实战》
【Python 2.7和3.3】

从安装与环境设置讲起，一步一步搭建服务器端Web应用

全流程讲解Web应用开发，给出最佳实践

本书共分三部分，全面介绍如何基于Python微框架Flask进行Web开发。
第一部分是Flask简介，介绍使用Flask框架及扩展开发Web程序的必备基础知识。
第二部分则给出一个实例，真正带领大家一步步开发完整的博客和社交应用Flasky，从而将前述知识融会贯通，付诸实践。
第三部分介绍了发布应用之前必须考虑的事项，如单元测试策略、性能分析技术、Flask程序的部署方式等。

《Python Web开发：测试驱动方法》
【（Django、Selenium）相关部分使用Python 3.3讲解】

亚马逊4.8星评好书

实战式TDD开发指南，使用Django等流行框架开发现代Web应用！

学习Django、Selenium、Git、jQuery和Mock，以及其他当前流行Web开发技术

“这本书很棒、很有趣，所讲的全都是重点知识。如果有人想用Python做测试、学习Django或者想使用Selenium，我极力推荐这本书。要使开发者保持头脑清醒，测试可谓至关重要。Harry完成了一项不可思议的工作，他不仅吸引了我们对测试的关注，而且还探索了切实可行的测试实践方案。”

——Michael Foord，Python核心开发者，unittest维护者

Python应用
用Python数据分析，数据处理，机器学习等等。

《数据科学入门》
【Python 2.7】

Google数据科学家、软件工程师Joel Grus作品

用Python从零开始讲解数据科学的重量级读本

数据科学、机器学习、模式识别领域必备

本书从零开始讲解数据科学。
具体内容包括Python简介，可视化数据，线性代数，统计，概率，假设与推断，梯度下降法，如何获取数据，k近邻法，朴素贝叶斯算法等。
作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念，通过讲解基础数据科学工具和算法实现，带你快速跨入数据科学大门。
书中含大量数据科学领域的库、框架、模块和工具包。

《机器学习实战》
【Python 2.7】

最畅销机器学习图书

介绍并实现机器学习的主流算法

面向日常任务的高效实战内容

全书通过精心编排的实例，切入日常工作任务，摒弃学术化语言，利用高效的可复用Python代码来阐释如何处理统计数据，进行数据分析及可视化。
通过各种实例，读者可从中学会机器学习的核心算法，并能将其运用于一些策略性任务中，如分类、预测、推荐。另外，还可用它们来实现一些更高级的功能，如汇总和简化等。

《机器学习系统设计》
【Python 2.7及以上】

微软Bing核心团队成员推出

聚焦算法编写和编程方式

结合大量实例学会解决实际问题

本书将向读者展示如何从原始数据中发现模式，首先从Python与机器学习的关系讲起，再介绍一些库，然后就开始基于数据集进行比较正式的项目开发了，涉及建模、推荐及改进，以及声音与图像处理。通过流行的开源库，我们可以掌握如何高效处理文本、图片和声音。同时，读者也能掌握如何评估、比较和选择适用的机器学习技术。

《Python数据处理》
【Python 2.7】

将数据处理过程自动化！

全面掌握用Python进行爬虫抓取以及数据清洗与分析的方法，轻松实现高效数据处理！

本书采用基于项目的方法，介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。
主要内容包括：Python基础知识，如何从CSV、Excel、XML、JSON和PDF文件中提取数据，如何获取与存储数据，各种数据清洗与分析技术，数据可视化方法，如何从网站和API中提取数据。

《Python数据分析基础教程：NumPy学习指南（第2版）》
【Python 2.7】

NumPy中文入门教程，Python数据分析首选

从最基础的知识讲起，手把手带你进入大数据挖掘领域

囊括大量具有启发性与实用价值的实战案例

本书从NumPy安装讲起，逐渐过渡到数组对象、常用函数、矩阵运算、线性代数、金融函数、窗函数、质量控制等内容，致力于向初中级Python编程人员全面讲述NumPy及其使用。
另外，通过书中丰富的示例，你还将学会Matplotlib绘图，并结合使用其他Python科学计算库（如SciPy和Scikits），让工作更有成效，让代码更加简洁而高效。

《Python数据挖掘入门与实践》
【Python 3.4】

全面释放Python的数据分析能力

掌握大数据时代核心技术，轻松入门数据挖掘技术并将其应用于实际项目

本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言，由浅入深，以真实数据作为研究对象，真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书，读者将迈入数据挖掘的殿堂，透彻理解数据挖掘基础知识，掌握解决数据挖掘实际问题的最佳实践！

《Python科学计算基础教程》
【Python 2.7及以上】

精彩案例展示Numpy等科学计算模块的强大功能和广泛应用

剖析Python关于并行与大数据计算的方法

总结科学计算的任务、难点以及最佳实践经验

本书是将Python用于科学计算的实用指南，既介绍了相关的基础知识，又提供了丰富的精彩案例，并为读者总结了最佳实践经验。
其主要内容包括：科学计算的基本概念与选择Python的理由，科学工作流和科学计算的结构，科学项目相关数据的各个方面，用于科学计算的API和工具包，如何利用Python的NumPy和SciPy包完成数值计算，用Python做符号计算，数据分析与可视化，并行与大规模计算，等等。

《Python数据分析实战》
【Python 2.X】

了解Python在信息处理、管理和检索方面的强大功能

学会如何利用Python及其衍生工具处理、分析数据

三个真实Python数据分析案例，将理论付诸实践

《Python数据分析实战》展示了如何利用Python 语言的强大功能，以最小的编程代价进行数据的提取、处理和分析，主要内容包括：数据分析和Python 的基本介绍，NumPy 库，pandas 库，如何使用pandas 读写和提取数据，用matplotlib 库和scikit-learn 库分别实现数据可视化和机器学习，以实例演示如何从原始数据获得信息、D3 库嵌入和手写体数字的识别。

《Python网络数据采集》
【Python 3.X】

原书4.6星好评，一本书搞定数据采集

涵盖数据抓取、数据挖掘和数据分析

提供详细代码示例，快速解决实际问题

本书介绍网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。
第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。
第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。

《Python计算机视觉编程》
【Python 2.6及以上】

亚马逊计算机视觉类图书No.1

详细剖析多种计算机视觉工具

大量示例极易上手

本书是计算机视觉编程的权威实践指南，通过Python语言讲解了基础理论与算法，并通过大量示例细致分析了对象识别、基于内容的图像搜索、光学字符识别、光流法、跟踪、3D重建、立体成像、增强现实、姿态估计、全景创建、图像分割、降噪、图像分组等技术。

阅读全文

热点内容

涂鸦论文发布：2021-03-31 13:04:48 浏览：698

手机数据库应用发布：2021-03-31 13:04:28 浏览：353

版面217 发布：2021-03-31 13:04:18 浏览：587

知网不查的资源发布：2021-03-31 13:03:43 浏览：713

基金赎回参考发布：2021-03-31 13:02:08 浏览：489

悬疑故事范文发布：2021-03-31 13:02:07 浏览：87

做简单的自我介绍范文发布：2021-03-31 13:01:48 浏览：537

战略地图参考发布：2021-03-31 13:01:09 浏览：463

收支模板发布：2021-03-31 13:00:43 浏览：17

电气学术会议发布：2021-03-31 13:00:32 浏览：731

数据科学实战pdf

(6)数据科学实战pdf扩展阅读：

参考资料：调查法-网络

【Python从入门到精通经典书籍推荐】

Python入门目的：了解Python，学会用Python编程。Python入门书众多，没必要全部阅读，根据介绍挑选合适自己的。PS：排名不分先后。

Python进阶需要一定Python基础。

Python应用用Python数据分析，数据处理，机器学习等等。

与数据科学实战pdf相关的资讯

Python入门
目的：了解Python，学会用Python编程。
Python入门书众多，没必要全部阅读，根据介绍挑选合适自己的。PS：排名不分先后。

Python进阶
需要一定Python基础。

Python应用
用Python数据分析，数据处理，机器学习等等。