内容简介
这本书为学生提供了进行数据科学所需的一系列技能,包括收集、清理、准备和共享数据,使用统计模型分析数据,写下模型结果,得出结论,使用云将模型投入生产。所有步骤都可重复操作。
市面上已经存在很多教授数据科学的书籍,但大多数都假设读者已经获得了相关数据。本书通过详细介绍如何在分析数据集之前收集数据集、清理和准备数据集填补了这一空白。也有很多书教授统计建模,但很少教授如何传达模型的结果以及它们如何帮助我们了解世界。很少数据科学教科书涉及到伦理学,而大多数涉及伦理学的教科书又都有一个象征性的伦理学章节。数据科学书籍通常不强调操作的可重复性。本书提供了一个可以以合乎道德和可重复的方式进行的简单工作流程,包括收集数据、准备数据、分析数据以及发现传递。本书通过广泛的案例研究收集和准备数据,并整合了相关道德规范,从而实现了这些目标。本书为教学用书,可以教授读者编写数据和模型,明确涵盖了编写的多个方面。最后,GitHub和开源统计语言R的使用贯穿全书。
主要特色:
目录
这本书为学生提供了进行数据科学所需的一系列技能,包括收集、清理、准备和共享数据,使用统计模型分析数据,写下模型结果,得出结论,使用云将模型投入生产。所有步骤都可重复操作。
市面上已经存在很多教授数据科学的书籍,但大多数都假设读者已经获得了相关数据。本书通过详细介绍如何在分析数据集之前收集数据集、清理和准备数据集填补了这一空白。也有很多书教授统计建模,但很少教授如何传达模型的结果以及它们如何帮助我们了解世界。很少数据科学教科书涉及到伦理学,而大多数涉及伦理学的教科书又都有一个象征性的伦理学章节。数据科学书籍通常不强调操作的可重复性。本书提供了一个可以以合乎道德和可重复的方式进行的简单工作流程,包括收集数据、准备数据、分析数据以及发现传递。本书通过广泛的案例研究收集和准备数据,并整合了相关道德规范,从而实现了这些目标。本书为教学用书,可以教授读者编写数据和模型,明确涵盖了编写的多个方面。最后,GitHub和开源统计语言R的使用贯穿全书。
主要特色:
- 丰富的代码示例
- 贯穿始终的道德规范
- 再现性贯穿始终
- 专注于数据收集、杂乱数据和数据清理
- 贯穿始终的广泛形成性评估
目录
1. 通过数据讲述故事
2. 用消防水带喝水
3. 可重现的工作流程
第1部分 基础
4. 写作研究
5. 静态通信
第2部分 通信
6. 处理数据
7. 收集数据
8. 搜寻数据
第3部分 数据获得
9. 清洗和准备
10. 存储和共享
第4部分 数据准备
11. 性数据分析探索
12. 线性模型
13. 广义线性模型
14. 观测数据的因果关系
15. 多级回归与后分层
16. 文本即数据
17. 结语
- High-entropy Materials
- Field Theory Of Multiscale Plasticity
- Data Science For The Geosciences
- Unmatched
- Telling Stories With Data
- History Of China's Financial Thought, A (in 2 Volumes)
- The Sage Handbook Of Human–machine Communication
- The Sage Handbook Of Clinical Neuropsychology
- Cognitive Neuroscience