大数据测试_数据分析基础

password

URL

type

status

date

slug

summary

1. 数据分析基础

1.1 数据分析是什么

数据分析是指通过收集、清洗、转换和分析数据，从中提取有用的信息和洞察，以支持决策和解决问题的过程。数据分析可以帮助人们理解数据背后的模式、趋势和关系，从而做出更明智的决策和行动。

以下是一些常见的数据分析应用场景：

业务决策支持：

市场分析：分析市场趋势、竞争对手和消费者行为，制定市场营销策略。

产品优化：根据用户反馈和行为数据，优化产品功能和用户体验。

成本优化：分析成本结构，找出成本高、效益低的领域，并制定降低成本的策略。

客户洞察和服务优化：

客户细分：根据客户的行为和偏好，将客户分成不同的群体，为不同群体提供个性化的服务和营销活动。

用户行为分析：分析用户在网站、应用程序等平台上的行为，了解用户需求和行为模式，优化产品设计和服务流程。

风险管理和预测：

信用风险评估：分析客户的信用历史、财务状况等信息，评估客户的信用风险。

金融市场预测：利用历史数据和市场指标，预测股票、货币、商品等金融资产的价格走势。

运营和效率提升：

生产优化：监控生产线的运行状态，发现并解决生产过程中的问题，提高生产效率和质量。

物流优化：分析供应链数据，优化物流和库存管理，降低运输成本和交货时间。

市场营销和销售分析：

客户购买行为分析：分析客户的购买历史和行为模式，发现潜在的交叉销售和增值机会。

营销活动效果评估：分析营销活动的投入产出比，评估营销活动对销售和品牌影响的效果。

健康医疗领域：

疾病预测和预防：利用医疗数据和健康指标，预测疾病发生的风险，并采取预防措施。

医疗资源优化：分析医疗资源的分布和利用情况，优化医疗服务的配置和分配。

1.2 数据分析策略

常用的数据分析策略包括描述性统计分析、推论性统计分析、以下是对每种策略的简单描述、特点和适用场景：

描述性统计分析

方法：描述性统计分析通过总结和展示数据的基本特征，如均值、中位数、标准差等，来描述数据的分布和变化趋势。

特点：简单易行，能够提供对数据集的直观了解，但不能对数据背后的原因和关系进行深入分析。

适用场景：适用于初步了解数据集的特征、发现异常值和数据趋势。

推论性统计分析

方法：推论性统计分析通过从样本数据中推断总体的特征和参数，如通过假设检验和置信区间来进行推断。

特点：可以根据样本数据推断总体特征，具有较强的普适性和泛化能力，但对样本数据的代表性要求较高。

适用场景：适用于从样本数据中推断总体特征、进行假设检验和参数估计等情况。

探索性统计分析

方法：从大量数据中发现未知且有价值信息的过程，不受研究假设和分析模型的限制，尽可能寻找变量之间的关系。

特点：帮助发现数据的隐藏模式、趋势、关联和异常情况，为后续的深入分析提供重要的洞察和方向。

适用场景：探索变量之间的关系和相互影响，发现变量之间的潜在联系和规律。了解数据的基本特征和结构。

1.3 数据分析方法

1.4 数据分析工具

常见的数据分析工具有Excel、SQL、BI和编程语言。

Python和R编程语言是进行数据分析最常用的两种。使用Python进行数据分析时，通常会借助第三方库，例如：Numpy、Pandas、SciPy等。

Numpy：NumPy documentation — NumPy v1.26 Manual

能力： Numpy是Python中用于数值计算和数组操作的基础库，提供了高性能的多维数组对象（ndarray）和广泛的数学函数库。

特点：

提供了高效的数组操作和广播功能，能够进行快速的数值计算。
提供了丰富的数学函数和线性代数运算功能，方便进行科学计算和数据处理。
Numpy数组是内存连续的数据结构，适用于大规模数据的处理和计算。

适用场景：适用于处理数值型数据、数组操作和科学计算，常用于数据预处理、数据清洗、矩阵计算等任务。

Pandas：pandas - Python Data Analysis Library

能力： Pandas是Python中用于数据处理和分析的库，提供了高效的数据结构和数据操作工具，尤其适用于结构化数据。

特点：

提供了Series和DataFrame两种核心数据结构，能够方便地处理和分析结构化数据。
提供了丰富的数据操作和处理功能，包括数据索引、选择、过滤、分组、合并、重塑等。
支持灵活的数据导入和导出功能，能够读写各种格式的数据文件。

适用场景：适用于数据清洗、数据处理、数据分析和数据可视化等任务，尤其适用于处理表格型数据和时间序列数据。

SciPy：Why SciPy? Fundamental algorithms. Broadly applicable. Foundational. Interoperable. Performant. Open

能力： SciPy是Python中用于科学计算的库，提供了许多数值算法和科学工具，是Numpy的扩展。

特点：

包含了大量的数学、科学和工程计算的函数和工具，如积分、优化、插值、信号处理等。
提供了丰富的统计学函数和模型，能够进行统计分析和建模。
提供了线性代数、优化、插值等功能的高级接口和工具。

适用场景：适用于科学计算、工程计算、统计分析等领域，常用于数值模拟、信号处理、图像处理、统计建模等任务。

Apache Spark：https://spark.apache.org/

能力： Apache Spark是一个通用的、基于内存的并行计算引擎，也可以被用作数据分析工具。Spark提供了丰富的功能和API，包括用于数据处理、数据分析、机器学习和图计算等方面的功能。

特点：

高性能： Spark基于内存计算和分布式计算架构，能够快速处理大规模数据集。
易用性： Spark提供了简洁易用的API，如Spark SQL、DataFrame和Dataset等，方便用户进行数据处理和分析。
多功能： Spark支持多种数据处理和分析任务，包括数据清洗、数据转换、数据挖掘、机器学习等。
扩展性： Spark支持在集群环境下运行，可以方便地扩展到数百台甚至数千台服务器，处理更大规模的数据。

适用场景：被广泛应用于大数据领域，包括数据仓库、数据湖、数据探索和数据挖掘等方面。

1.5 数据可视化工具

可视化：Matplotlib、Seanborn

Matplotlib和Seaborn都是Python中常用的数据可视化工具库，它们有一些相似之处，同时也有一些不同之处：

Matplotlib：https://matplotlib.org/

功能： Matplotlib是Python中最流行的绘图库之一，提供了广泛的绘图功能，包括折线图、散点图、柱状图、饼图、等高线图等。
特点：

提供了灵活的绘图接口，可以绘制各种类型的图表，具有较高的自定义性。
支持多种绘图风格和输出格式，可以生成高质量的静态图像和交互式图形。
Matplotlib的绘图函数和参数比较底层，需要一定的学习成本，但具有较强的灵活性和可定制性。

适用场景：适用于需要自定义和控制图形绘制细节的场景，如科学研究、数据分析报告、学术论文等。

Seaborn：https://seaborn.pydata.org/

功能： Seaborn是基于Matplotlib的高级数据可视化库，提供了简洁易用的API，用于绘制统计图形，如分布图、箱线图、热力图、散点图矩阵等。
特点：

提供了更高级的统计图形绘制函数，可以一行代码实现复杂图形的绘制，减少了绘图代码的复杂性。
Seaborn的默认绘图风格和配色方案更加美观和专业，适用于快速生成漂亮的可视化图表。
集成了Pandas的DataFrame对象，可以直接使用DataFrame中的数据进行绘图，方便数据分析和可视化。

适用场景：适用于快速绘制统计图形和数据分布图、热力图等，尤其适用于数据探索阶段和快速分析报告的制作。

综上所述，Matplotlib提供了更底层的绘图功能和更高的自定义性，适用于需要定制和控制细节的场景；而Seaborn则提供了更高级的统计图形绘制函数和更美观的默认风格，适用于快速生成漂亮的可视化图表和进行数据探索分析。在实际使用中，可以根据具体需求和偏好选择合适的工具库进行数据可视化。

2. 数据分析实践

以下是数据分析的主要步骤、目的和工作内容的表格形式呈现：

通过这些步骤，数据分析人员可以系统地进行数据分析工作，从数据的收集和清洗到探索性分析、建模和结果解释，全面地了解数据并得出有价值的结论。

使用Python进行数据分析。

2.1 数据加载、探查

读取文本文件

读取数据库表

探查数据

2.2 数据清洗

在分析前，要投入大量的时间和精力把数据“整理裁剪”成自己想要或需要的样子。

数据清洗规则总结为以下 4 个关键点，统一起来叫“完全合一”：

完整性： 单条数据是否存在空值，统计的字段是否完善。一个数据记录的完整性可以通过检查单条数据是否存在空值来评估。缺失的数据会影响分析的准确性，因此确保数据的完整性是十分重要的。

全面性： 全面性指的是数据的字段是否全面、详尽。对于某一列数据，我们希望能够观察到其全部数值，并且了解该列的统计指标，比如平均值、最大值、最小值等。通过观察这些指标，可以初步判断数据是否存在异常或问题。

合法性： 合法性指的是数据的类型、内容、大小是否合法。例如，数据中是否存在非 ASCII 字符、数值是否符合数据定义、单位标识是否正确等。确保数据的合法性可以防止在分析过程中出现错误或偏差。

唯一性： 唯一性指的是数据是否存在重复记录。在数据汇总的过程中，常常会遇到重复记录的情况，因此需要确保数据的唯一性，即每条数据记录都是独一无二的。比如，每个人的信息只应该记录一次，每个指标的数值也应该是唯一的。

依照“完全合一”的准则，使用 Pandas 来进行清洗。

完整性

全面性

合理性

唯一性

（数据概览和类型转换、处理缺失值、处理重复数据、数据转换、数据替换、数据离散化和数据拆分、过滤异常值、字符串处理）

2.3 数据变换

数据变换是数据准备的重要环节，它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法：

类型和格式变换：对数据类型进行转换，以便于分析计算。数据格式进行变换，便于处理。

数据离散化：去除数据中的噪声，将连续数据离散化。这里可以采用分箱的方式进行数据离散化；

数据聚集：对数据进行汇总，在 SQL 中有一些聚集函数可以供我们操作，比如 Max() 反馈某个字段的数值最大值，Sum() 返回某个字段的数值总和；

数据概化：将数据由较低的概念抽象成为较高的概念，减少数据复杂度，即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。

数据规范化：使属性数据按比例缩放，这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小—最大规范化、Z—score 规范化、按小数定标规范化等；

属性构造：构造出新的属性并添加到属性集中。比如说，数据表中统计每个人的英语、语文和数学成绩，你可以构造一个“总和”这个属性，来作为新属性。这样“总和”这个属性就可以用到后续的数据挖掘计算中。

数据类型和格式变换

数据离散化

使用 SciKit-Learn 进行数据规范化。

Min-max 规范化

Min-max 规范化方法是将原始数据变换到\[0,1]的空间中。新数值 =（原数值 - 极小值）/（极大值 - 极小值）。

新数值 =（原数值 - 均值）/ 标准差。

小数定标规范化就是通过移动小数点的位置来进行规范化，将数据转化为\[-1,1]区间中。小数点移动多少位取决于属性 A 的取值中的最大绝对值。

2.4 数据分组和聚合

2.5 可视化

常用的视图，包括了散点图、折线图、直方图、条形图、箱线图、饼图、热力图、蜘蛛图、二元变量分布和成对关系。

图表无非就是出于以下9种目的，进行绘制。

数据可视化工具分别是商业智能分析软件、可视化大屏、前端可视化组件和编程语言类。

商业智能分析软件：Tableau、 PowerBI和FineBI。

可视化大屏：DataV、FineReport

前端可视化组件：Canvas 和 SVG 是 HTML5 中主要的 2D 图形技术，WebGL 是 3D 框架。常用的可视化组件：Echarts、D3、Three.js 和 AntV。

编程语言类：最需要掌握的就是 Matplotlib 和 Seaborn。Matplotlib 是 Python 的可视化基础库，作图风格和 MATLAB 类似。Seaborn 是一个基于 Matplotlib 的高级可视化效果库，针对 Matplotlib 做了更高级的封装，让作图变得更加容易。

可视化视图划分为 4 类，它们分别是比较、联系、构成和分布。这四种关系的特点：

比较：比较数据间各类别的关系，或者是它们随着时间的变化趋势，比如折线图；

联系：查看两个或两个以上变量之间的关系，比如散点图；

构成：每个部分占整体的百分比，或者是随着时间的百分比变化，比如饼图；

分布：关注单个变量，或者多个变量的分布情况，比如直方图。

同样，按照变量的个数，我们可以把可视化视图划分为单变量分析和多变量分析。

散点图

折线图

直方图

它是把横坐标等分成了一定数量的小区间，这个小区间也叫作“箱子”，然后在每个“箱子”内用矩形条（bars）展示该箱子的箱子数（也就是 y 值）

条形图

箱线图

饼图

热力图

矩阵中的元素值用颜色来代表，不同的颜色代表不同大小的值。颜色越浅的代表数值越大。

蜘蛛图

散点图、核密度图，Hexbin图

多个双变量的关系

🎒

离开乏味的皮囊，自由的灵魂在路上

Name: Alan Hsu

Tag: 随感、技术、经验、旅行、推荐、生活、音乐、电影 etc.

Email：xulanzhong521gmail.com

Twitter：@AlanHsu521

Telegram：@AlanHsu521

WeChat: Alan_Hsu_521

Github: https://github.com/xsoway/

Blog: https://xmylog.com