password
URL
type
status
date
slug
summary
tags
category
icon
周起始
标签
是否汉化
📌

1. 数据分析基础

1.1 数据分析是什么

数据分析是指通过收集、清洗、转换和分析数据,从中提取有用的信息和洞察,以支持决策和解决问题的过程。数据分析可以帮助人们理解数据背后的模式、趋势和关系,从而做出更明智的决策和行动。
以下是一些常见的数据分析应用场景:
  1. 业务决策支持:
      • 市场分析:分析市场趋势、竞争对手和消费者行为,制定市场营销策略。
      • 产品优化:根据用户反馈和行为数据,优化产品功能和用户体验。
      • 成本优化:分析成本结构,找出成本高、效益低的领域,并制定降低成本的策略。
  1. 客户洞察和服务优化:
      • 客户细分:根据客户的行为和偏好,将客户分成不同的群体,为不同群体提供个性化的服务和营销活动。
      • 用户行为分析:分析用户在网站、应用程序等平台上的行为,了解用户需求和行为模式,优化产品设计和服务流程。
  1. 风险管理和预测:
      • 信用风险评估:分析客户的信用历史、财务状况等信息,评估客户的信用风险。
      • 金融市场预测:利用历史数据和市场指标,预测股票、货币、商品等金融资产的价格走势。
  1. 运营和效率提升:
      • 生产优化:监控生产线的运行状态,发现并解决生产过程中的问题,提高生产效率和质量。
      • 物流优化:分析供应链数据,优化物流和库存管理,降低运输成本和交货时间。
  1. 市场营销和销售分析:
      • 客户购买行为分析:分析客户的购买历史和行为模式,发现潜在的交叉销售和增值机会。
      • 营销活动效果评估:分析营销活动的投入产出比,评估营销活动对销售和品牌影响的效果。
  1. 健康医疗领域:
      • 疾病预测和预防:利用医疗数据和健康指标,预测疾病发生的风险,并采取预防措施。
      • 医疗资源优化:分析医疗资源的分布和利用情况,优化医疗服务的配置和分配。

1.2 数据分析策略

常用的数据分析策略包括描述性统计分析、推论性统计分析、以下是对每种策略的简单描述、特点和适用场景:
  1. 描述性统计分析
  • 方法: 描述性统计分析通过总结和展示数据的基本特征,如均值、中位数、标准差等,来描述数据的分布和变化趋势。
  • 特点: 简单易行,能够提供对数据集的直观了解,但不能对数据背后的原因和关系进行深入分析。
  • 适用场景: 适用于初步了解数据集的特征、发现异常值和数据趋势。
  • 推论性统计分析
  • 方法: 推论性统计分析通过从样本数据中推断总体的特征和参数,如通过假设检验和置信区间来进行推断。
  • 特点: 可以根据样本数据推断总体特征,具有较强的普适性和泛化能力,但对样本数据的代表性要求较高。
  • 适用场景: 适用于从样本数据中推断总体特征、进行假设检验和参数估计等情况。
  • 探索性统计分析
  • 方法:从大量数据中发现未知且有价值信息的过程,不受研究假设和分析模型的限制,尽可能寻找变量之间的关系。
  • 特点:帮助发现数据的隐藏模式、趋势、关联和异常情况,为后续的深入分析提供重要的洞察和方向。
  • 适用场景:探索变量之间的关系和相互影响,发现变量之间的潜在联系和规律。了解数据的基本特征和结构。

1.3 数据分析方法

1.4 数据分析工具

常见的数据分析工具有Excel、SQL、BI和编程语言。
Python和R编程语言是进行数据分析最常用的两种。使用Python进行数据分析时,通常会借助第三方库,例如:Numpy、Pandas、SciPy等。
  1. Numpy:NumPy documentation — NumPy v1.26 Manual
      • 能力: Numpy是Python中用于数值计算和数组操作的基础库,提供了高性能的多维数组对象(ndarray)和广泛的数学函数库。
      • 特点:
        • 提供了高效的数组操作和广播功能,能够进行快速的数值计算。
        • 提供了丰富的数学函数和线性代数运算功能,方便进行科学计算和数据处理。
        • Numpy数组是内存连续的数据结构,适用于大规模数据的处理和计算。
      • 适用场景: 适用于处理数值型数据、数组操作和科学计算,常用于数据预处理、数据清洗、矩阵计算等任务。
  1. Pandas:pandas - Python Data Analysis Library
      • 能力: Pandas是Python中用于数据处理和分析的库,提供了高效的数据结构和数据操作工具,尤其适用于结构化数据。
      • 特点:
        • 提供了Series和DataFrame两种核心数据结构,能够方便地处理和分析结构化数据。
        • 提供了丰富的数据操作和处理功能,包括数据索引、选择、过滤、分组、合并、重塑等。
        • 支持灵活的数据导入和导出功能,能够读写各种格式的数据文件。
      • 适用场景: 适用于数据清洗、数据处理、数据分析和数据可视化等任务,尤其适用于处理表格型数据和时间序列数据。
  1. SciPy:Why SciPy? Fundamental algorithms. Broadly applicable. Foundational. Interoperable. Performant. Open
      • 能力: SciPy是Python中用于科学计算的库,提供了许多数值算法和科学工具,是Numpy的扩展。
      • 特点:
        • 包含了大量的数学、科学和工程计算的函数和工具,如积分、优化、插值、信号处理等。
        • 提供了丰富的统计学函数和模型,能够进行统计分析和建模。
        • 提供了线性代数、优化、插值等功能的高级接口和工具。
      • 适用场景: 适用于科学计算、工程计算、统计分析等领域,常用于数值模拟、信号处理、图像处理、统计建模等任务。
  1. Apache Spark:https://spark.apache.org/
      • 能力: Apache Spark是一个通用的、基于内存的并行计算引擎,也可以被用作数据分析工具。Spark提供了丰富的功能和API,包括用于数据处理、数据分析、机器学习和图计算等方面的功能。
      • 特点:
        • 高性能: Spark基于内存计算和分布式计算架构,能够快速处理大规模数据集。
        • 易用性: Spark提供了简洁易用的API,如Spark SQL、DataFrame和Dataset等,方便用户进行数据处理和分析。
        • 多功能: Spark支持多种数据处理和分析任务,包括数据清洗、数据转换、数据挖掘、机器学习等。
        • 扩展性: Spark支持在集群环境下运行,可以方便地扩展到数百台甚至数千台服务器,处理更大规模的数据。
      • 适用场景: 被广泛应用于大数据领域,包括数据仓库、数据湖、数据探索和数据挖掘等方面。

1.5 数据可视化工具

可视化:Matplotlib、Seanborn
Matplotlib和Seaborn都是Python中常用的数据可视化工具库,它们有一些相似之处,同时也有一些不同之处:
  • Matplotlib:https://matplotlib.org/
    • 功能: Matplotlib是Python中最流行的绘图库之一,提供了广泛的绘图功能,包括折线图、散点图、柱状图、饼图、等高线图等。
    • 特点:
      • 提供了灵活的绘图接口,可以绘制各种类型的图表,具有较高的自定义性。
      • 支持多种绘图风格和输出格式,可以生成高质量的静态图像和交互式图形。
      • Matplotlib的绘图函数和参数比较底层,需要一定的学习成本,但具有较强的灵活性和可定制性。
    • 适用场景: 适用于需要自定义和控制图形绘制细节的场景,如科学研究、数据分析报告、学术论文等。
  • Seaborn:https://seaborn.pydata.org/
    • 功能: Seaborn是基于Matplotlib的高级数据可视化库,提供了简洁易用的API,用于绘制统计图形,如分布图、箱线图、热力图、散点图矩阵等。
    • 特点:
      • 提供了更高级的统计图形绘制函数,可以一行代码实现复杂图形的绘制,减少了绘图代码的复杂性。
      • Seaborn的默认绘图风格和配色方案更加美观和专业,适用于快速生成漂亮的可视化图表。
      • 集成了Pandas的DataFrame对象,可以直接使用DataFrame中的数据进行绘图,方便数据分析和可视化。
    • 适用场景: 适用于快速绘制统计图形和数据分布图、热力图等,尤其适用于数据探索阶段和快速分析报告的制作。
综上所述,Matplotlib提供了更底层的绘图功能和更高的自定义性,适用于需要定制和控制细节的场景;而Seaborn则提供了更高级的统计图形绘制函数和更美观的默认风格,适用于快速生成漂亮的可视化图表和进行数据探索分析。在实际使用中,可以根据具体需求和偏好选择合适的工具库进行数据可视化。

2. 数据分析实践

以下是数据分析的主要步骤、目的和工作内容的表格形式呈现:
通过这些步骤,数据分析人员可以系统地进行数据分析工作,从数据的收集和清洗到探索性分析、建模和结果解释,全面地了解数据并得出有价值的结论。
使用Python进行数据分析。

2.1 数据加载、探查

读取文本文件
读取数据库表
探查数据

2.2 数据清洗

在分析前,要投入大量的时间和精力把数据“整理裁剪”成自己想要或需要的样子。
数据清洗规则总结为以下 4 个关键点,统一起来叫“完全合一”:
  1. 完整性: 单条数据是否存在空值,统计的字段是否完善。一个数据记录的完整性可以通过检查单条数据是否存在空值来评估。缺失的数据会影响分析的准确性,因此确保数据的完整性是十分重要的。
  1. 全面性: 全面性指的是数据的字段是否全面、详尽。对于某一列数据,我们希望能够观察到其全部数值,并且了解该列的统计指标,比如平均值、最大值、最小值等。通过观察这些指标,可以初步判断数据是否存在异常或问题。
  1. 合法性: 合法性指的是数据的类型、内容、大小是否合法。例如,数据中是否存在非 ASCII 字符、数值是否符合数据定义、单位标识是否正确等。确保数据的合法性可以防止在分析过程中出现错误或偏差。
  1. 唯一性: 唯一性指的是数据是否存在重复记录。在数据汇总的过程中,常常会遇到重复记录的情况,因此需要确保数据的唯一性,即每条数据记录都是独一无二的。比如,每个人的信息只应该记录一次,每个指标的数值也应该是唯一的。
依照“完全合一”的准则,使用 Pandas 来进行清洗。
  1. 完整性
  • 全面性
  • 合理性
  • 唯一性
(数据概览和类型转换、处理缺失值、处理重复数据、数据转换、数据替换、数据离散化和数据拆分、过滤异常值、字符串处理)

2.3 数据变换

数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法:
  • 类型和格式变换:对数据类型进行转换,以便于分析计算。数据格式进行变换,便于处理。
  • 数据离散化:去除数据中的噪声,将连续数据离散化。这里可以采用分箱的方式进行数据离散化;
  • 数据聚集:对数据进行汇总,在 SQL 中有一些聚集函数可以供我们操作,比如 Max() 反馈某个字段的数值最大值,Sum() 返回某个字段的数值总和;
  • 数据概化:将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
  • 数据规范化:使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小—最大规范化、Z—score 规范化、按小数定标规范化等;
  • 属性构造 :构造出新的属性并添加到属性集中。比如说,数据表中统计每个人的英语、语文和数学成绩,你可以构造一个“总和”这个属性,来作为新属性。这样“总和”这个属性就可以用到后续的数据挖掘计算中。
  1. 数据类型和格式变换
  • 数据离散化
  • 使用 SciKit-Learn 进行数据规范化。
      1. Min-max 规范化
Min-max 规范化方法是将原始数据变换到\[0,1]的空间中。新数值 =(原数值 - 极小值)/(极大值 - 极小值)。
新数值 =(原数值 - 均值)/ 标准差。
小数定标规范化就是通过移动小数点的位置来进行规范化,将数据转化为\[-1,1]区间中。小数点移动多少位取决于属性 A 的取值中的最大绝对值。

2.4 数据分组和聚合

2.5 可视化

常用的视图,包括了散点图、折线图、直方图、条形图、箱线图、饼图、热力图、蜘蛛图、二元变量分布和成对关系。
图表无非就是出于以下9种目的,进行绘制。
数据可视化工具分别是商业智能分析软件、可视化大屏、前端可视化组件和编程语言类。
商业智能分析软件:Tableau、 PowerBI和FineBI。
可视化大屏:DataV、FineReport
前端可视化组件:Canvas 和 SVG 是 HTML5 中主要的 2D 图形技术,WebGL 是 3D 框架。常用的可视化组件:Echarts、D3、Three.js 和 AntV。
编程语言类:最需要掌握的就是 Matplotlib 和 Seaborn。Matplotlib 是 Python 的可视化基础库,作图风格和 MATLAB 类似。Seaborn 是一个基于 Matplotlib 的高级可视化效果库,针对 Matplotlib 做了更高级的封装,让作图变得更加容易。
可视化视图划分为 4 类,它们分别是比较、联系、构成和分布。这四种关系的特点:
  • 比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;
  • 联系:查看两个或两个以上变量之间的关系,比如散点图;
  • 构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图;
  • 分布:关注单个变量,或者多个变量的分布情况,比如直方图。
同样,按照变量的个数,我们可以把可视化视图划分为单变量分析和多变量分析。
散点图
折线图
直方图
它是把横坐标等分成了一定数量的小区间,这个小区间也叫作“箱子”,然后在每个“箱子”内用矩形条(bars)展示该箱子的箱子数(也就是 y 值)
条形图
箱线图
饼图
热力图
矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。颜色越浅的代表数值越大。
蜘蛛图
散点图、核密度图,Hexbin图
多个双变量的关系
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
🎒
离开乏味的皮囊,自由的灵魂在路上
  • Name: Alan Hsu
  • Tag: 随感、技术、经验、旅行、推荐、生活、音乐、电影 etc.
  • Email:xulanzhong521gmail.com
  • WeChat: Alan_Hsu_521
notion image
notion image
 
 
 
大数据测试_数据质量验证Agent笔记
Loading...
Alan_Hsu
Alan_Hsu
许心志我在 蓝湛阔天海 中定自主宰
统计
文章数:
197
Latest posts
AI应用评测工具
2025-4-2
OpenCompass评测框架
2025-4-2
评测方法
2025-4-2
大模型评测指标
2025-4-2
评测Prompt
2025-4-2
评测任务&评测集
2025-4-2