数据挖掘需要学什么(数据挖掘与应用学什么)

什么是数据挖掘?数据挖掘是分析大量数据以发现商业智能的过程,商业智能有助于公司解决问题、降低风险和抓住新的机遇 。数据挖掘又称数据库中的知识发现,是计算机科学中在大量数据中发现感兴趣的、有用的模式和关系的过程 。分析数据质量社区,等你加入~
该领域结合了统计学、人工智能和数据库管理的工具来分析大型数字集合(称为数据集) 。数据挖掘广泛应用于商业、科学研究和政府安全 。它是在大型数据集中发现异常、模式和相关性以预测结果的过程 。这是公司用来将原始数据转化为有用信息的过程 。
数据挖掘过程的步骤组织收集数据并将其加载到数据仓库中 。它们在内部服务器或云上存储和管理数据 。业务分析人员、管理团队和信息技术专业人员访问数据并确定他们想要如何组织数据 。应用软件根据用户的结果对数据进行排序 。最终用户以易于共享的格式(如图形或表格)显示数据 。数据挖掘从业者通常通过遵循结构化且可重复的过程来获得及时可靠的结果,该过程包括以下六个步骤:
1.商业理解
充分了解项目参数,包括当前的业务情况、项目的主要业务目标和成功标准 。
2.数据理解
确定解决问题所需的数据,并从所有可用的来源收集数据 。
3.数据准备
以适当的格式准备数据,以回答业务问题并解决任何数据质量问题,例如丢失或重复的数据 。
4.建模
使用算法识别数据中的模式 。
5.估价
确定给定模型提供的结果,以及它如何帮助实现业务目标 。为了得到最好的结果,通常会有一个寻找最佳算法的迭代阶段 。
6.部署
向决策者提供项目结果 。
数据挖掘技术组织可以使用许多数据挖掘技术将原始数据转化为可操作的见解 。这些技术包括从高级人工智能到基础数据准备,这些技术对于实现数据投资价值最大化至关重要:
1.模式跟踪
模式跟踪是数据挖掘的一项基本技术 。它是关于识别和监控数据中的趋势或模式,以便对业务结果做出明智的推断 。例如,当确定一种产品在特定人群中比其他产品卖得更好时,组织可以使用这种知识来创建类似的产品或服务,或者简单地为该人群存储更好的原始产品 。
2.数据清理和准备
数据清洗和准备是数据挖掘的重要组成部分 。原始数据必须经过清理和格式化,以便用于各种分析方法 。数据清理和准备包括各种元素,如数据建模、转换、迁移、集成和聚合 。这是理解数据的基本特征和属性以确定其最佳用途的必要步骤 。
3.分类
基于分类的数据挖掘技术包括分析与不同类型数据相关的各种属性 。一旦组织确定了这些数据类型的主要特征,他们就可以对相应的数据进行分类 。这对于识别例如组织可能希望保护或从其记录中删除的个人可识别信息是至关重要的 。
4.异常值检测
异常值检测可以识别数据集中的异常情况 。一旦组织在其数据中发现异常值,就更容易理解这些异常的原因,并为将来可能出现的异常值做好准备,以更好地实现业务目标 。例如,如果交易信用卡系统的使用在一天的某个时间达到高峰,组织可以使用该信息通过找到高峰的原因来优化一天剩余时间的销售 。
5.关系
关联是一种与统计学相关的数据挖掘技术 。它表示某些数据与其他数据或数据驱动的事件相关 。类似于机器学习中的共生概念,一个基于数据的事件的概率用另一个事件的存在来表示 。这意味着两个数据事件之间存在联系:例如,当你买一个汉堡时,你经常会买薯条 。
6.使聚集
聚类是一种依赖可视化方法来理解数据的分析技术 。聚类机制使用图表来显示数据的分布以及不同类型指标的分布位置 。图解法是运用聚类分析的理想方法 。特别是通过图形和集群,用户可以直观地看到数据是如何分布的,以确定与其业务目标相关的趋势 。
7.返回
回归技术可用于识别数据集中变量之间关系的性质 。在某些情况下,这些关系可能是因果关系,或者只是相互关联 。回归是一种简单的白盒技术,可以清楚地揭示变量之间的关系 。回归技术用于预测和数据建模的某些方面 。
8.按序方式
这种数据挖掘技术侧重于发现一系列按顺序发生的事件 。它对于事务数据挖掘特别有用 。例如,这项技术可以揭示顾客第一次购买一双鞋后最有可能购买哪些衣服 。理解序列模式可以帮助组织向客户推荐其他产品以促进销售 。
9.预报


推荐阅读