什么是数据挖掘?
数据挖掘是搜索和分析大量原始数据以识别模式并提取有用信息的过程。
公司使用数据挖掘软件来了解有关其客户的更多信息。它可以帮助他们制定更有效的营销策略,增加销售额并降低成本。数据挖掘依赖于有效的数据收集、仓库和计算机处理。
关键要点
数据挖掘是分析大量信息以识别趋势和模式的过程。
公司可以使用数据挖掘进行从了解客户感兴趣或想要购买的内容到欺诈检测和垃圾邮件过滤。
数据挖掘程序根据用户请求或提供的信息来分解数据中的模式和连接。
社交媒体公司使用数据挖掘技术将其用户商品化以产生利润。
这种数据挖掘的使用最近受到批评,因为用户通常不知道他们的个人信息发生数据挖掘,特别是当它被用来影响偏好时。
数据挖掘的工作原理
数据挖掘涉及探索和分析大块信息,以收集有意义的模式和趋势。它用于信用风险管理、欺诈检测和垃圾邮件过滤。它也是一种市场研究工具,有助于揭示特定人群的情绪或意见。数据挖掘过程分为四个步骤:
数据收集并加载到现场或云服务上的数据仓库中。
业务分析师、管理团队和信息技术专业人员访问数据并确定他们希望如何组织数据。
自定义应用软件对数据进行排序和组织。
最终用户以易于共享的格式(如图形或表格)呈现数据。
数据仓库和挖掘软件
数据挖掘程序根据用户请求分析数据中的关系和模式。它将信息组织成类。
例如,一家餐厅可能希望使用数据挖掘来确定它应该提供哪些特色菜以及在什么日期提供。数据可以根据客户访问的时间和他们订购的内容组织成类。在其他情况下,数据挖掘者根据逻辑关系找到信息集群,或者查看关联和顺序模式,以得出有关消费者行为趋势的结论。
仓储是数据挖掘的一个重要方面。仓储是将组织的数据集中到一个数据库或程序中。它允许组织剥离数据段,供特定用户根据其需求进行分析和使用。云数据仓库解决方案使用云提供商的空间和功能来存储数据。这使较小的公司能够利用数字解决方案进行存储、安全和分析。
数据挖掘技术
数据挖掘使用算法和各种其他技术将大量数据转换为有用的输出。最流行的数据挖掘技术类型包括:
关联规则(也称为市场篮分析)搜索变量之间的关系。这种关系本身在数据集中创造了额外的价值,因为它努力链接数据片段。例如,关联规则将搜索公司的销售历史记录,以查看最常一起购买的产品;有了这些信息,商店就可以计划、推广和预测。
分类使用预定义的类分配给对象。这些类描述项目的特征或表示数据点与每个项目的共同点。这种数据挖掘技术允许在类似的功能或产品线中更整齐地对基础数据进行分类和汇总。
聚类类似于分类。但是,聚类分析可识别对象之间的相似性,然后根据这些项目与其他项目的不同之处对这些项目进行分组。虽然分类可能导致“洗发水”、“护发素”、“肥皂”和“牙膏”等组,但聚类可以识别“头发护理”和“牙齿健康”等组。
决策树用于根据一组标准或决策列表对结果进行分类或预测。决策树用于请求输入一系列级联问题,这些问题根据给出的响应对数据集进行排序。决策树有时被描述为树状视觉对象,允许在深入钻取数据时提供特定的方向和用户输入。
K-最近邻 (KNN) 是一种根据数据与其他数据的接近程度对数据进行分类的算法。KNN 的基础植根于这样的假设,即彼此接近的数据点比其他数据位更相似。这种非参数的监督技术用于根据单个数据点预测组的特征。
神经网络通过使用节点来处理数据。这些节点由输入、权重和输出组成。数据通过监督学习进行映射,类似于人脑相互连接的方式。可以对该模型进行编程,以给出阈值以确定模型的准确性。
预测分析致力于利用历史信息来构建图形或数学模型来预测未来的结果。与回归分析重叠,该技术旨在根据当前手头的数据支持未来的未知数字。
数据挖掘过程
为了最有效,数据分析师通常会在数据挖掘过程中遵循一定的任务流。如果没有这种结构,分析师可能会在分析过程中遇到问题,如果他们早点做好准备,这个问题本来很容易避免。数据挖掘过程通常分为以下步骤。
第 1 步:了解业务
在接触、提取、清理或分析任何数据之前,了解基础实体和手头的项目非常重要。该公司试图通过挖掘数据来实现的目标是什么?他们目前的业务状况如何?SWOT 分析的结果是什么?在查看任何数据之前,挖掘过程首先要了解该过程结束时的成功定义。
步骤 2:了解数据
明确定义业务问题后,就该开始考虑数据了。这包括可用的来源、如何保护和存储它们、如何收集信息以及最终结果或分析可能是什么样子。此步骤还包括确定数据、存储、安全性和收集的限制,并评估这些约束将如何影响数据挖掘过程。
步骤 3:准备数据
收集、上传、提取或计算数据。然后对其进行清理、标准化、清除异常值、评估错误并检查合理性。在数据挖掘的这个阶段,还可以检查数据的大小,因为过大的信息集合可能会不必要地减慢计算和分析速度。
步骤 4:构建模型
有了我们干净的数据集,是时候处理数字了。数据科学家使用上述数据挖掘类型来搜索关系、趋势、关联或顺序模式。数据也可以输入预测模型,以评估以前的信息位如何转化为未来的结果。
步骤 5:评估结果
数据挖掘的以数据为中心的方面通过评估一个或多个数据模型的结果来结束。分析的结果可能会被汇总、解释并呈现给到目前为止基本上被排除在数据挖掘过程之外的决策者。在此步骤中,组织可以选择根据结果做出决策。
步骤 6:实施更改和监视
数据挖掘过程结束时,管理层根据分析结果采取措施。公司可能会认为信息不够有力或调查结果不相关,或者公司可能会根据调查结果进行战略调整。在任何一种情况下,管理层都会审查业务的最终影响,并通过识别新的业务问题或机会来重新创建未来的数据挖掘循环。
不同的数据挖掘处理模型将具有不同的步骤,尽管一般过程通常非常相似。例如,知识发现数据库模型有九个步骤,CRISP-DM模型有六个步骤,SEMMA过程模型有五个步骤。1
数据挖掘的应用
在当今的信息时代,几乎任何部门、行业、部门或公司都可以利用数据挖掘。
销售
数据挖掘鼓励更智能、更高效地利用资本来推动收入增长。考虑在您最喜欢的当地咖啡店进行销售点登记。对于每笔销售,该咖啡馆都会收集购买时间和销售的产品。利用这些信息,商店可以战略性地制作其产品线。
营销
一旦上面的咖啡馆知道了它的理想阵容,就该实施这些变化了。但是,为了使营销工作更有效,商店可以使用数据挖掘来了解客户在哪里看到广告、定位哪些人口统计数据、在哪里放置数字广告以及哪些营销策略最能引起客户的共鸣。这包括使营销活动、促销优惠、交叉销售优惠和计划与数据挖掘的结果保持一致。
制造业
对于生产自己产品的公司来说,数据挖掘在分析每种原材料的成本、最有效的材料使用、制造过程中花费的时间以及哪些瓶颈对流程产生负面影响方面起着不可或缺的作用。数据挖掘有助于确保货物流动不间断。
欺诈检测
数据挖掘的核心是查找将数据点链接在一起的模式、趋势和相关性。因此,公司可以使用数据挖掘来识别不应该存在的异常值或相关性。例如,一家公司可能会分析其现金流并找到未知账户的重复交易。如果这是出乎意料的,公司可能希望调查资金是否管理不善。
人力资源
人力资源部门通常有广泛的数据可供处理,包括有关保留、晋升、工资范围、公司福利、这些福利的使用和员工满意度调查的数据。数据挖掘可以将这些数据关联起来,以更好地了解员工离职的原因以及吸引新员工的原因。
顾客服务
客户满意度可能由于各种原因而引起(或破坏)。想象一下,一家运送货物的公司。客户可能对运输时间、运输质量或通信不满意。同一客户可能会对电话等待时间过长或电子邮件响应缓慢感到沮丧。数据挖掘收集有关客户交互的运营信息,并总结调查结果,以查明弱点并突出公司做得对的地方。
数据挖掘的好处
数据挖掘确保公司收集和分析可靠的数据。它通常是一个更僵化、结构化的过程,它正式识别问题,收集与问题相关的数据,并努力制定解决方案。因此,数据挖掘有助于企业变得更有利可图、更高效或运营更强大。