欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

讲述SQL Server 2008 数据挖掘的概念

程序员文章站 2022-03-01 21:41:03
  您必须了解数据,以便在创建挖掘模型时作出正确的决策。浏览技术包括计算最小值和最大值,计算平均偏差和标准偏差,以及查看数据的分布。例如,通过查看最大值、最小值和平均值,您可以确定...

  您必须了解数据,以便在创建挖掘模型时作出正确的决策。浏览技术包括计算最小值和最大值,计算平均偏差和标准偏差,以及查看数据的分布。例如,通过查看最大值、最小值和平均值,您可以确定数据并不能代表客户或业务流程,因此您必须获取更多均衡数据或查看您的预期结果所依据的假定。标准偏差和其他分发值可以提供有关结果的稳定性和准确性的有用信息。大型标准偏差可以指示添加更多数据可以帮助改进模型。与标准分发偏差很大的数据可能已被扭曲,抑或准确反映了现实问题,但很难使模型适合数据。

  借助您自己对业务问题的理解来浏览数据,您可以确定数据集是否包含缺陷数据,随后您可以设计用于解决该问题的策略或者更深入地理解业务的典型行为。

  BI Development Studio 中的数据源视图设计器包含数种可用于浏览数据的工具。

  此外,在创建模型时,Analysis Services 还会针对该模型中包含的数据自动创建统计摘要,您可以进行查询以便用于报告或进一步分析。

  生成模型

  如以下关系图中突出显示的那样,数据挖掘过程的第四步就是生成一个或多个挖掘模型。您将使用从浏览数据步骤中获得的知识来帮助定义和创建模型。

  

讲述SQL Server 2008 数据挖掘的概念

  通过创建挖掘结构定义要使用的数据。挖掘结构定义数据源,但只有对挖掘结构进行处理后,该结构才会包含任何数据。处理挖掘结构时,Analysis Services 生成可用于分析的聚合信息以及其他统计信息。基于该结构的所有挖掘模型均可使用该信息。

  在处理模型之前,数据挖掘模型只是一个容器,指定用于输入的列、要预测的属性以及指示算法如何处理数据的参数。处理模型也称为“定型”。定型表示向结构中的数据应用特定数学算法以便提取模式