讲述SQL Server 2008 数据挖掘的概念
您必须了解数据,以便在创建挖掘模型时作出正确的决策。浏览技术包括计算最小值和最大值,计算平均偏差和标准偏差,以及查看数据的分布。例如,通过查看最大值、最小值和平均值,您可以确定数据并不能代表客户或业务流程,因此您必须获取更多均衡数据或查看您的预期结果所依据的假定。标准偏差和其他分发值可以提供有关结果的稳定性和准确性的有用信息。大型标准偏差可以指示添加更多数据可以帮助改进模型。与标准分发偏差很大的数据可能已被扭曲,抑或准确反映了现实问题,但很难使模型适合数据。
借助您自己对业务问题的理解来浏览数据,您可以确定数据集是否包含缺陷数据,随后您可以设计用于解决该问题的策略或者更深入地理解业务的典型行为。
BI Development Studio 中的数据源视图设计器包含数种可用于浏览数据的工具。
此外,在创建模型时,Analysis Services 还会针对该模型中包含的数据自动创建统计摘要,您可以进行查询以便用于报告或进一步分析。
生成模型
如以下关系图中突出显示的那样,数据挖掘过程的第四步就是生成一个或多个挖掘模型。您将使用从浏览数据步骤中获得的知识来帮助定义和创建模型。
通过创建挖掘结构定义要使用的数据。挖掘结构定义数据源,但只有对挖掘结构进行处理后,该结构才会包含任何数据。处理挖掘结构时,Analysis Services 生成可用于分析的聚合信息以及其他统计信息。基于该结构的所有挖掘模型均可使用该信息。
在处理模型之前,数据挖掘模型只是一个容器,指定用于输入的列、要预测的属性以及指示算法如何处理数据的参数。处理模型也称为“定型”。定型表示向结构中的数据应用特定数学算法以便提取模式
推荐阅读
-
C#连接到sql server2008数据库的实例代码
-
卸载VS2011 Developer Preview后Sql Server2008 R2建立数据库关系图报“找不到指定的模块”错误的解决方法
-
多种SQL Server数据库备份方法的精细讲述教程
-
VS2008连接SQL Server数据库文件出错的解决方法
-
VS2008连接SQL Server数据库文件出错的解决方法
-
如何在SQL Server 2005数据库中导入SQL Server 2008的数据
-
SQL Server 2008数据库设置定期自动备份的方法
-
SQL SERVER 2008 r2 数据压缩的两种方法第2/2页
-
SQL SERVER 2008 无法附加数据库的解决方法
-
使用SQL Server 2008远程链接时SQL数据库不成功的解决方法