分,
你识别出区间(a, b),在该区间内,x*与另一个属性 y 具有线性关系。 (a)换算成 x, (a, b)的对应区间是什么? (b)给出 y 关联 x 的方程。 答:(a)(a^2,b^2);
(b)Y=kx^0.5 +C (k, C 是常数)。
2.11 讨论使用抽样减少需要显示的数据对象个数的优缺点。简单随机抽样(无放回)是一种好 的抽样方法吗?为什么是,为什么不是? 答:抽样减少需要显示的数据对象个数的优点是减少处理数据的费用和时间。缺点是不能利 用总体的已知信息和代表总体数据的信息。简单随机抽样(无放回)不是一种好的抽样方 法,不能充分地代表不太频繁出现的对象类型和每个对象被选中的概率不一样。
2.12 给定 m 个对象的集合,这些对象划分成 K 组,其中第 i 组的大小为 m i 。如果目标是得
到容量为 n (b)从数据集中随机地选择 n 个元素,而不管对象属于哪个组。 答:(a)组保证了可以在每个组里面得到等比例的样本,而(b)组在每个组里面抽取的样本的 个数是随机的,不能保证每个组都能抽到样本。 2. 13 一个地方公司的销售主管与你联系,他相信他已经设计出了一种评估顾客满意度的方 法。他这样解释他的方案:“这太简单了,我简直不敢相信,以前竟然没有人想到,我 只是记录顾客对每种产品的抱怨次数,我在数据挖掘的书中读到计数具有比率属性,因 此,我的产品满意度度量必定具有比率属性。但是,当我根据我的顾客满意度度量评估 产品并拿给老板看时,他说我忽略了显而易见的东西,说我的度量毫无价值。我想,他 简直是疯了,因为我们的畅销产品满意度最差,因为对它的抱怨最多。你能帮助我摆平 他吗?” (a)谁是对的,销售主管还是他的老板?如果你的答案是他的老板,你做些什么来修正 满意度度量? (b)对于原来的产品满意度度量的属性类型,你能说些什么? 答: (a) 老板是对的。更好的衡量方法应该如下: 不满意率(产品)=每种产品的抱怨次数/ 该产品的总销售量 (b) 原来衡量方法的属性类型是没有意义的。例如,两件商品有相同的顾客满意度可能 会有不同的抱怨次数,反之亦然。 第 7 页 共 27 页 2.14 考虑一个文档-词矩阵,其中 ij tf 是第 i 个词(术语)出现在第 j 个文档中的频率,而 m 是 文档数。考虑由下式定义的变量变换: i ij ij df m tf tf log ' ? = 其中, i df 是出现 i 个词的文档数,称作词的文档频率(document frequency)。该变换称作 逆文档频率变换(inverse document frequency)。 (a)如果出现在一个文档中,该变换的结果是什么?如果术语出现在每个文档中呢? (b)该变换的目的可能是什么? 答: (a) 如果该词出现在每一个文档中,它的词权就会为 0,但是如果这个词仅仅出现在一 个文档中,它就有最大的词权,例如,log m 。 (b) 这个变换反映了以下一个现象:当一个词出现在每一个文档中,对于文档与文档之 间,该词没有区分能力,但是那些只是某一两篇文档出现的词,其区分文档的能 力就较强。 2.15 对于下面的向量 x 和 y,计算指定的相似性或距离度量。 (a)x=(1,1,1,1),y=(2,2,2,2) 余弦相似度、相关系数、欧几里得。 (b) x=(0,1,0,1),y=(1,0,1,0) 余弦相似度、相关系数、欧几里得、Jaccard 系数。 (c) x=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1) 余弦相似度、相关系数。 答:(a) 余弦相似度、相关系数、欧几里得分别是 0.5,0,2; (b) 余弦相似度、相关系数、欧几里得、Jaccard 系数分别是 0,1,2,0; (c) 余弦相似度、相关系数分别是 0,0。 2.16 简单地描述如何计算由以下类型的变量描述的对象间的相异度: (a) 不对称的二元变量 (b) 分类变量 (c) 比例标度型(ratio-scaled)变量 (d) 数值型变量 答: (a) 使用 Jaccard 系数计算不对称的二元变量的相异度; (b) 采用属性值匹配的方法(属性值匹配,相似度为 1,否则为 0)可以计算用分类变量 描述的对象间的相异度; (c) 对比例标度变量进行对数变换,对变换得到的值采用与处理区间标度变量相同的方 法来计算相异度; (d) 可采用欧几里得距离公式或曼哈顿距离公式计算。 2.17 给定两个向量对象,分别表示为 p1(22,1,42,10),p2(20,0,36,8): (a) 计算两个对象之间的欧几里得距离 (b) 计算两个对象之间的曼哈顿距离 (c) 计算两个对象之间的切比雪夫距离 (d) 计算两个对象之间的闵可夫斯基距离,用 x=3 答: (a) 计算两个对象之间的欧几里得距离 45 8 10 36 42 0 1 20 22 2 2 2 2 12 = ? + ? + ? + ? = ) ( ) ( ) ( ) ( d 第 8 页 共 27 页 (b) 计算两个对象之间的曼哈顿距离 11 8 10 36 42 0 1 20 22 12 = ? + ? + ? + ? = | | | | | | | | d (c) 计算两个对象之间的闵可夫斯基距离,其中参数 r=3 3 3 3 3 3 3 12 233 8 10 36 42 0 1 20 22 = ? + ? + ? + ? = | | | | | | | | d 2.18 以下表格包含了属性 name,gender,trait-1,trait-2,trait-3,及 trait-4,这里的 name 是 对象的 id,gender 是一个对称的属性,剩余的 trait 属性是不对称的,描述了希望找到 的笔友的个人特点。假设有一个服务是试图发现合适的笔友。 name gender trait-1 trait-2 trait-3 trait-4 Keavn M N P P N Caroline F N P P N Erik M P N N P 对不对称的属性的值,值 P 被设为 1,值 N 被设为 0。 假设对象(潜在的笔友)间的距离是基于不对称变量来计算的。 (a) 计算对象间的简单匹配系数; (b) 计算对象间的 Jaccard 系数; (c) 你认为哪两个人将成为最佳笔友?哪两个会是最不能相容的? (d) 假设我们将对称变量 gender 包含在我们的分析中。基于 Jaccard 系数,谁将是最和 谐的一对?为什么? 答: (a) 计算对象间的简单匹配系数 SMC (Keavn, Caroline) = (2+2)/( 0+0+2+2) = 1 SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0 SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0 (b) 计算对象间的 Jaccard 系数 Jaccard (Keavn, Caroline) = 2/(2+0+0) = 1 Jaccard (Keavn, Erik) = 0/(0+2+2) = 0 Jaccard (Caroline,Erik) = 0/(0+2+2) = 0 (c) 根据属性的匹配程度,Keavn 和 Caroline 将成为最佳笔友,Caroline 和 Erik 会是最 不能相容的。 (d) 若将对称变量 gender 包含在分析中,设值 M 被设为 1,值 F 被设为 0, Jaccard (Keavn, Caroline) = 2/(2+1+0) = 2/3 Jaccard (Keavn, Erik) = 1/(1+2+2) = 1/5 Jaccard (Caroline,Erik) = 0/(0+2+3) = 0 因为 Jaccard (Keavn, Caroline)最大,因此,Keavn 和 Caroline 是最和谐的一对。 2.19 给定一个在区间[0,1]取值的相似性度量,描述两种将该相似度变换成区间[0,∞]中的 相异度的方法。 答:取倒数减一: 1 ) , ( 1 ) , ( ? = q p s q p d 第 9 页 共 27 页 取对数: )) , ( log( ) , ( q p s q p d ? = 第 3 章分类与回归 3.1 简述决策树分类的主要步骤。 答:决策树生成的过程如下: (1)对数据源进行数据预处理, 得到训练集和测试集; (2)对训练集进行训练; (3)对初始决策树进行树剪枝; (4)由所得到的决策树提取分类规则; (5)使用测试数据集进行预测,评估决策树模型; 3.2 给定决策树,选项有:(1)将决策树转换成规则,然后对结果规则剪枝,或(2)对决策树剪 枝,然后将剪枝后的树转换成规则。相对于(2),(1)的优点是什么? 答:相对于(2),(1)的优点是:由于第一种方法已经将决策树转换成规则,通过规则,可以 很快速的评估决策树以及其子树紧凑程度,不能提高规则的估计准确率的任何条件都可 以减掉,从而泛化规则; 3.3 计算决策树算法在最坏情况下的时间复杂度是重要的。给定数据集 D,具有 m 个属性和 |D|个训练记录,证明决策树生长的计算时间最多为 ) log( D D m × × 。 答:假设训练集拥有|D|实例以及 m 个属性。我们需要对树的尺寸做一个假设,假设树的深 度是由 log |D| 决定,即 O(log |D|)。考虑一个属性在树的所有节点上所要做的工作量。 当然不必在每一个节点上考虑所有的实例。但在树的每一层,必须考虑含有|D|个实例的 整个数据集。由于树有 log |D|个不同的层,处理一个属性需要的工作量是 ) log(D D × 。 在每个节点上所有属性都要被考虑,因此总的工作量为 ) log(D D m × × 。 3.4 考虑表 3-23所示二元分类问题的数据集。 表 3-23 习题 3. 4数据集 A B 类标号 T F + T T + T T + T F - T T + F F - F F - F F - T T - T F - (1) 计算按照属性 A 和 B 划分时的信息增益。决策树归纳算法将会选择那个属性? (2) 计算按照属性 A 和 B 划分时 Gini 系数。决策树归纳算法将会选择那个属性? 第 10 页 共 27 页 答: 按照属性 A 和 B 划分时,数据集可分为如下两种情况: A=T A=F + 4 0 - 3 3 (1) 划分前样本集的信息熵为 E=-0.4log 2 0.4-0.6log 2 0.6=0.9710 按照属性 A 划分样本集分别得到的两个子集(A 取值 T 和 A 取值 F)的信息熵分别为: 0.9852 7 3 log 7 3 7 4 log 7 4 E 2 2 T A = ? ? = = 0 3 0 log 3 0 3 3 log 3 3 E 2 2 F A = ? ? = = 按照属性 A 划分样本集得到的信息增益为: 2813 . 0 10 3 10