Presentation is loading. Please wait.

Presentation is loading. Please wait.

1 Slide Slide 第 2 章 敘述統計I:表格與圖形法. 2 Slide Slide 敘述統計 I :表格與圖形法 類別資料的彙總 定量資料的彙總 探究性資料分析:莖葉圖 交叉表格與散佈圖.

Similar presentations


Presentation on theme: "1 Slide Slide 第 2 章 敘述統計I:表格與圖形法. 2 Slide Slide 敘述統計 I :表格與圖形法 類別資料的彙總 定量資料的彙總 探究性資料分析:莖葉圖 交叉表格與散佈圖."— Presentation transcript:

1 1 Slide Slide 第 2 章 敘述統計I:表格與圖形法

2 2 Slide Slide 敘述統計 I :表格與圖形法 類別資料的彙總 定量資料的彙總 探究性資料分析:莖葉圖 交叉表格與散佈圖

3 3 Slide Slide 定性資料的彙總  次數分配  相對次數分配  百分比次數分配  長條圖  圓形圖

4 4 Slide Slide 次數分配 (frequency distribution) 是資料集合的一種 表格彙總方式,用以顯示不相重疊的各個資料組別中各自含有的觀察值次數。。 表格彙總方式,用以顯示不相重疊的各個資料組別中各自含有的觀察值次數。。 次數分配的優點是提供了一個比原始資料更容易瞭解 的資料彙整方式,我們能瞭解 50 個購買紀錄在 5 種產 品間的分佈情形。次數分配的優點是提供了一個比原始資料更容易瞭解 品間的分佈情形。 次數分配

5 5 Slide Slide 次數分配  以下列例子說明定性資料次數分配的建立與解釋。 Coke Classic 、 DietCoke 、 Dr. Pepper 、 Pepsi-Cola 和 Sprite 是 5 種廣受歡迎的清涼飲料。表 2.1 列舉 了 50 個清涼飲料的購買成本。

6 6 Slide Slide 次數分配

7 7 Slide Slide 次數分配  為求得這些資料的次數分配, 我們計算每種飲料在資料集合 的總出現次數, Coke Classic 出 現 19 次, Diet Coke 出現 8 次, Dr. Pepper 出現 5 次, Pepsi- Cola 出現 13 次, Sprite 出現 5 次。  我們彙整了這些次數,並列示 於表 2.2 的次數分配表。

8 8 Slide Slide 一個資料組的相對次數 (relative frequency) 即 代表該類別之觀察值次數與所有觀察值次數的比率。 代表該類別之觀察值次數與所有觀察值次數的比率。 屬於該組觀察值次數 屬於該組觀察值次數 一個組別的相對次數 = n 相對次數

9 9 Slide Slide 相對次數分配  相對次數分配 (relative frequency distribution) 是 一個資料集的表格化彙總,顯示資料集裡每個 組別的相對次數。

10 10 Slide Slide 百分比次數分配 百分比次數分配 (percent frequency distribution) 也是資料集的表格化彙總。 百分比次數分配 (percent frequency distribution) 也是資料集的表格化彙總。 百分比次數分配顯示每一個組別的百分比次 數。 數。

11 11 Slide Slide 百分比次數分配  表 2.3 是購買清涼飲料的相對次數和百分比次數,可看出 Coke Classic 的相對次數是 19/50 = 0.38 , Diet Coke 的相對 次數則是 8/50 = 0.16 等等。由百分比次數分配,我們可發 現 38 % 的購買者選擇 Coke Classic , 16% 選擇 Diet Coke 等等,也可看出前三名佔全體的比例為 38% + 26% + 16% = 80% 。

12 12 Slide Slide 長條圖  長條圖 (bar graph 或 bar chart) 是一種圖形,用以 描述經過彙總 ( 如次數分配、相對次數分配、或百 分比次數分配 ) 的定性資料。  圖形的一軸 ( 通常是橫軸 ) 是用來表示組別名稱的 標記或符號。圖形的另一軸 ( 通常是縱軸 ) 則表示 次數、相對次數或百分比次數。  各個組別名稱上方有固定寬度的長條,以長條的 高度表示次數、相對次數或百分比次數。  對定性資料而言,每個組別應有所分隔不相鄰接, 表示每個組別 ( 或類別 ) 是有所區隔的。

13 13 Slide Slide 長條圖  圖 2.1 為 50 筆清涼飲料購買資料的次數分配長條 圖。在圖形中可看出 Coke Classic 、 Pepsi-Cola 與 Diet Coke 為最受歡迎的品牌。

14 14 Slide Slide 圓形圖  圓形圖 (pie chart) 也是一種用來表示 定性資料相對次數及百分比次數分 配的圖形。  圓形圖的畫法是,由一個圓形的圓心依照各資料 組的相對次數所對應的圓心角而劃分。  例如 Coke Classic 之相對次數為 0.38 ,因此 Coke Classic 所佔圓形的部分相當於圓心角 0.38×360 = 136.8 度的扇形。同理,其他四種品牌亦可得到相 對應的扇形部分,結果如圖 2.2 所示。扇形內的 數值可以是次數、相對次數或百分比次數。

15 15 Slide Slide 圓形圖

16 16 Slide Slide 評註 1. 通常,次數分配的組數和資料集的類別總數是相 同的。就如同本節表 2.1 的資料顯示,該資料集 裡有 5 種清涼飲料,每一種品牌便是次數分配裡 的一個組別。如果這個資料集包括了所有的清涼 飲料,則將有資料個數非常少的組別出現在次數 分配裡 ( 甚至有購買次數為 0 的清涼飲料產品 ) 。 大部分的統計學家建議這些觀察值次數非常少的 組別彙整為同一組,組名可取為「其他」。次數 在 5% 以下的組別,通常會依上述方式處理。 2. 次數分配的總次數應等於資料集的資料總數;相 對次數的總和必須為 1.00 ;百分比次數分配的百 分比總和則應為 100 。

17 17 Slide Slide 定量資料的彙總  次數分配  相對次數分配與百分比次數分配  直方圖  累積分配

18 18 Slide Slide 次數分配  為定量資料做次數分配,必須完成以下三個步驟: 1. 決定不相重疊的組別數目。 2. 決定每一組的組寬。 3. 決定每一組的組界。

19 19 Slide Slide 組數 (number of classes)  組數 (number of classes) 的制定可經由資料集合裡 資料值的範圍來規定。 一般而言,我們建議將資料集合分成 5 至 20 組。較小 的資料集合,通常分成 5 組或 6 組即可,較大的資料集 合需要較多的組數。 分組時,我們希望使用夠多的 組數來表示資料集的變化性, 但也不希望組數太多,而每組 卻只包含很少的資料次數。 由於表 2.5 的資料較少 (n = 20) , 我們將分成 5 組來建構次數分配。

20 20 Slide Slide 組寬 (width of the classes)  建構定量資料的次數分配需要選定每組的寬度。 建議每組均採用相同的寬度。

21 21 Slide Slide 組寬 (width of the classes)  稽核天數的資料顯示,最大值與最小值分別為 33 與 12 ,由於已事先決定組數為 5 ,利用式 (2.2) 得 出近似的組寬為 (33 - 12)/5 = 4.2 。  因此我們決定採用 5 天為次數分配的組寬。

22 22 Slide Slide 組界 (class limits)  選定組界 (class limits) 後,要讓每個資料只屬於唯 一一組。下組界 (lower class limit) 用以確認該分 組的最小可能值;上組界 (upper class limit) 則是 確認最大可能值。  如果是定性資料的次數分配,不必特意決定組界, 因為每個資料會自然歸屬於一個組別 ( 類別 ) 。

23 23 Slide Slide 組界 (class limits)  運用表 2.5 的資料,我們以 10 天為第一組的下組 界, 14 天為第一組的上組界。  表 2.6 將第一組標示為 10-14 。資料集的最小值 12 , 落在 10-14 這組。第二組的下組界是 15 ,上組界 是 19 。  整個資料集被分為 5 組,分別是: 10-14, 15-19, 20-24, 25-29, 30-34 。  資料集的最大值是 33 ,落在 30-34 該組中。  兩個相鄰組別的下組界之間的差異便是組寬。  利用前兩個組別的下組界 10 及 15 ,我們知道組 寬為 15 - 10 = 5 。

24 24 Slide Slide 組界 (class limits)  一旦決定組數、組寬以及組界, 便可經由計數落於每組內的資料 個數來建構一個次數分配表。  由此次數分配我們可知: 1. 次數最多的稽核時間介於 15-19 天 。 20 個稽核時間有 8 個是屬於這一 組。 2. 僅有一個稽核時間超過 30 天以上。

25 25 Slide Slide 組中點 (class midpoint)  在某些應用中,我們也許希望求出定量資料次數 分配的組中點,組中點 (class midpoint) 指的是上 組界及下組界的中間值,在稽核時間的資料中, 5 個組中點分別是 12, 17, 22, 27 及 32 。

26 26 Slide Slide 相對次數分配與百分比次數分配  定量資料的相對次數與百分比次數分配的定義, 與前述定性資料的作法相同。首先,所謂的相對 次數乃資料集裡某資料組的資料個數佔資料總數 的比率。對一個包含 n 個資料的資料集而言, 而百分比次數則是相對次數乘上 100 。

27 27 Slide Slide 相對次數分配與百分比次數分配  根據表 2.6 中的次數分配和 n = 20 ,表 2.7 顯示稽 核時間資料集的相對次數分配與百分比次數分配。  其中,有 0.40 或 40 % 的稽核需要 15 至 19 天。  僅 0.05 或 5% 的稽核需要 30 天以上。  與未經彙整的原始資料相比,表 2.7 可以讓我們 進一步解釋資料。

28 28 Slide Slide 相對次數分配與百分比次數分配

29 29 Slide Slide 累加次數分配 值

30 30 Slide Slide 直方圖  另一個常見的定量資料圖形表示是直方圖 (histogram) 。  建構直方圖之前,資料須先經過在前述的彙整, 如次數分配、相對次數分配或百分比次數分配。  直方圖之建構是將我們感興趣之變數置於橫軸上, 而次數、相對次數或百分比次數則置於縱軸上。  每一分組的次數、相對次數或百分比次數以一個 矩形圖表示,其寬度是該組別之組寬,高度則是 相對應之次數、相對次數或百分比次數。

31 31 Slide Slide 直方圖

32 32 Slide Slide 直方圖  但在畫直方圖時,刪除了這些間隔。刪除組間間 隔有助於看出:即使資料值被歸整為整數,稽核 時間可能是介於第一組的下組界及最後一組的上 組界之間的任何數值。  直方圖最重要的用處之一是,讓我們瞭解資料分 布的形狀或形式。圖 2.5 中有 4 個相對次數分配的 直方圖。

33 33 Slide Slide 直方圖顯示不同程度的偏態  圖 A 顯示資料的分布呈現 左偏 (skewed to the left) , 這是指分布形狀的左尾 ( 左端 ) 延伸得較遠。  此種直方圖常見於考試成 績的次數分配。因為分數 不會高於 100% ,大部分 的成績通常高於 70% ,很 低的分數則比較少見。

34 34 Slide Slide 直方圖顯示不同程度的偏態  圖 B 則是適度右偏 (skewed to the right) 的 直方圖,這是指分布 形狀的右尾 ( 右端 ) 延 伸得較遠。  購屋價格就是此種直 方圖的常見例子,少 數的豪宅會使資料的 右尾延伸。

35 35 Slide Slide 直方圖顯示不同程度的偏態  圖 C 是對稱的直方圖, 此圖中的左尾是右尾 的鏡射。實務中的直 方圖不會完全對稱, 但會大致對稱。  諸如 SAT 成績、身高 或體重之類的資料都 是大致對稱的形式。

36 36 Slide Slide 直方圖顯示不同程度的偏態  圖 D 則是高度右偏, 此圖的資料來自某女 性服飾店的顧客一日 採購金額。  商業經濟的實際應用 中,常可見此種向右 偏態的直方圖,例如, 購屋價格、薪水、採 購金額等等。

37 37 Slide Slide 累積次數分配 (cumulative frequency distribution) 是 次數分配的變形,它提供定量資料另一種表格化的彙總。 次數分配的變形,它提供定量資料另一種表格化的彙總。 累積次數分配利用次數分配的組數、組寬,以及組界來進行資料的表格化彙總。累積次數分配利用次數分配的組數、組寬,以及組界來進行資料的表格化彙總。 並不列出每個組別的資料次數,而是列出小於或等於上組界的總資料次數。並不列出每個組別的資料次數,而是列出小於或等於上組界的總資料次數。 累積分配

38 38 Slide Slide 累加次數分配  表 2.8 中的累加相對次數分配 (cumulative relative frequency distribution) 和累積百分比次數分配 (cumulative percent frequency distribution) 分別代表 小於或等於每一個組別上組界的資料個數佔資料 集合總數的相對比率和百分比。  累加相對次數分配的計算可由相對次數分配的比 率值相加總而得,也可由累積次數除以資料集的 資料總數而得。

39 39 Slide Slide x y  探究性資料分析:莖葉圖  交叉表格與散佈圖

40 40 Slide Slide 探究性資料分析 探究性資料分析 (exploratory data analysis) 的技 巧 , 包括簡單的算術與可以快速彙總資料且容易 繪製的圖形。 有種稱為莖葉圖 (stem-and-leaf display) 的方法 可同時顯示資料的順序及形狀。

41 41 Slide Slide 莖葉圖實例  為了說明莖葉圖的用法,以表 2.9 的資料為例。 這些資料是 50 位哈斯肯斯公司 (Haskens Manufacturing) 的應徵者參加能力測驗的結果,這 項測驗共有 150 道題目,這些資料代表應徵者答 對的題數。  為了繪製莖葉圖,我們首先將每一個資料的十位 數安排到垂直線的左邊,且由小至大依序排列; 垂直線的右邊則記錄每一個資料的個位數,所放 的位置須對應十位數的位置。

42 42 Slide Slide 莖葉圖實例

43 43 Slide Slide 莖葉圖實例  將資料重新安排如上述的形式後,資料排序就非 常簡單。排序完成後,即完成莖葉圖如下。

44 44 Slide Slide 莖葉圖實例  直線左邊的數字 (6, 7, 8, 9, 10, 11, 12, 13 與 14) 是莖 (stem) , 線右邊每一個數字是葉 (leaf) ,例如,第一列的 6 是莖, 8, 9 是葉。 第 2 章敘述統計 I :表格與圖形法 Part B (2.3-2.4) 第 41-42 頁

45 45 Slide Slide 莖葉圖實例  這表示有兩個資料值的第一位數字是 6 ,葉的數值 顯示兩個資料是 68 與 69 。同理,第二列是 表示第一位數是 7 的資料有 6 筆: 72, 73, 73, 75, 76 以及 76 。  為了強調莖葉圖的形狀,我們利用長方形將每一 個莖的葉之部分框起來。如此一來,我們便可以 得到以下的表示圖。 第 2 章敘述統計 I :表格與圖形法 Part B (2.3-2.4) 第 42 頁

46 46 Slide Slide 莖葉圖實例  將上面的圖形依逆時針方向旋轉 90 度,則得到一 個組界為 60-69, 70-79, 80-89 等的直方圖。

47 47 Slide Slide 莖葉圖的優點 1. 莖葉圖容易繪製。 2. 在一個分類組別區間內,由於莖葉圖列出所有實 際資料值,故能提供比直方圖更詳細的資訊。

48 48 Slide Slide 莖葉圖  莖葉圖沒有絕對的列或莖的數目。  可將原始資料的第一個數字再分成兩個或兩個以 上的莖,如此一來,可以輕易地擴充莖葉圖。  莖葉圖以單一個數字來定義葉的值,葉單位顯示 莖葉圖的數字應乘上的適當倍數。如此一來,莖 葉圖即可以近似原始資料。葉單位可以是 100, 10, 1, 0.1 等等。

49 49 Slide Slide 莖葉圖實例  以下列資料為例,這是速食餐廳 15 週的漢堡銷售 量。  這些資料的莖葉圖如下。 以第一列的莖為 15 、 葉為 6 來說明,兩者合 起來是 156 。為得到原 始資料的估計值,我 們必須乘以 10 ,也就 是乘上葉單位。因此 156 ×10= 1,560 是原始 觀察值的近似值。

50 50 Slide Slide 交叉表格與散佈圖 交叉表格與散佈圖即彙總兩變數之資料的方法。 管理者或決策者通常也需要有助於瞭解兩變數間 關係的表格化與圖形化方法。 至目前為止,我們介紹的都是針對一次一個變數 的表格與圖形化彙總方法。

51 51 Slide Slide 表的最左欄與最上列的標記為表中兩個變數的 各種類別 。 交叉表格可以使用在: 一個定性變數,其他類別為定量變數 兩個變數都是定性變數 兩個變數都是定量變數 交叉表格 (cross tabulation) 可同時彙整兩變數 的資料。 交叉表格

52 52 Slide Slide 交叉表格實例  Zagat’s Restaurant Review 會刊出全世界各地餐廳 的相關資料,各種變數的資料諸如餐廳品質評等、 餐點價格等均有報導。  品質評等是一個定性變數,其類別有好 (good) 、 非常好 (very good) 、卓越 (excellent) 三個等級, 餐點價格為定量變數,範圍從 $10 到 $49 之間。  品質評等與餐點價格資料來自洛杉磯地區的 300 家餐廳所構成的樣本,表 2.10 顯示前十家餐廳。

53 53 Slide Slide 交叉表格實例

54 54 Slide Slide 交叉表格實例  此應用例子的交叉表格在表 2.11 。  表的最左欄與最上列的標記為表中兩個變數的各種類別, 在表的左邊第一欄中有三個等級 ( 好、很好、特優 ) 對應品 質評等變數的三個類別。  在表的上方,行的標示分類 ($10-19, $20-29, $30-39 ,以及 $40-49) 分別對應餐點價格的四種類別

55 55 Slide Slide 交叉表格實例  每一個餐廳均提供品質評等與餐點價格之資料。因此,每 一個餐廳將可歸屬於交叉表格中的某一格子 (cell) 。  例如,第 5 家餐廳的品質評等是非常好,餐點價格則是 $33 。這家餐廳應該落在表 2.11 中第二列與第三欄的格子 內。在建構交叉表格時,我們只要計算格子裡之餐廳數目。 定量變數 定性變數

56 56 Slide Slide 交叉表格實例 品質評等的次數分配 餐點價格的次數分配

57 57 Slide Slide 交叉表格實例  將交叉表格右方欄位的次數除以總次數,即得到 品質評等的相對次數以及百分比次數分配。 由百分比次數分配可以看出, 28% 的餐廳得到的 評等是「好」, 50% 是「很好」, 22% 是「特 優」。

58 58 Slide Slide 交叉表格實例  將交叉表格下方欄位的次數除以總次數,則可以 得到餐點價格的相對次數及百分比次數分配。 各個欄位的加總並未恰好等於總和,這是因為經過四捨五入的運算而產生的結果。由百分比次數分配 ,可以很快看出, 26% 的餐廳的餐點價格是在最低 價 ($10-19) 的組別, 39% 的餐廳則落在下一組。

59 59 Slide Slide 一般的散佈圖型態與其變數相關形式,如圖 2.8 。 一個變數顯示在縱軸而其他變數則顯示在橫軸。 散佈圖 (scatter diagram) 是一種表示兩定量變數 間關係的圖形 。 趨勢線 (trendline) 則是提供近似關係的直線。 散佈圖與趨勢線

60 60 Slide Slide 散佈圖與趨勢線  正相關,此處的 y 會隨著 x 的增加而遞增。 x y

61 61 Slide Slide 散佈圖與趨勢線  負相關 : 此處的 y 會隨著 x 的增加而遞減。 x y

62 62 Slide Slide 散佈圖與趨勢線  不相關 : 顯示變數間無明顯的相關 x y

63 63 Slide Slide 散佈圖與趨勢線實例  以舊金山地區立體音響設備店的銷售與廣告關係 為例來說明。在過去三個月內,商店利用週末的 電視廣告進行促銷推廣的次數為 10 次,經理要調 查廣告出現次數與接下來一週的銷售量是否有關。 表 2.13 為 10 週的銷售量樣本,單位是百元。

64 64 Slide Slide 散佈圖與趨勢線實例

65 65 Slide Slide 散佈圖與趨勢線實例

66 66 Slide Slide 散佈圖與趨勢線實例  圖 2.7 為表 2.13 資料的散佈圖與趨勢線 * 。橫軸 為廣告次數 (x) ,而縱軸為銷售量 (y) 。  以第 1 週而言, x = 2 且 y = 50 。依此類推,在散 佈圖上正確地標示出對應的點,注意,為期 10 週 的觀察中,廣告次數為 1 次的有 2 週,廣告次數 為 2 次的也有 2 週等等。

67 67 Slide Slide 散佈圖與趨勢線實例  圖 2.7 的散佈圖顯示廣告次數與銷售量呈正向的 關係,較高的銷售量對應於較高的廣告次數。  由於散佈圖上的點並非全在同一條直線上,銷售 量與廣告次數並非完全的正比關係。  從一般型態來說,銷售量與廣告次數的關係仍是 正向的。

68 68 Slide Slide 圖 2.9 彙總資料的表格法與圖示法 定性資料定性資料定量資料定量資料 表格法 表格法 圖示法圖示法圖示法圖示法 次數分配 相對次數分配 百分比次數分配 交叉表格 長條圖 圓形圖 次數分配 相對次數分配 百分比次數分配 累積次數分配 累積相對次數分配 累積百分比次數分配 交叉表格 點圖 直方圖 肩形圖 莖葉圖 散佈圖 資料資料

69 69 Slide Slide End of Chapter 2


Download ppt "1 Slide Slide 第 2 章 敘述統計I:表格與圖形法. 2 Slide Slide 敘述統計 I :表格與圖形法 類別資料的彙總 定量資料的彙總 探究性資料分析:莖葉圖 交叉表格與散佈圖."

Similar presentations


Ads by Google