第 3 章 敘述統計II:數值方法.

Slides:



Advertisements
Similar presentations
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Advertisements

布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
Ch05 點估計與抽樣分配 授課老師 薛欣達. 學習目標 估計母體參數的樣本統計量 應用中央極限定理 根據估計式的需求性質判斷估計式的好壞 應用自由度的概念 利用樣板計算抽樣分配與相關的結果.
:Word Morphing ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10508:word morphing 解題者:楊家豪 解題日期: 2006 年 5 月 21 日 題意: 第一行給你兩個正整數, 第一個代表下面會出現幾個字串,
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
Chapter Two Data Summary and Presentation. Statistics II2 敘述統計 Vs. 推論統計 n 敘述統計 : 使用分析方法或圖形來描述一組來自於母 體或樣本之資料 n 推論統計 : 利用抽樣方法取得一樣本, 並針對此樣本 計算樣本統計量, 以推論未之母體之參數.
Advanced Chemical Engineering Thermodynamics
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
1.1 線性方程式系統簡介 1.2 高斯消去法與高斯-喬登消去法 1.3 線性方程式系統的應用(-Skip-)
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
第四章 評價股票選擇權的數值方法 蒙地卡羅模擬與二項式模型 財務工程 呂瑞秋著.
Stat_chi21 類別資料 (Categorical data) 一種質性資料, 其觀察值可歸類於數個不相交的項目內, 例 : 性別, 滿意度, …, 一般以各項的統計次數表現. 分析此種資料,通常用卡方檢定 類別資料分析 卡方檢定 卡方檢定基本理論 一個含有 k 項的試驗,設 p i.
©Ming-chi Chen 社會統計 Page.1 社會統計 第十講 相關與共變. ©Ming-chi Chen 社會統計 Page.2 Covariance, 共變量 當 X, Y 兩隨機變數不互為獨立時,表示 兩者間有關連。其關連的形式有很多種, 最常見的關連為線性的共變關係。 隨機變數 X,Y.
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
Chapter 2 聯立線性方程式與矩陣 緒言 線性方程式組 (systems of linear equations) 出現 在多數線性模式 (linear model) 中。根據以往解 題的經驗,讀者們也許已發現方程式的解僅與 該方程式的係數有關,求解的過程也僅與係數 的運算有關,只要係數間的相關位置不改變,
Section 2.3 Least-Squares Regression 最小平方迴歸
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
第 4 章 迴歸的同步推論與其他主題.
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容:利用分公司之追蹤資料進行企業決策分析 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
Structural Equation Modeling Chapter 7 觀察變數路徑分析=路徑分析 觀察變數路徑分析.
STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度.
平均值檢定 假設 檢定 One Sample 平均值 是否為 u. One Sample—1 工廠甲過去向 A 公司購買原料, 平均交貨日約為 4.94 日, 標準差 現在 A 公司改組, 甲工廠繼續向 A 公司 購買, 隨機抽取 8 次採購, 平均日數為 4.29 日, 請問 A 公.
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
Part 1 Understanding Data Chapter 1 Examining Distributions Chapter 2 Examining Relationships Chapter 3 Producing Data.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
1 政治大學東亞所選修 -- 計量分析與中國大陸研究黃智聰 政治大學東亞所選修 課程名稱:計量分析與中國大陸研究 (量化分析) 授課老師:黃智聰 授課內容:時間序列與橫斷面資料的共用 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge, (2001),
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
信度.
© The McGraw-Hill Companies, Inc., 2008 第 6 章 製造流程的選擇與設計.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 貳 研究設計.
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
: The largest Clique ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11324: The largest Clique 解題者:李重儀 解題日期: 2008 年 11 月 24 日 題意: 簡單來說,給你一個 directed.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
CH 15- 元件可靠度之驗證  驗證方法  指數模式之可靠度驗證  韋式模式之可靠度驗證  對數常態模式之可靠度驗證  失效數為零時之可靠度估算  各種失效模式之應用.
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
公司加入市場的決定. 定義  平均成本 = 總成本 ÷ 生產數量 = 每一單位產量所耗的成本  平均固定成本 = 總固定成本 ÷ 生產數量  平均變動成本 = 總變動成本 ÷ 生產數量.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
資料結構實習-一 參數傳遞.
政治大學公企中心必修課-- 社會科學研究方法(量化分析)--黃智聰
觀測量的權 權的觀念與計算.
公用品.  該物品的數量不會因一人的消費而受到 影響,它可以同時地被多人享用。 角色分配  兩位同學當我的助手,負責:  其餘各人是投資者,每人擁有 $100 , 可以投資在兩種資產上。  記錄  計算  協助同學討論.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
Chapter 10 m-way 搜尋樹與B-Tree
演算法課程 (Algorithms) 國立聯合大學 資訊管理學系 陳士杰老師 Course 7 貪婪法則 Greedy Approach.
描述統計 描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
Chapter 7 Sampling Distribution
Cluster Analysis 目的 – 將資料分成幾個相異性最大的群組 基本問題 – 如何衡量事務之間的相似性 – 如何將相似的資料歸入同一群組 – 如何解釋群組的特性.
Chapter 6 Introduction to Inference 推論簡介. Chapter 6 Introduction to Inference 6.1 Estimating with Confidence 6.2 Tests of Significance 6.3 Making Sense.
連續隨機變數 連續變數:時間、分數、重量、……
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
統計緒論 _ Chap2 資料整理 2.1 基本的資料整理  排序,例: length of 60 sea trouts ( 課本 p13 ) ( 可用 EXCEL)  長條圖,例 2.1 number of times of delay in a week for the 48 flights.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
幼兒行為觀察與記錄 第八章 事件取樣法.
CH 14-可靠度工程之數學基礎 探討重點 失效時間之機率分配 指數模式之可靠度工程.
Chapter 12 Estimation 統計估計. Inferential statistics Parametric statistics 母數統計 ( 母體為常態或 大樣本 ) 假設檢定 hypothesis testing  對有關母體參數的假設,利用樣本資料,決定接受或 不接受該假設的方法.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Presentation transcript:

第 3 章 敘述統計II:數值方法

敘述統計II:數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值 的偵測 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值 的偵測 3.4 探究性資料分析 3.5 兩變數的相關性量數 3.6 加權平均數與群組資料的處理

3.1 位置量數 平均數 中位數 眾數 百分位數 四分位數 3.1 位置量數 平均數 測量值是由樣本資料計算 而得,則稱之為樣本統計量 (sample statistics)。 中位數 眾數 百分位數 若是由整個母體計算而得, 則稱之為母體參數 (population parameters)。 四分位數 統計推論中,樣本統計量是指 相對應的母體參數的 點估計量(point estimator)。

平均數 一個變數最重要的位置量數或許是平均數 (mean 或 average value)。 若此資料來自某一母體,則以希臘字母 μ 表示之。 若此資料來自某一樣本,則樣本平均數記為 x。 平均數是一種中央位置量數。

樣本平均數 x 資料集中 n 個觀察值 的總和 觀察值的樣本數

母體平均數 m 資料集中 N 個觀察值 的總和 母體所有元素的個數

平均數實例 假設某大學的就業輔導室寄出一份問卷給被抽中的商學院畢業生,以調查工作起薪。 表3.1為所蒐集的資料。

平均數實例 樣本中12個商學院畢業生之平均起薪計算如下。

中位數 中位數(median)是變數的另一種中央位置量數。 將資料值由小排到大時,中位數為中間的那一個值。 若資料個數為奇數時,中位數即位於中間的數值; 若資料項目為偶數時,就沒有單一的中間項。 根據傳統的中位數定義,將中間兩個值之平均數當 作中位數。

中位數 將資料遞增排列(即由小到大排列) 資料值為奇數項時,中位數為此資料之中間值。 資料值為偶數項時,中位數為此資料之中間兩個數值的平均數。

中位數實例 計算表 3.1 商學院12位畢業生起薪的中位數 將資料遞增排列後如下 因為n=12是偶數,故有兩個中間值:2,890和2,920,中位數為此兩個值之平均。 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 中間兩個值

眾數 眾數(mode)眾數是資料集中出現次數最多的資料 值。 當資料集中出現次數最多的值有兩個或以上時, 眾數就不只一個。 若資料集恰有兩個眾數,則稱此資料為雙峰 (bimodal)。 若出現兩個以上的眾數時,則稱為多峰 (multimodal)。

第3章敘述統計II:數值方法 Part A 第81-82頁 眾數實例 表2.2的清涼飲料購買狀況調查整理成如下的次數分配。 眾數,即最常購買的清涼飲料,是Coke Classic 。 第3章敘述統計II:數值方法 Part A 第81-82頁

百分位數 百分位數(percentile)也是一種位置量數,有助於 瞭解資料在最小值與最大值間的分布情況。 針對那些沒有太多重複的資料集而言,p-百分位 數可將資料分割成兩部分,大約p-百分比的觀察 值會小於p-百分位數;而大約有(100-p)百分比 的觀察值會大於p-百分位數。 第3章敘述統計II:數值方法 第82頁

百分位數 p-百分位數表示至少有 p-百分比 (百分之 p) 的觀察值小於或等於它,而至少有 (100-p) 百分比的觀察值大於或等於它。

百分位數 將資料遞增排列,即由小到大排序。 計算指標 i i = (p/100)n p為百分位,n為觀察值的個數。 若 i 是整數,則p-百分位數為資料排序後的第 i 個與 第 i+1 個觀察值之平均數。

百分位數實例 求表3.1起薪資料的85-百分位數。 步驟 1. 將資料集的所有資料由小到大排序。 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 步驟 2. 步驟3. 因為 i 不為整數,無條件進位為11,即85-百分位數的位置指標。因此,85百分位數排在第11位。

百分位數實例 再看看50-百分位數的計算過程,由步驟2得知 因為 i 是整數,步驟3(b)指出50-百分位數為排序資料的第6個與第7個數值的平均數;因此,50-百分位數為(2890+2920)/2=2905 。要注意的是,此處的50-百分位數也是中位數。 第3章敘述統計II:數值方法 第83頁

四分位數 四分位數(quartiles)是百分位數的特例。 Q1 = 第一四分位數或25-百分位數 第3章敘述統計II:數值方法 第83頁

四分位數 第3章敘述統計II:數值方法 第83頁 圖3.1

第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁 四分位數實例 將起薪資料再次重新由小到大排序後,第二四分位數(即中位數)為2905。 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 我們需利用找出25與75-百分位數的規則來得到第一四分位數Q1與第三四分位數Q3,計算如下。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁

四分位數實例 對Q1而言: 因為 i 是整數,步驟3(b)指出第一四分位數,或25-百分位數,為第3個與第4個資料之平均數。因此,Q1 =(2850+2880)/2=2865。

第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁 四分位數實例 對Q3而言: 因為 i 為整數,步驟3(b)指出第三四分位數,或75-百分位數,為第9個與第10個資料之平均數,因此, Q3 =(2950+3050)/2=3000。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁

四分位數實例 四分位數將 12 個資料分成四部分,而每一部分均包含 25% 的觀察值。 我們定義了25-百分位數、50-百分位數、75-百分位數等三個四分位數後,便可利用計算百分位數的規則求出四分位數。 第3章敘述統計II:數值方法 第84頁

3.2 離散量數 除了位置量數外,我們還常希望能知道離散量數 或變異量數。 3.2 離散量數 除了位置量數外,我們還常希望能知道離散量數 或變異量數。 例如,選擇兩家不同的供應商訂貨,不僅要考慮 其平均運送時間,還要考慮其運送時間的變異性。 第3章敘述統計II:數值方法 第88頁

3.2 離散量數 全距 四分位數距 變異數 標準差 變異係數 第3章敘述統計II:數值方法 第88-91頁

全距 最簡單的離散量數就是全距(range)。 全距 = 最大值 - 最小值 全距僅用到資料中的兩個值,因此深受極端值 的影響。 第3章敘述統計II:數值方法 第88-89頁

全距實例 參考表 3.1 商學院畢業生的起薪資料,最大值是 3,325,最小值是 2,710,全距就是3325-2710=615。 假設有一位畢業生的每月起薪是 $10,000,此例中的全距變為 10000-2710=7290 而不是 615,這個值並不是非常適合描述資料集的變動性,因為 12 個資料中的 11 個資料均是在 2,710 與 3,130 之間。 第3章敘述統計II:數值方法 第89頁

四分位數距 四分位數距(inter-quartile range, IQR) 這個離散量 數是第三四分位數 Q3 與第一四分位數 Q1 的差。 IQR= Q3- Q1 IQR為中間50% 資料的全距。 能克服極端資料值的離散量數。 第3章敘述統計II:數值方法 第89頁

四分位數距實例 參考表3.1商學院畢業生的起薪資料,對每月起薪資料而言,第三四分位數與第一四分位數分別為 Q3=3000 與 Q1=2865,因此,IQR 為 3000-2865=135。 第3章敘述統計II:數值方法 第89頁

變異數 變異數(variance)是利用到全部資料的離散量數。 變異數是根據每一個觀察值( xi )與平均數之差而 數,μ為母體平均數)之差稱為離差(deviation about the mean)。 第3章敘述統計II:數值方法 第89頁

變異數 當樣本平均數的差距平方和除以n-1,而非n 時,此樣本變異數為母體變異數的不偏估計量 變異數之定義如下: 樣本變異數 母體變異數 第3章敘述統計II:數值方法 第89-90頁

變異數實例 利用3.1節中5個大學班級人數的樣本為例。 46 54 42 46 32 資料的彙總在表3.3,包括離差及離差的平方。離差平方的總和為 Σ( xi - )2 =256。因此,在n-1=4時,樣本變異數為 第3章敘述統計II:數值方法 第90頁

變異數實例 第3章敘述統計II:數值方法 第90頁 表3.3

變異數實例 表3.1的起薪資料為例,說明樣本變異數的計算,在3.1節中,我們算出樣本平均起薪值為2,940。樣本變異數(s2=27,440.91)的結果列於表3.4。 表3.3與3.4中值得注意的是,我們算出離差與離差平方的總和。對於任何資料集,離差的總和必為0。因此,如同表3.3與表3.4顯示 Σ( xi - ) =0,這是恆成立的,因為正的離差與負的離差會相互抵消,而使得離差的總和為0。 第3章敘述統計II:數值方法 第90頁

表3.4 起薪資料樣本變異數的計算 第3章敘述統計II:數值方法 第91頁 表3.4

標準差 標準差(standard deviation)的定義是變異數的 正平方根。 標準差比變異數容易解釋,因為標準差的衡量 單位與資料相同。 第3章敘述統計II:數值方法 第91頁

標準差 由變異數得到標準差的方法如下。 樣本標準差 母體標準差 第3章敘述統計II:數值方法 第91頁

標準差實例 以表3.1的起薪資料為例,樣本標準差為  s = =165.65。 第3章敘述統計II:數值方法 第91頁

變異係數 變異係數是變異性的相對衡量,它衡量標準差 相對於平均值的大小。 變異係數計算如下: 第3章敘述統計II:數值方法 第91-92頁

變異係數實例 CV是量測相對(於期望值)分散程度的量數,表示標準差佔期望值的百分比,通常小於1 例:(起薪的資料)樣本平均數 2940 與樣本標準差 165.65, 變異係數為 表示薪資的分散程度約為期望值的5.6% 一般而言,欲比較具有不同的標準差與平均數的資料之離散程度時,變異係數是一個有用的統計量。 第3章敘述統計II:數值方法 第92頁

生活中的實例 設甲、乙兩班某次數學考試成績,甲班樣本平均數為60分,樣本標準差為18分,乙班樣本平均數為65分,樣本標準差為13分。則 甲班成績之變異係數為 乙班成績之變異係數為 所以乙班變異係數較小。 

3.3 分配的形狀的量數,相對位 置,以及離群值的偵測 3.3 分配的形狀的量數,相對位 置,以及離群值的偵測 分配的形狀 z 分數 柴比雪夫定理 經驗法則 離群值的偵測 第3章敘述統計II:數值方法 第95-98頁

分配的形狀:偏度(skewness) 一分配形狀的重要數值衡量則是偏度(skewness)。 計算偏度的公式有些複雜。 衡量樣本的偏度公式是: 但是若以統計軟體來計算,則是輕而易舉。 第3章敘述統計II:數值方法 第95頁

分配的形狀:偏度(skewness) 對稱 (不偏) 偏度為 0 。 對稱分配的平均數及中位數是相等的。 第3章敘述統計II:數值方法 第95-96頁 圖3.3

分配的形狀:偏度(skewness) 適度左偏 偏度為負值。 平均數常小於中位數。 第3章敘述統計II:數值方法 第95-96頁 圖3.3

分配的形狀:偏度(skewness) 適度右偏 偏度是正值。 平均數通常大於中位數。

分配的形狀:偏度(skewness) 高度右偏 偏度是正值。 (通常大於1.0) 平均數通常大於中位數。

z 分數 z分數是每一個分數與平均數之差除以標準差, 可用來表示某一分數與平均數之距離為幾個標準差 z 分數通常稱為標準化值(standardized value)。 每個 xi 會有一個稱之為 z 分數(z -score)的數值 與之對應。

z 分數 資料集小於樣本平均數則 z 分數小於 0。 資料集大於樣本平均數則 z 分數大於 0。 資料集等於樣本平均數則 z 分數等於 0。 可表示該數值於分布中的相對位置。 轉換過程稱為Z轉換(Z-transformation)或標準化(standardization)。 資料集小於樣本平均數則 z 分數小於 0。 資料集大於樣本平均數則 z 分數大於 0。 資料集等於樣本平均數則 z 分數等於 0。

z 分數實例 表 3.5 是班級人數資料的 z 分數,之前算出平均數為 =44,樣本標準差為 s=8。第 5 個觀察值的 z 分數為 -1.50,是離平均數最遠的資料值,比平均數小 1.50個標準差。

柴比雪夫定理 在資料集內,至少有 (1-1/k2) 百分比的觀察值 與平均數的差距必須在 k 個標準差之內,k 為任 何大於 1 之值。

柴比雪夫Chebyshev定理 在任何的資料分配中,觀測值落於平均數左右k個標準差的區間內之比例,至少為

各種不同k值之Chebyshev定理的應用 柴比雪夫定理 各種不同k值之Chebyshev定理的應用 k 區間 落於該區間內觀測值的比例 1 2 2.5 3 至少為0(至少0%)

經驗法則 針對鐘形分配的資料集而言: 大約 68.26% 的觀察值與平均數的差距在一個標準差內。 大約 86.64% 的觀察值與平均數的差距在1.5個標準差內。 大約 95.44% 的觀察值與平均數的差距在二個標準差內。 大約 98.76% 的觀察值與平均數的差距在2.5個標準差內。 大約 99.72%(幾乎所有的觀察值) 與平均數的差距在三個標準差內。

經驗法則 x 99.72% 95.44% 68.26% m m – 3s m – 1s m + 1s m + 3s m – 2s

柴比雪夫定理實例 若某學院商用統計課程有 100 位學生修課,期中考成績之平均數為 70,標準差為 5。有多少學生的分數介於 60 與 80 之間?又有多少學生的分數介於 58 與 82 之間? (1) 我們注意到 60 的值是小於平均數 2 個標準差,而80 則是大於平均數 2 個標準差。利用柴比雪夫定理,我們可看出至少 0.75 或至少75% 的觀察值與平均數的差距必須在兩個標準差之內。因此,100 個學生至少有75 人分數介於 60 與 80 之間。

柴比雪夫定理實例 (2) 而分數介於 58 與 82 的人數又是多少?我們可看出 (58-70)/5=-2.4,表示58 是小於平均數 2.4 個標準差;而 (82-70)/5=+2.4,表示 82 大於平均數 2.4 個標準差。利用柴比雪夫定理 z=2.4,我們可得到 至少有82.6%的學生的分數必須介於58與82。

假定從一批產品隨機抽出20個量測其長度(公分),記錄如下:1. 8,1. 9,2. 0,2. 1,2. 3,2. 4,2. 5,2. 5,2 假定從一批產品隨機抽出20個量測其長度(公分),記錄如下:1.8,1.9,2.0,2.1,2.3,2.4,2.5,2.5,2.5,2.7,2.8,2.9,3.0,3.2,3.2,3.3, 3.7,3.8 試利用Chebyshev定理求出,有多少比例的觀測值落於(1.495,3.835)的區間內。 先求mean & std 再求 k 代入Chebyshev定理 實際上則有20個觀測值落於此區間 實際上則有13個觀測值 當資料分配愈近似對稱分配,則經驗法則更精確。

隨堂練習 某學期統計學期末成績,陳老師打算當掉6%的修課學生,若期末成績的全班平均分數為52分,標準差6分,且呈鐘形分配。 (1)試依Chebyshev定理,計算及格分數。 (2)試依經驗法則,計算及格分數。 (3)哪一方法較適合?

Chebyshev定理

經驗法則

3.4 探究性資料分析 五數彙總 箱形圖

五數彙總(five-number summary) 1 最小值 2 第一四分位數 (Q1) 3 中位數 (Q2) 4 第三四分位數 (Q3) 5 最大值

五數彙總(five-number summary)實例 表 3.1 中 12 位商業學校畢業生的薪資若以遞增順序排列的話可以得到下列資料。 由3.1節已知中位數為2905,Q1=2865且Q3=3000。再回顧此資料集之最小值為2710,而最大值為3325。因此,此資料集之五數彙總為2710, 2865, 2905, 3000, 3325。大約有1/4或25% 的資料值會介於這五數的兩兩間隔之間。 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 Q1=2865 Q2=2905 Q3=3000 (中位數) 第3章敘述統計II:數值方法 第102頁

箱形圖 箱形圖(box plot)是根據五數彙總而繪製的圖形。 繪製箱形圖的關鍵在中位數與四分位數(Q1與Q3), 也用到四分位數距 IQR=Q3-Q1。 箱形圖是另一種辨別離群值的方法。但是這種 方法不見得會與用 z 分數找出的離群值相同。 運用兩種方法或只用任一種方法皆可行。

箱形圖 圖3.5為月薪資料的箱形圖以及上、下界線。 第3章敘述統計II:數值方法 第103頁 圖3.5

箱形圖 繪製箱形圖的步驟如下: 箱形的製作以第一四分位數、第三四分位數為前後邊。以起薪資料為例,Q1=2865, Q3=3000,箱形包含中間50% 的資料值。 箱形中的垂直線位置為中位數 (以起薪資料而言是 2905)。因此,中位數位置的直線將所有資料分割成兩等分。 使用四分位數距 IQR=Q3-Q1 時,必須設定界限 (limits),箱形圖的界限分別位於 Q1 之下1.5(IQR)或 Q3 之上1.5(IQR)。對起薪資料而言,IQR= Q3-Q1 =3000-2865=135。因此,界限為 2865-1.5(135)=2662.5 與 3000+1.5(135)=3202.5。在界限之外的值為離群值。

箱形圖 圖 3.5 的虛線稱之為鬚 (whiskers)。鬚的畫法是從步驟 3 中箱形的兩邊至界限內最大值與最小值,以圖 3.5 為例,分別是 2710 與 3130。 最後,以 * 表示離群值的位置;在圖 3.5 中,可看到一個離群值 3,325。 圖 3.5 中有標示上、下界限的直線。這些線用來標示資料的範圍,雖然我們會算出這些數值,但在箱形圖中通常不會顯示出來。圖 3.6 是起薪資料的箱形圖的一般形式。

3.5 兩變數的相關性量數 共變異數 相關係數

共變異數 共變異數(covariance)是兩變數間線性相關的 敘述量數。 是量測兩量化變數之間線性關聯程度的量數。 共變異數為正值表示正相關。為負值表示負相關。 共變若觀察資料的序對呈現狹長的帶狀分佈, 則表示兩變數具有線性關聯,分布越集中,越有關聯。

共變異數 樣本共變異數 樣本共變異數 母體共變異數 第3章敘述統計II:數值方法 第107頁

共變異數實例 回顧 2.4 節立體音響設備店的例子。該店的經理有興趣研究未來幾個週末的電視廣告與銷售量的關係,樣本資料列於表 3.7 中。

共變異數實例 圖 3.7 為兩變數的散佈圖,其顯示出一種正向的關係:較高的銷售量 (y) 伴隨著較高的廣告次數 (x)。

共變異數實例 為了測量廣告次數 x 與銷售額 y 的線性關係之強度,我們利用式(3.10)計算樣本共變異數。表3.8是 的計算過程。請注意   =30/10=3且  =510/10=51,利用式(3.10),可得共變異數為

共變異數實例

共變異數的意義 以圖3.8來解釋樣本共變異數。 第3章敘述統計II:數值方法 第108頁 圖3.8

圖3.9 樣本共變異數的解釋 第3章敘述統計II:數值方法 第109頁 圖3.9

圖3.9 樣本共變異數的解釋

圖3.9 樣本共變異數的解釋 第3章敘述統計II:數值方法 第109頁 圖3.9

相關係數 相關係數(Correlation Coefficient)的範圍由−1到+1。 樣本相關係數為 1 代表兩變數 x 與 y 之間是完全 正線性相關。 一個樣本相關係數為-1 代表兩變數 x 與 y 之間 是完全負線性相關。

相關係數 皮爾生相關係數 樣本資料 母體資料 第3章敘述統計II:數值方法 第110頁

相關係數 相關係數讓我們瞭解兩個變數間線性相關的 程度,而非因果關係存在與否。 兩變數間的高度相關並不表示兩變數間必然有 因果關係。

相關係數實例 以立體音響設備店的資料為例,求其樣本相關係數。利用表3.8的資料,我們便能計算兩變數的樣本標準差。 因為 sxy=11,可得到樣本相關係數為 我們的結論是:廣告次數與銷售量之間存在強大正的線性關係。更明確地說,廣告次數增加時,銷售量也增加。

相關係數實例 假設某一特定資料集顯示 x 與 y 間有正線性相關但不是完全正線性相關,rxy 之值將會小於1,表示在散佈圖上的點並非全部落在一條直線上。當資料點愈來愈偏離完全正線性相關, rxy的值會愈變愈小。 rxy之值等於零表示 x 與 y 之間沒有線性關係,且 rxy之值接近零表示一種微弱的線性相關。 第3章敘述統計II:數值方法 第112頁

3.6 加權平均數與群組資料的處理 加權平均數 群組資料的樣本平均數 群組資料的樣本變異數 群組資料的標準差 3.6 加權平均數與群組資料的處理 加權平均數 群組資料的樣本平均數 群組資料的樣本變異數 群組資料的標準差 第3章敘述統計II:數值方法 第114-118頁

第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁 加權平均數 加權平均數(weighted mean)是在某些情況為了 反映個別觀察值的重要性,計算平均數時要對 每一觀察值加上權重,以此方式計算而得到的值 其中: xi = 第 i 個觀察值 wi = 第 i 的觀察值的權重 第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁

加權平均數實例 以下是一個加權平均數的例子,我們以過去3個月所做的5次採購來做說明。 第3章敘述統計II:數值方法 第115頁

第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁 加權平均數實例 我們可以由資料中觀察到,每磅成本由 $2.80至 $3.40不等,而且採購數量在500至2,750磅之間,假設經理想要瞭解原料每磅的平均成本,由於訂購數量各有不同,所以我們必須應用加權平均數的觀念。資料顯示5筆原料每磅成本分別為 x1=3.00, x2=3.40, x3 =2.80, x4=2.90,以及 x5=3.25,則每磅成本的加權平均成本等於每項成本乘上其對應採購量加權而得。 第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁

第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁 加權平均數實例 所以,本例的權重分別為 w1=1200, w2=500, w3 =2750, w4=1000,以及w5 =800,應用式(3.15),我們可以求得加權平均數: 因此,由加權平均數的計算,可以得到原料的每磅平均成本等於 $2.96。值得注意的是,若我們使用式 (3.14) 而非加權平均數的公式,將誤導結果。因為,(3.00+3.40+2.80+2.90+3.25)/5=15.35/5=$3.07。這個結果高估了每磅平均採購成本。 第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁

群組資料 在大部分的案例中,位置與離散量數都是利用個 別資料計算而得。 有時僅有群組資料(grouped data)或是次數分配 形式的資料。 為了計算群組資料的平均數,我們視每組中點為 此分組所有數值的代表。 應用加權平均數的式(3.15) ,而且以Mi作為資料 值,次數fi作為權重。 第3章敘述統計II:數值方法 第116-117頁

群組資料的平均數 群組資料的樣本平均數 群組資料的母體平均數 其中: fi = 第 i 組的次數 Mi = 第 i 組的組中點

群組資料的變異數 群組資料的樣本變異數 群組資料的母體變異數 第3章敘述統計II:數值方法 第117.118頁

群組資料的實例 在2.2節中,我們做出Sanderson and Clifford會計事務所完成年度稽核時間(天)的次數分配,並以20家公司為樣本,做出稽核時間的次數分配如表3.11。 第3章敘述統計II:數值方法 第116頁 表3.11

群組資料的實例 五個分組的組中點與加權平均數的計算在表 3.12 中,如表所示,樣本平均稽核時間為 19 天。

群組資料的實例 根據表 3.11 稽核時間的群組資料,將樣本變異數的計算過程列在表 3.13,計算結果可知樣本變異數為30。 第3章敘述統計II:數值方法 第117頁 表3.13

群組資料的實例 群組資料的標準差即是變異數的平方根。以稽核時間而言,樣本標準差 第3章敘述統計II:數值方法 第117頁

評註 在計算群組資料的敘述統計量時,組中點用來近似該分組的資料值,結果是群組資料的敘述統計量只會近似於直接使用原始資料所得到的敘述統計量。因此,我們建議儘可能從原始資料而不是群組資料來計算敘述統計量。 第3章敘述統計II:數值方法 第118頁

End of Chapter 3