บทที่ 2 การวิเคราะห์ข้อมูลเบื้องต้น

บทที่ 2 การวิเคราะห์ข้อมูลเบื้องต้นการแจกแจงความถี่เป็นวิธีการจัดเตรียมข้อมูลดิบให้เป็นหมวดหมู่เพื่อความสะดวกในการนำไปวิเคราะห์ ซึ่งสิ่งที่ควรคำนึงถึงในการแจกแจงความถี่การแจกแจงความถี่ทำได้ 2 ดังนี้1)  การแจกแจงความถี่ของลักษณะที่สนใจที่เป็นไปได้ทั้งหมด 2)  การแจกแจงความถี่สำหลับค่าในแต่ละช่วงของลักษณะที่สนใจการแจกแจงความถี่ของลักษณะที่สนใจที่เป็นไปได้ทั้งหมด         การแจงแจกความถี่แบบนี้จะใช้กับข้อมูลที่จำนวนลักษณะที่เป็นไปได้ทั้งหมดมีไม่มากนัก เช่น จำแนกตามเพศ คือ เพศหญิง ชาย จำแนกตามความคิดเห็น เห็นด้วย ไม่เห็นด้วย ตัวอย่างที่ 2.1  จากการสำรวจคนไข้ที่เข้ามารับการรักษาที่โรงพยาบาลแห่งหนึ่งในเดือนมกราคม 2549 โดยแจกแจงความถี่ (จำนวนคนไข้)ตามเพศ ได้ดังนี้
เพศ
จำนวนคนไข้
ชาย
389
หญิง
311
รวม
700
การแจกแจงความถี่สำหรับค่าในแต่ละช่วงของลักษณะที่สนใจ         ในกรณีที่ค่าของข้อมูลที่เป็นไปได้ทั้งหมดของลักษณะที่สนใจมีจำนวนมากตัวอย่าง 2.2  ถ้าเลือกชายมา 100 คนสอบถามความสูงแล้วจัดทำเป็นช่วงๆได้5ช่วงหรือ 5 ช่วง ดังนี้
ความสูงของนักศึกษาชาย
(เซนติเมตร)
จำนวนคนไข้
135-144
5
145-154
21
155-164
39
165-174
24
175-184
11
รวม
100
ช่วงจำนวนของแต่ละชั้น เช่น 135-144,145-154,…,175-184  เรียกว่าขีดจำกัดชั้นค่าต่ำสุดของแต่ละชั้น เช่น 135-145,…,175                           เรียกว่าขีดจำกัดล่างและค่าสูงสุดของแต่ละชั้น เช่น 144,154,…,184                     เรียกว่าขีดจำกัดบน         โดยทั่วไปจะกำหมดค่าสูงสุดและค่าต่ำสุดของแต่ละชั้นให้มีทศนิยมมากกว่าของข้อมูลดังนี้ตัวอย่าง 2.2. ถ้านักศึกษาชายคนหนึ่งสูง 144.5 เซนติเมตร ก็ไม่สามารถจัดให้นักศึกษาอยู่ในชั้นใดได้ นอกจากนั้นการกำหมดให้มีจำนวนหลังจุดทศนิยมมากกว่าค่าของของข้อมูลทำให้ข้อมูลทั้งหมดต่อเนื่องกัน และเรียกช่วงในแต่ละชั้นว่า ขอบเขตจำกัดดังนั้นจากตัวอย่างที่ 2.2  ขอบเขตจำกัดชั้นสามารถกำหมดได้ ดังนี้  
ขอบเขตจำกัดชั้นสูงนักศึกษาชาย
(เซนติเมตร)
จำนวนคน
134.5-144.5
5
144.5-154.5
21
154.5-164.5
39
164.5-174.5
24
174.5-184.5
11
รวม
100
ค่าต่ำสุดของแต่ละชั้นคือ 134.5,144.5,…,174.5 เรียกว่าขอบเขตจำกัดล่างและค่าสูงสุดของแต่ชั้นคือ 144.5,154.5,….,1184.5 ว่าขอบเขยจำกัดบนและความกว้างของชั้นคือ 144.5-134.5=10         ตารางแจกแจงความถี่เป็นตารางที่อ่านเข้าง่าย แต่ก็มีการเสียรายละเอียดบางอย่างเกี่ยวข้อมูล เช่นมีนักศึกษาที่มีความสูงในช่วง 144.5- 154.5 เซนติเมตร อยู่ 18คน แต่จะไม่ทราบว่านักศึกษา 18 คน คนนี้มีส่วนสูงจริงๆ เท่าไหร่อาจจะเท่ากันหมดคือ 145 เซนติเมตรก็ได้ ปัญหานี้อาจแก้ไขด้ายโดยลดความกว้างของชั้นให้แคบลง ผูสร้างตารางแจกแจงความถี่จะต้องคำนึงถึงความเหมาสมในการกำหมดความกว้างของชั้นด้วย 1).  หาค่าพิสัยของข้อมูลโดยที่ค่าพิสัย(Range)คือผลต่างระหว่างข้อมูลที่มีค่ามากที่สุดกับข้อมูลที่มีค่าน้อยที่สุดดังนั้น
พิสัย = ค่าสูงสุด – ค่าต่ำสุด

ถ้ามีข้อมูล N ค่า  คือ X1 ,X2,...XNและให้ Xmax = ค่าสูงสุดของข้อมูล = max(X1 ,X2,...XN)            Xmin  = ค่าต่ำสุดของข้อมูล = min (X1 ,X2,...XN)ดังนั้น พิสัย = R = Xmax - Xmin 2)กำหมดจำนวนชั้น (k)    โดยกำหนดจำนวนชั้นเป็น 5-20  ชั้น  ถ้าข้อมูลมีการกระจายมากและมีจำนวนข้อมูลไม่มากควรให้มีจำนวนชั้นน้อยๆ เพื่อป้องกันไม่ให้มีชั้นที่มีชั้นที่มีค่าความถี่เป็นศูนย์ เนื่องจากไม่มีข้อมูลค่าใดที่ตกอยู่ในชั้นๆเลยในกรณีนี้ที่สร้างไม่ทราบว่าควรกำหมดให้ตารางแจกแจงความถี่มีกี่ชั้นส่ามารถใช้สูตรในการคำนวณชั้นได้ ด้งนี้
K = 1+ 3.3 log N
 I = ความกว้างของชั้น (อันตรภาคชั้น) =   พิสัย
                                                             จำนวนชั้น =R/k
    ถ้าค่า I เป็นเลขไม่ลงตัว จะปัดให้เป็นจำนวนเต็ม(ไม่ว่าเศษจะมีค่าต่ำกว่าหรือมากกว่า 0.5)โดยทั่วไปมักกำหมดให้ความกว้างของแต่ละชั้นเท่ากันหมด แต่ละในทางปฏิบัติบางครั้งอาจจะให้ความกว้างของแต่ละชั้นไม่เท่ากัน หรืออาจกำหมดให้เป็นชั้นเปิดก็ได้หรืออาจจะกำหมดให้ความกว้างของชั้นเป็นค่าที่ทำให้ค่ากึ่งกลางชั้น มีค่าเท่ากับจริงของข้อมูล
ค่ากึ่งกลางชั้น = (ขอบเขตกำจัดบน + ขอบเขตจำกัดล่าง )/2 = (ขีดจำกัดบน + ขีดจำกัดล่าง )/2
    โดยจะกำหมดให้ขีดจำกัดล่างของชั้นแรก (ชั้นที่มีค่าต่ำสุด) ครอบคลุมข้อมูลที่มีค่าต่ำสุดและให้ขีดจำกัดบนของชั้นสุดท้าย (ชั้นที่มีค่าสูงสุด)ครอบคลุมข้อมูลที่มีค่าสูงสุด หรืออาจใช้สูตรต่อไปนี้
ขีดจำกัดล่างของชั้นแรก = ค่าต่ำ – (Ik - R)/2
       5).คำนวณหาขอบเขตจำกัดชั้น (Class Boundaries)     การหาขอบเขตชั้นนั้นจะกำหนดให้ขอบเขตชั้นมีจำนวนหลักหลังจุดทศนิยมมากกว่าของข้อมูลจริงอยู่ 1 หลักเสมอ เช่น ถ้าข้อมูลจริงเป็นเลขจำนวนเต็ม ขอบเขตจำกัดชั้นจะมีจำนวนจุดทศนิยม 1 หลัก ในทางปฏิบัติ เราสามารถหาค่าขอบเขตชั้นได้ ดังนี้



ขอบเขตจำกัดชั้น = (ขีดจำกัดบนของชั้น + ขีดจำกัดล่างของชั้นถัดไป)/2
















    6). นับจำนวนค่าของข้อมูล (ความถี่) ในแต่ละชั้น     หลังจากสร้างขอบเขตจำกัดชั้นแล้ว จึงตรวจสอบว่าข้อมูลค่าใดอยู่ในชั้นได้บ้าง แล้วนับจำนวนข้อมูลในแต่ละชั้นเรียกว่า ความถี่ของชั้น                •  เมื่อต้องการตรวจสอบความผิดปกติ โดยดูการกระจายของกระบวนการทำงาน                 •  เมื่อต้องการเปรียบเทียบข้อมูลกับเกณฑ์ที่กำหนด หรือค่าสูงสุด-ต่ำสุด                 •  เมื่อต้องการตรวจสอบสมรรถนะของกระบวนการทำงาน (Process Capability)                 •  เมื่อต้องการวิเคราะห์หาสาเหตุรากเหง้าของปัญหา (Root Cause)                 •  เมื่อต้องการติดตามการเปลี่ยนแปลงของกระบวนการในระยะยาว                 •  เมื่อข้อมูลมีจำนวนมากๆ                 •  เก็บรวบรวมข้อมูล (ควรรวบรวมประมาณ 100 ข้อมูล)                 •  หาค่าสูงสุด (L) และค่าต่ำสุด (S) ของข้อมูลทั้งหมด                 •  หาค่าพิสัยของข้อมูล (R-Range)                 •  สร้างกราฟฮิสโตแกรม •  แบบปกติ (Normal Distribution) 

       โพลีกอนหรือความถี่โพลีกอน (Frequency Polygon) เป็นการนำเสนอข้อมูลให้เห็นเด่นชัดยิ่งขึ้น ซึ่งแสดงผลโดยลากเส้นตรงเชื่อมต่อระหว่างค่ากึ่งกลางชั้นของฮีสโตแกรม แต่จะต้องเพิ่มในฮีสโตแกรมอีกสองชั้น คือ ชั้นต่ำสุด และชั้นสูงสุด โดยชั้นที่เพิ่มอีก 2 ชั้นมีค่าความถี่เป็นศูนย์ 
    จากตารางแจกแจงความถี่ จะได้ความถี่สัมพัทธ์ของชั้นใดชั้นหนึ่งหมายถึงความถี่ของชั้นนั้นหารด้วยความถี่ทั้งหมด ส่วนมากนิยมเสนอด้วยเปอร์เซนต์โดยการนำผลหารขเางต้นคูณด้วย 100 และผลบวกของความถี่สัมพัทธ์ของทุกชั้นจะเท่ากับ 1
 อันตรภาคชั้น 
 ความถี่
 ความถี่สัมพัทธ์ 
 ร้อยละความถี่สัมพัทธ์
 10 - 14
 3
 3/30=0.1000
 3/30x100=10.00
 15 - 19 
 5
  5/30=0.1667
 5/30x100=16.67
 20 - 24
 12
12/30=0 4000
 12/30x100= 40.00
 25 - 29
 10
 10/30=0 3333
 10/30x100=33.33
 รวม
 30
 1.0000 
 100
 อันตรภาคชั้น
 ความถี่
 ความถี่สะสม
 50 - 54
 3
 55 - 59
 5
 8
 60 - 64
 12
 20
 65 - 69
 10
 30
 70 - 74
 6
 36
 75 - 80
 4
 40







             145  158  157  160  160  143  161  163  147  139              1. เลือกเอาตัวเลขหลักที่ซ้ำมาทำเป็น ต้นในตัวอย่างนี้จะได้สองหลักซ้ายมือ              2. นำเลขที่เหลือ ของข้อมูลแต่ละตัว มาเขียนลงไปในช่อง ใบ” (เช่น 150 ก็แยก 15 เป็น ต้นและ 0 เป็น ใบ”)              3. ควรเรียงลำดับจากน้อยไปมาก เพื่อให้สะดวกต่อการวิเคราะห์              สมมติเราต้องการจะเปรียบเทียบชุดข้อมูล 2 กลุ่ม ก็สามารถทำ ได้ ตัวอย่างเช่น              ความสูงของนักเรียนห้องป.6/1 และ ป.6/2 เป็นดังนี้              150  131  166  136  136  134  144  145  149  140               145  158  157  160  160  143  161  163  147  139ป. 6/2                            162  163  163  172  157  156  154  165  161  172               160  148  144  160  175  190  169  155  157  176              1) นักเรียนชั้นป.6/1 ส่วนใหญ่มีความสูงอยู่ในช่วง 150-159 ซม. ในขณะที่นักเรียนชั้นป.6/2 ส่วนใหญ่มีความสูงอยู่ระหว่าง 140-149 ซม.              2) นักเรียนคนที่เตี้ยที่สุดอยู่ชั้นป.6/2 สูง 131 ซม.ส่วนนักเรียนที่สูงที่สุดอยู่ชั้นป.6/1 สูง 190 ซม.              3) ชั้นป.6/1 มีนักเรียนที่สูงผิดปกติ 1 คน              4) ความสูงเฉลี่ยชั้นป.6/1 น่าจะมากกว่าชั้นป.6/2        การวัดแนวโน้มเข้าสู่ส่วนกลางเป็นระเบียบวิธีทางสถิติในการหาค่าเพียงค่าเดียวที่จะใช้เป็นตัวแทนของข้อมูลทั้งชุด ค่าที่หาได้นี้จะทำให้สามารถทราบถึงลักษณะของข้อมูลทั้งหมดที่เก็บรวบรวมมาได้ ค่าที่หาได้นี้จะเป็นค่ากลาง ๆ เรียกว่า ค่ากลาง         ประเภทของการวัดแนวโน้มเข้าสู่ส่วนกลาง การวัดแนวโน้มเข้าสู่ส่วนกลางมีอยู่หลายวิธีด้วยกัน                               http://www.stvc.ac.th/elearning/stat/s11.jpg 
                       เมื่อ http://www.stvc.ac.th/elearning/stat/s11.jpg (เอ็กซ์บาร์) คือ ค่าเฉลี่ยเลขคณิต                                     คือ ผลบวกของข้อมูลทุกค่า                                      คือ จำนวนข้อมูลทั้งหมด        การหารค่ามัธยฐาน สามารถหาได้ 2 วิธี          1. การหามัธยฐานของข้อมูลที่ไม่แจกแจงความถี่ ซึ่งมีวิธีหาได้ดังนี้              1.1 เรียงข้อมูลจากน้อิยไปมาก หรือจากมากไปน้อย              1.2 หาตำแหน่งของมัธยฐาน จาก 
                  เมื่อ http://www.stvc.ac.th/elearning/stat/mean5.jpg = จำนวนข้อมูลทั้งหมด             คำนวณได้่จากสูตร  
    


                         i = ความกว้างของอันตรภาคชั้น                        http://www.stvc.ac.th/elearning/stat/mdn5.jpg= ความถี่สะสมชั้นที่อยู่ก่อนชั้นที่มีมัธยฐานไปหาคะแนนน้อย                         = ความถี่ของคะแนนในชั้นที่มีมัธยฐาน                        http://www.stvc.ac.th/elearning/stat/mdn8.jpg    คือตำแหน่งมัธยฐาน        การหารค่าฐานนิยม สามารถหาได้ 2 วิธี                พิจารณาค่าของข้อมูลที่ซ้ำกันมากที่สุด คือฐานนิยม                     คำนวณได้จากสูตร     
                    เมื่อ Mo = ฐานนิยม (Mode)                              L = ขีดจำกัดล่างของคะแนนในชั้นที่มีความถี่สูงสุด                              i = ความกว้างอันตรภาคชั้น                            http://www.stvc.ac.th/elearning/stat/mod2.jpg   = ผลต่างของความถี่มากที่สุดกับความถี่ของชั้นก่อนหน้า                            http://www.stvc.ac.th/elearning/stat/mod3.jpg  = ผลต่างของความถี่มากที่สุดกับความถี่ของชั้นที่ถัดไปทางคะแนนมาก 2.2 ขั้นตอนการสร้างตารางแจกแจงความถี่ขั้นตอนการสร้างตารางแจกแจงความถี่การสร้างตารางแจกแจงความถี่มีขั้นตอน ดังนี้    3).คำนวณหาความกว้างของชั้นหรืออันตรภาคชั้น (Class Interval: I)          4).คำนวณหาขีดจำกัดชั้นแล้วปัดให้มีลักษณะเหมือนข้อมูลจริง เช่น ข้อมูลมีจำนวนหลักหลังจุดทศนิยมสองหลักจะปิดเศษให้ขีดจำกัดชั้นเป็นเลขที่มีจำนวนจุดทศนิยมสอง 2 เช่นกัน
2.3 ฮิสโตแกรม (Histogram)ฮิสโตแกรม (Histogram)     กราฟแท่งแบบเฉพาะ โดยแกนตั้งจะเป็นตัวเลขแสดง “ ความถี่ ” และมีแกนนอนเป็นข้อมูลของคุณสมบัติของสิ่งที่เราสนใจ โดยเรียงลำดับจากน้อย ที่ใช้ดูความแปรปรวนของกระบวนการ โดยการสังเกตรูปร่างของฮิสโตแกรมที่สร้างขึ้นจากข้อมูลที่ได้มาโดยการสุ่มตัวอย่างมีประโยชน์ในการที่จะทำให้ทราบถึงการแจกแจงของสิ่งที่เราต้องการวิเคราะห์ ประโยชน์ประการสำคัญของการใช้ฮีสโตแกรม คือการใช้เพื่อวิเคราะห์ความถี่ของข้อมูลแล้วตัดสินใจว่า การแจกแจงหรือการกระจายข้อมูลแบบใด เพื่อใช้ตรวจสอบคุณสมบัติของข้อมูล ตลอดจนการประมาณการลักษณะคุณภาพที่ได้จากการผลิตแผนภูมิฮิสโตแกรม แผนภูมินี้จะชี้ให้เห็นถึงความเบี่ยงเบนของข้อมูลว่ามีลักษณะการกระจายตัวของข้อมูลเป็นแบบระฆังคว่ำ (Normal Distribution) หรือไม่ หรือมีความเบี่ยงเบนไปทางบวกหรือลบ หรือมีลักษณะรูปแบบแบบฟันเลื่อย หรือแบบหน้าผา เป็นต้น ทำให้มองเห็นว่าความเบี่ยงเบนที่เกิดขึ้นจาก Normal Distribution ควรจะแก้ไขอย่างไรเมื่อไรจึงจะใช้แผนภาพฮิสโตแกรมวิธีการเขียนฮิสโตแกรม (Histogram)                                                สูตร R = L - S                •  หาค่าจำนวนชั้น (K)                                                สูตร K = Square root of (n) โดย n คือ จำนวนข้อมูลทั้งหมด                •  หาค่าความกว้างช่วงชั้น (H-Class interval)                                                สูตร H = R/K หรือ พิสัย / จำนวนชั้น                •  หาขอบเขตของชั้น (Boundary Value)                                                ขีดจำกัดล่างของชั้นแรก = S – หน่วยของการวัด / 2                                                ขีดจำกัดบนของชั้นแรก = ขีดจำกัดล่างชั้นแรก + H                •  หาขีดจำกัดล่างและขีดจำกัดบนของชั้นถัดไป                •  หาค่ากึ่งกลางของแต่ละชั้น (Median of class interval)                                                ค่ากึ่งกลางชั้นแรก = ผลรวมค่าขีดจำกัดชั้นแรก / 2                                                ค่ากึ่งกลางชั้นสอง = ผลรวมค่าขีดจำกัดชั้นสอง / 2                •  บันทึกข้อมูลในรูปตารางแสดงความถี่ลักษณะต่างๆ ของฮิสโตแกรม 
   การกระจายของการผลิตเป็นไปตามปกติ ค่าเฉลี่ยส่วนใหญ่จะอยู่ตรงกลาง•  แบบแยกเป็นเกาะ (Detached Island Type)        พบเมื่อกระบวนการผลิตขาดการปรับปรุง/หรือการผลิตไม่ได้ผล•  แบบระฆังคู่ (Double Hump Type)      พบเมื่อนำผลิตภัณฑ์ของเครื่องจักร 2 เครื่อง / 2 แบบมารวมกัน•  แบบฟันปลา (Serrated Type)     พบเมื่อเครื่องมือวัดมีคุณภาพต่ำ หรือการอ่านค่ามีความแตกต่างกันไป•  แบบหน้าผา (Cliff Type)       พบเมื่อมีการตรวจสอบแบบ Total Inspection เพื่อคัดของเสียออกไป2.4. โพลิกอนโพลีกอน (Polygon)2.5 การแจกแจงความถี่สัมพัทธ์ (Relative Frequency Distribution)การแจกแจงความถี่สัมพัทธ์ (Relative Frequency Distribution)ความถี่สัมพัทธ์ที่ได้นิยมเขียนให้อยู่ในรูปทศนิยม หรือ ร้อยละตัวอย่างที่ 8 จากตารางแจกแจงความถี่ที่กาหนดให้ หาค่าความถี่สัมพัทธ์ได้ดังนี้ความหมายจากตาราง        ความถี่สัมพัทธ์ของอันตรภาคชั้นใด เป็นการบอกให้ทราบว่าอันตรภาคชั้นนั้น มีจำนวนมากน้อยเพียงใดเมื่อเทียบกับผลรวมของความถี่ทั้งหมด แต่เพื่อความเข้าใจได้ง่ายๆ จึงนิยมเขียนเป็นร้อยละ เรียกว่า “ร้อยละของความถี่สัมพัทธ์เช่น อันตรภาคชั้น 10 - 14 มีร้อยละของความถี่สัมพัทธ์เท่ากับ 10.00 แสดงว่า อันตรภาคชั้น 10 -14 มีจานวนคิดเป็นร้อยละ 10.00 ของจานวนข้อมูลทั้งหมดอันตรภาคชั้น 20 - 24 เป็นอันตรภาคชั้นที่มีข้อมูลอยู่ในช่วงนี้มากที่สุด คิดเป็นร้อยละ 40.00 ส่วนอันตรภาคชั้น 10 - 14 เป็นอันตรภาคชั้นที่มีข้อมูลอยู่ในช่วงนี้น้อยที่สุด คิดเป็นร้อยละ 10.00หมายเหตุ        1. การปัดเศษในวิชาสถิติ แตกต่างกับการปัดเศษโดยทั่วๆไป กล่าวคือ ถ้าตัวที่จะปัดเป็น 5 โดยทั่วไปจะปัดขึ้นแต่สำหรับวิชาสถิติ ต้องดูตัวเลขที่อยู่ข้างหน้า ถ้าเป็นเลขคู่ คือ 0, 2, 4, 6, 8 จะปัด 5 ทิ้ง แต่ถ้าตัวเลขที่อยู่ข้างหน้าเป็นเลขคี่ คือ 1, 3, 5, 7, 9 จะปัดขึ้นเป็นหนึ่ง เช่น12345/100,000=0.12345   ถ้าต้องการทศนิยม 4 ตาแหน่งจะได้ 0.123412375/100,000=0.12375   ถ้าต้องการทศนิยม 4 ตาแหน่งจะได้ 0.1238        2. ผลรวมของความถี่สัมพัทธ์ มีค่าเท่ากับ 1 เสมอ ส่วนผลรวมของร้อยละของความถี่สัมพัทธ์เท่ากับ 100 เสมอ 2.6 การแจกแจงความถี่สะสมการแจกแจงความถี่สะสม ความถี่สะสม (Cumulative Frequency) ของอันตรภาคชั้นใด คือ ผลรวมความถี่ตั้งแต่อันตรภาคชั้นช่วงคะแนนต่าสุดถึงอันตรภาคชั้นนั้นตัวอย่าง  จากตารางแจกแจงความถี่ต่อไปนี้ จงหาความถี่สะสมจากตารางแจกแจงความถี่ข้างต้น อันตรภาคชั้นที่ 3 มีความถี่สะสม 20 แสดงว่าข้อมูลที่มีค่าน้อยกว่า 64.5 มีอยู่ 20 จำนวนอันตรภาคชั้นที่ 4 มีความถี่สะสม 30 แสดงว่าข้อมูลที่มีค่าน้อยกว่า 69.5 มีอยู่ 30 จำนวนอันตรภาคชั้นที่ 5 มีความถี่สะสม 36 แสดงว่าข้อมูลที่มีค่าน้อยกว่า 74.5 มีอยู่ 36 จำนวนอันตรภาคชั้นที่ 6 มีความถี่สะสม 40 แสดงว่าข้อมูลที่มีค่าน้อยกว่า80.5 มีอยู่ 40 จำนวนข้อสังเกต1. ค่าความถี่สะสมหาได้จากการบอกความถี่จากอันตรภาคชั้นที่คะแนนมีค่าน้อยไปสู่ชั้นที่มีค่ามาก2. ความถี่สะสมของอันตรภาคชั้นสุดท้าย คือ จานวนข้อมูลทั้งหมดนั่นเอง3. ค่าความถี่สะสมของอันตรภาคชั้นใดบอกให้ทราบว่า มีจานวนข้อมูลเท่าใดที่มีค่าน้อยกว่าขอบบนของชั้นนั้น4. ค่าความถี่ของอันตรภาคชั้นใด บอกให้ทราบว่า มีจานวนข้อมูลเท่าใดที่มีค่าอยู่ในอันตรภาคชั้นนั้น แผนภาพต้น-ใบ (Stem-and-Leaf Diagram) ใช้เพื่อจัดข้อมูลเป็นกลุ่มๆ และข้อมูลทุกตัวจะถูกแสดงในแผนภาพ ไม่เพียงแค่นับรวมว่าเป็นความถี่ในอันตรภาคชั้นเดียวกันเหมือนกับฮิสโตแกรม สมมติเรามีข้อมูลส่วนสูง(ซม.)ของนักเรียนชั้นป.6 จำนวน 20 คน ดังนี้             150  131  166  136  136  134  144  145  149  140 จะสามารถนำมาทำแผนภาพต้น-ใบ ได้ดังนี้             จากแผนภาพต้น-ใบนี้ จะบอกได้คร่าวๆว่าข้อมูลที่มีค่าต่ำที่สุดคือ 131 และสูงสุดคือ 166 ช่วงที่มีความถี่สูงสุดคือ 140 – 149ป. 6/1    เขียนเป็นแผนภาพต้น-ใบได้ดังนี้ซึ่งเราจะสามารถวิเคราะห์ข้อมูลทั้ง 2 กลุ่มอย่างคร่าวๆ ได้ว่ารวัดแนวโน้มเข้าสู่ส่วนกลาง (measures of central tendency)     ค่าเฉลียเลขคณิตของข้อมูลที่ไม่ได้แจกแจงความถี่                สามารถคำนวณได้จากสูตรมัธยฐาน (Median)       มัธยฐาน หมายถึง ค่ากึ่งกลางของข้อมูลชุดนั้น หรือค่าที่อยู่ในตำแหน่งกึ่งกลางของข้อมูลชุดนั้น เมื่อได้จัดเรียงค่าของข้อมูลจากน้อยที่สุด ไปหามากที่สุดหรือจาหมากที่สุกไปหาน้อยที่สุด ค่ากึ่งกลางจะเป็นตัวแทนที่แสดงว่ามีข้อมูลที่มากกว่าและน้อนกว่านี้อยู่ 50 %2. การหามัธยฐานของข้อมูลที่แจกแจงความถี่           เมื่อ  Mdn = มัธยฐาน ( Median )                       L = ขีดจำกัดล่างที่แท้จริงของชั้นที่มีมัธยฐานอยู่ฐานนิยม(Mode)        ฐานนิยมหมายถึง ค่าของคะแนนที่ซ้ำกันมากที่สุดหรือ ค่าคะแนนที่มีความถี่สูงที่สุดในข้อมูลชุดนั้น          1. ฐานนิยมของข้อมูลที่ไม่แจกแจงความถี่  2. ฐานนิยมของข้อมูลที่แจกแจงความถี่Box Plot  ใช้แสดงสาระที่สำคัญของข้อมูลคือ ค่ากลาง ค่าการกระจาย สัดส่วนข้อมูลที่มากหรือน้อยกว่าค่ากลาง ( Symmetry ) รวมทั้งข้อมูลที่อยู่ห่างจากกลุ่มมากๆ (Outlier)รูปที่ 2.4.2 โครงสร้างของ Box plotBox plot จะแสดงข้อมูลทั้งหมดออกมา 3 Quartiles โดยมีการจัดเรียงอันดับของข้อมูลแล้ว ข้อมูลที่ตกอยู่ภายใต้ Q1 (Quartile 1) คือข้อมูล 25% แรกจากค่าต่ำขึ้นมา จะแสดงในรูปเส้นตรง หนึ่งเส้น (Whisker)  ข้อมูลที่ตกอยู่ภายใต้ Q2 คือข้อมูลตัวที่มากกว่า 25% จนถึงตัวที่ 75% โดยแสดงออกมาในรูป สี่เหลี่ยมผืนผ้า ภายใน Q3 นี้ จะมีค่าที่ 50% ของข้อมูลอยู่ เขียนแทนด้วยเส้นตรงอยู่ภายในรูปสี่เหลี่ยมผืนผ้า ค่านี้คือค่าค่ากลางของข้อมูลทั้งหมด (Median)  และตรงค่า เฉลี่ย (Mean) จะแทนด้วย เครื่องหมายบวก โดยที่ค่าอาจจะเท่าหรือต่างกับค่า Median ก็ได้  ส่วนค่าที่ตกอยู่ภายใต้ Q3 คือตัวที่มากกว่า 75% ขึ้นไป จะเขียนแทนด้วยเส้นตรง เช่นเดียวกับ Q1 วิธีหาจุดเริ่มต้นของ Q1  และจุดสุดท้ายของ Q3 จะหามาจากสมการตามที่ปรากฏ อยู่ในรูป ดังนั้น ค่าที่ต่ำกว่า ค่าเริ่มต้นของ Q1 และค่าสุดท้ายของ Q3 จะเรียกว่า Outlier เขียนสัญญลักญ์แทนด้วย * ถ้าสังเกตดูเราจะพบว่า เส้นค่ากลางจะแบ่งจำนวนขอ้มูลใน Q2 ออกเป็นสองส่วนเท่าๆกัน ดังนั้นถ้า ค่ากลางนี้ไม่ได้อยู่ตรงกลางรูปสี่เหลี่ยมผืนผ้า นั่นหมายถึงรูปกราฟจะเบ้ ไป หรือความหนาแน่นของข้อมูลจะไม่เท่ากัน   แต่โดยทั่วไปโปรแกรมทางสถิติจะมีคำสั่งให้ทำ Box plot ให้ใช้





xx

ไม่มีความคิดเห็น:

แสดงความคิดเห็น