ข้อมูลที่ทำการเก็บรวบรวม โดยทั่วไปจะมีจำนวนมาก เมื่อได้ข้อมูลมาแล้ว ก็จะมีการดำเนินกับข้อมูลด้วยวิธีการต่างๆ เช่น การแยกประเภท การจัดชั้น การสังเขป การหาข้อสรุปเกี่ยวกับลักษณะต่างๆ ของข้อมูล การพิจารณาหาว่าข้อมูลที่เก็บรวบรวมมาได้มีความสัมพันธ์กับข้อมูลอื่นหรือไม่อย่างไร ตลอดจนอาจทำการพยากรณ์เหตุการณ์ในอนาคตจากข้อมูลที่เก็บรวบรวมได้ กระบวนการต่างๆ เหล่านี้เรียกว่า การวิเคราะห์ข้อมูล ซึ่งจะดำเนินการในรายละเอียดอย่างไรและเพียงไรนั้นขึ้นอยู่กับลักษณะของข้อมูล และเรื่องที่ต้องการศึกษา ในบางกรณี การวิเคราะห์ข้อมูลก็ทำโดยใช้กราฟ ดังนั้นเมื่อพิจารณาให้ดีจะเห็นว่าบางขั้นตอนของการวิเคราะห์ข้อมูล เช่นการจัดชั้นหรือแยกประเภทของข้อมูล จะต้องเตรียมวางแผนพร้อมกันไปกับการเก็บรวบรวมและการนำเสนอข้อมูล
เมื่อข้อมูลได้รับการวิเคราะห์แล้ว ขั้นสุดท้ายของการดำเนินการทางสถิติก็คือ การตีความหมายข้อมูลเหล่านั้น การตีความหมายก็คือ การพิจารณาหาว่าอะไรคือข้อสรุปที่ได้จากการวิเคราะห์ ตัวเลขที่ได้จากการวิเคราะห์ช่วยสนับสนุนหรือปฏิเสธสมมุติฐานที่ตั้งไว้เกี่ยวกับเรื่องนั้นๆ และตัวเลขที่ได้จากการวิเคราะห์บอกอะไรบางอย่างใหม่ๆ แก่เราบ้าง
การตีความหมายข้อมูลเป็นเรื่องที่ทำได้ไม่ง่ายนัก เนื่องด้วยความรู้และเอกสารเกี่ยวกับเรื่องที่เกี่ยวข้องมักมีจำกัด ดังนั้นการตีความหมายข้อมูล จึงไม่ควรสรุปลงไปอย่างแน่นอนตายตัวว่าต้องเป็นอย่างนั้นอย่างนี้ นอกจากนั้นเหตุผลอีกประการหนึ่งที่สนับสนุนการกระทำดังกล่าวนี้ ก็คือตัวข้อมูลเอง ได้เคยกล่าวไว้แล้วว่า ข้อมูลประกอบด้วยข้อเท็จและข้อจริง มิใช่ข้อจริงล้วนๆ และตัวเลขที่ได้จากการวิเคราะห์ก็เป็นเพียงค่าประมาณ ดังนั้นการตีความหมายข้อมูลโดยการสรุปอย่างแน่นอนตายตัว จึงมีโอกาสผิดพลาดได้ง่ายมาก
อย่างไรก็ตาม การตีความหมายที่ดี ขึ้นอยู่กับหลักเกณฑ์ 4 ประการ ดังต่อไปนี้
1. มีความตั้งใจแน่วแน่ที่จะค้นหาความจริงทุกอย่างที่ซ่อนเร้นอยู่ในข้อมูล
2. มีความรู้ความเข้าใจอย่างกว้างขวางในเหตุการณ์หรือเรื่องที่กำลังศึกษา
3. มีความคิดที่เป็นระเบียบและมีเหตุผลในการทำงาน
4. มีความสามารถในการใช้ถ้อยคำที่ชัดเจน ทำให้อ่านเข้าใจได้ง่าย
กระบวนการต่างๆ ของการวิเคราะห์ข้อมูล แยกกล่าวเป็นข้อๆ ได้ดังต่อไปนี้ ข้อมูลที่เก็บรวบรวมมาได้ในขั้นแรกจะอยู่ในสภาพที่ไม่เป็นระเบียบเรียบร้อย ยังไม่สามารถทำการหาข้อสรุปของลักษณะต่างๆ ของข้อมูลได้ ข้อมูลที่อยู่ในรูปเช่นนี้มีชื่อเรียกว่า "ข้อมูลดิบ" (Raw data) ดังนั้นเพื่อให้ข้อมูลอยู่ในสภาพพร้อมที่จะสามารถหาข้อสรุปหรือทำการวิเคราะห์โดยวิธีอื่นๆ ได้ จึงอาจดำเนินการสังเขปข้อมูลดิบ หรือจัดข้อมูลดิบทั้งสิ้นให้อยู่ในรูปแบบใหม่ซึ่งเป็นระเบียบเรียบร้อย และมีขนาดกะทัดรัดสะดวกต่อการดำเนินการวิเคราะห์ในขั้นต่อไป การสังเขปข้อมูลตามที่กล่าวมานี้เรียกว่า "การแจกแจงความถี่" (Frequency distribution)
ในกรณีที่ข้อมูลมีจำนวนไม่มากนัก การแจกแจงความถี่อาจแสดงเป็นรายข้อมูลที่เก็บรวบรวมมาได้ พร้อมทั้งความถี่หรือจำนวนที่ซ้ำๆ กันของข้อมูลตัวนั้นๆ
ตัวอย่าง นักเรียน 40 คน สอบไล่วิชาเลขคณิตได้คะแนน ดังต่อไปนี้
15 23 25 27 19 20 19 17
18 24 23 26 29 25 21 23
25 25 25 25 24 17 20 25
28 26 25 20 22 22 26 26
20 22 22 21 19 27 24 24
ข้อมูลข้างต้นนี้ เรียกว่า ข้อมูลดิบ เมื่อแจกแจงความถี่เป็นรายข้อมูลจะได้ดังนี้
คะแนน ความถี่ 15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
1
–
2
1
3
4
2
4
3
5
7
4
2
1
1
การแจกแจงความถี่ที่ได้แสดงไว้ข้างบนนี้ ถ้าข้อมูลมีจำนวนมาก ตารางดังกล่าวจะยากมาก ทำให้ต้องเสียเนื้อที่กระดาษ และไม่สะดวกที่จะทำการวิเคราะห์ในขั้นต่อไป นอกจากนี้ถ้าจะพิจารณาในด้านการกระจายของข้อมูลว่า ข้อมูลส่วนใหญ่มีค่าระหว่างเท่าไรถึงเท่าไร หรือรูปลักษณะการกระจายข้อมูลเป็นอย่างไร ก็จะไม่สามารถแลเห็นรูปลักษณะของการกระจายได้ชัดเจน ดังนั้น จึงอาจจะจัดทำการแจกแจงความถี่ของข้อมูลให้อยู่ในรูปใหม่ ซึ่งมีลักษณะอัดแน่นกว่าตารางข้างต้น กล่าวคือ จัดข้อมูลให้รวมอยู่เป็นกลุ่มๆ แล้วดูว่าข้อมูลค่าต่างๆ อยู่ในกลุ่มหรือชั้นใดบ้าง ให้นับจำนวนข้อมูลเหล่านั้นว่าอยู่ในชั้นใด เป็นจำนวนเทาใด จำนวนข้อมูลในแต่ละชั้นเรียกว่า ความถี่
อย่างไรก็ตาม ถ้าจัดกลุ่มข้อมูลแต่ละกลุ่มให้มีขนาดใหญ่มาก จำนวนกลุ่มหรือจำนวนชั้นก็จะมีน้อย และจำนวนข้อมูลในแต่ละกลุ่มก็จะอัดกันแน่นมากเกินไป ทำให้ไม่สามารถแลเห็นลักษณะการกระจายของข้อมูลได้ดี แต่ถ้าหากจัดแต่ละกลุ่มให้มีขนาดเล็กมาก จำนวนกลุ่มหรือจำนวนชั้นก็จะมีมาก ซึ่งจะทำให้การกระจายของข้อมูลมีลักษณะแผ่กว้างมากเกินไป ไม่ช่วยให้แลเห็นลักษณะการกระจายที่ดี ดังนั้นการแจกแจงความถี่แบบจัดข้อมูลให้เป็นกลุ่มๆ นี้ จึงต้องให้แต่ละกลุ่มมีขนาดโตพอดี ที่จะทำให้แลเห็นลักษณะการกระจายของข้อมูลได้อย่างเด่นชัด กล่าวคือข้อมูลในกลุ่มจะต้องไม่อัดแน่นมากเกินไป และก็ต้องไม่แผ่กระจายมากจนเกินไปด้วย
ตารางข้างล่างนี้ เป็นตารางการแจกแจงความถี่ที่ได้จัดข้อมูลเป็นกลุ่มๆโดยได้ใช้ข้อมูลที่ให้ไว้ข้างต้น ตารางดังกล่าวนี้เป็นแบบอย่างของตารางทั่วไป ที่ใช้ในการวิเคราะห์ข้อมูล
คะแนน
ความถี่
15-17
18-20
21-23
24-26
27-29
3
8
9
16
4
รวม
40
ข้อมูลแต่ละชุดที่เก็บรวบรวมมาได้ อาจมีรูปลักษณะของการแจกแจงความถี่ไม่เหมือนกัน ลักษณะการแจกแจงความถี่ที่พบมากที่สุด ได้แก่ข้อมูลที่มีค่ากลางๆ มีจำนวนมาก ส่วนข้อมูลที่มีค่าสูง และที่มีค่าต่ำมีจำนวนน้อย ถ้านำข้อมูลประเภทนี้มาเขียนกราฟจะได้รูปโค้ง ดังแสดงไว้ในรูปที่ 1 รูปที่ 2 และรูปที่ 3
รูปที่ 1แสดงให้เห็นว่าข้อมูลที่มีค่ามาก และข้อมูลที่มีค่าน้อย เมื่อนับจากข้อมูลที่มีค่ากลางจะมีจำนวนเท่าๆ กัน ดูจากรูปจะเห็นว่าปลายทั้งสองข้างของโค้งมีลักษณะสมมาตร (Symmetrical) รูปการแจกแจงความถี่ของข้อมูลที่มีลักษณะเช่นนี้ เรียกว่า โค้งปกติ (Normal curve) หรือโค้งรูประฆังคว่ำ
สำหรับรูปที่ 2 และรูปที่ 3 นั้น เป็นการแจกแจงความถี่ของข้อมูลที่มีลักษณะที่เรียกว่ามีความเบ้ (Skewness) นั่นคือข้อมูลค่าน้อยมีจำนวนมากกว่าข้อมูลที่มีค่ามาก หรือที่เรียกว่าเบ้ไปทางบวก (Positively skewed) ซึ่งได้แก่รูปที่ 2และข้อมูลค่ามาก มีจำนวนมากกว่าข้อมูลที่มีค่าน้อย หรือที่เรียกว่าเบ้ไปทางลบ (Negatively skewed) ซึ่งได้แก่รูปที่ 3 การแจกแจงความถี่ของข้อมูลลักษณะอื่นที่จะยกมาให้ดู นอกจากนี้ก็มีรูปสี่เหลี่ยมผืนผ้า(รูปที่ 4) รูปตัว U (รูปที่ 5) รูปตัว J (รูปที่ 6) และรูปตัว J กลับ (รูปที่ 7)