
ข้อมูลที่เก็บรวบรวมมาได้ในขั้นแรกจะอยู่ในสภาพที่ไม่เป็นระเบียบเรียบร้อย ยังไม่สามารถทำการหาข้อสรุปของลักษณะต่างๆ ของข้อมูลได้ ข้อมูลที่อยู่ในรูปเช่นนี้มีชื่อเรียกว่า "ข้อมูลดิบ" (Raw data) ดังนั้นเพื่อให้ข้อมูลอยู่ในสภาพพร้อมที่จะสามารถหาข้อสรุปหรือทำการวิเคราะห์โดยวิธีอื่นๆ ได้ จึงอาจดำเนินการสังเขปข้อมูลดิบ หรือจัดข้อมูลดิบทั้งสิ้นให้อยู่ในรูปแบบใหม่ซึ่งเป็นระเบียบเรียบร้อย และมีขนาดกะทัดรัดสะดวกต่อการดำเนินการวิเคราะห์ในขั้นต่อไป การสังเขปข้อมูลตามที่กล่าวมานี้เรียกว่า "การแจกแจงความถี่" (Frequency distribution)
ในกรณีที่ข้อมูลมีจำนวนไม่มากนัก การแจกแจงความถี่อาจแสดงเป็นรายข้อมูลที่เก็บรวบรวมมาได้ พร้อมทั้งความถี่หรือจำนวนที่ซ้ำๆ กันของข้อมูลตัวนั้นๆ
ตัวอย่าง นักเรียน 40 คน สอบไล่วิชาเลขคณิตได้คะแนน ดังต่อไปนี้
15 23 25 27 19 20 19 17
18 24 23 26 29 25 21 23
25 25 25 25 24 17 20 25
28 26 25 20 22 22 26 26
20 22 22 21 19 27 24 24
ข้อมูลข้างต้นนี้ เรียกว่า ข้อมูลดิบ เมื่อแจกแจงความถี่เป็นรายข้อมูลจะได้ดังนี้
คะแนน ความถี่ 15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
1
–
2
1
3
4
2
4
3
5
7
4
2
1
1
การแจกแจงความถี่ที่ได้แสดงไว้ข้างบนนี้ ถ้าข้อมูลมีจำนวนมาก ตารางดังกล่าวจะยากมาก ทำให้ต้องเสียเนื้อที่กระดาษ และไม่สะดวกที่จะทำการวิเคราะห์ในขั้นต่อไป นอกจากนี้ถ้าจะพิจารณาในด้านการกระจายของข้อมูลว่า ข้อมูลส่วนใหญ่มีค่าระหว่างเท่าไรถึงเท่าไร หรือรูปลักษณะการกระจายข้อมูลเป็นอย่างไร ก็จะไม่สามารถแลเห็นรูปลักษณะของการกระจายได้ชัดเจน ดังนั้น จึงอาจจะจัดทำการแจกแจงความถี่ของข้อมูลให้อยู่ในรูปใหม่ ซึ่งมีลักษณะอัดแน่นกว่าตารางข้างต้น กล่าวคือ จัดข้อมูลให้รวมอยู่เป็นกลุ่มๆ แล้วดูว่าข้อมูลค่าต่างๆ อยู่ในกลุ่มหรือชั้นใดบ้าง ให้นับจำนวนข้อมูลเหล่านั้นว่าอยู่ในชั้นใด เป็นจำนวนเทาใด จำนวนข้อมูลในแต่ละชั้นเรียกว่า ความถี่
อย่างไรก็ตาม ถ้าจัดกลุ่มข้อมูลแต่ละกลุ่มให้มีขนาดใหญ่มาก จำนวนกลุ่มหรือจำนวนชั้นก็จะมีน้อย และจำนวนข้อมูลในแต่ละกลุ่มก็จะอัดกันแน่นมากเกินไป ทำให้ไม่สามารถแลเห็นลักษณะการกระจายของข้อมูลได้ดี แต่ถ้าหากจัดแต่ละกลุ่มให้มีขนาดเล็กมาก จำนวนกลุ่มหรือจำนวนชั้นก็จะมีมาก ซึ่งจะทำให้การกระจายของข้อมูลมีลักษณะแผ่กว้างมากเกินไป ไม่ช่วยให้แลเห็นลักษณะการกระจายที่ดี ดังนั้นการแจกแจงความถี่แบบจัดข้อมูลให้เป็นกลุ่มๆ นี้ จึงต้องให้แต่ละกลุ่มมีขนาดโตพอดี ที่จะทำให้แลเห็นลักษณะการกระจายของข้อมูลได้อย่างเด่นชัด กล่าวคือข้อมูลในกลุ่มจะต้องไม่อัดแน่นมากเกินไป และก็ต้องไม่แผ่กระจายมากจนเกินไปด้วย
ตารางข้างล่างนี้ เป็นตารางการแจกแจงความถี่ที่ได้จัดข้อมูลเป็นกลุ่มๆโดยได้ใช้ข้อมูลที่ให้ไว้ข้างต้น ตารางดังกล่าวนี้เป็นแบบอย่างของตารางทั่วไป ที่ใช้ในการวิเคราะห์ข้อมูล
คะแนน
ความถี่
15-17
18-20
21-23
24-26
27-29
3
8
9
16
4
รวม
40
ข้อมูลแต่ละชุดที่เก็บรวบรวมมาได้ อาจมีรูปลักษณะของการแจกแจงความถี่ไม่เหมือนกัน ลักษณะการแจกแจงความถี่ที่พบมากที่สุด ได้แก่ข้อมูลที่มีค่ากลางๆ มีจำนวนมาก ส่วนข้อมูลที่มีค่าสูง และที่มีค่าต่ำมีจำนวนน้อย ถ้านำข้อมูลประเภทนี้มาเขียนกราฟจะได้รูปโค้ง ดังแสดงไว้ในรูปที่ 1 รูปที่ 2 และรูปที่ 3
รูปที่ 1แสดงให้เห็นว่าข้อมูลที่มีค่ามาก และข้อมูลที่มีค่าน้อย เมื่อนับจากข้อมูลที่มีค่ากลางจะมีจำนวนเท่าๆ กัน ดูจากรูปจะเห็นว่าปลายทั้งสองข้างของโค้งมีลักษณะสมมาตร (Symmetrical) รูปการแจกแจงความถี่ของข้อมูลที่มีลักษณะเช่นนี้ เรียกว่า โค้งปกติ (Normal curve) หรือโค้งรูประฆังคว่ำ
สำหรับรูปที่ 2 และรูปที่ 3 นั้น เป็นการแจกแจงความถี่ของข้อมูลที่มีลักษณะที่เรียกว่ามีความเบ้ (Skewness) นั่นคือข้อมูลค่าน้อยมีจำนวนมากกว่าข้อมูลที่มีค่ามาก หรือที่เรียกว่าเบ้ไปทางบวก (Positively skewed) ซึ่งได้แก่รูปที่ 2และข้อมูลค่ามาก มีจำนวนมากกว่าข้อมูลที่มีค่าน้อย หรือที่เรียกว่าเบ้ไปทางลบ (Negatively skewed) ซึ่งได้แก่รูปที่ 3 การแจกแจงความถี่ของข้อมูลลักษณะอื่นที่จะยกมาให้ดู นอกจากนี้ก็มีรูปสี่เหลี่ยมผืนผ้า(รูปที่ 4) รูปตัว U (รูปที่ 5) รูปตัว J (รูปที่ 6) และรูปตัว J กลับ (รูปที่ 7)