수학/실생활 수학

생활 속 수학이야기8-통계와 대푯값

공룡 선생님 2021. 6. 3. 12:17
반응형

통계란 무엇인가

오늘은 현대 사회에서 많이 사용되고 있는 통계에 대하여 알아보는 시간을 갖도록 할것이다. 중고등학교에서도 우리는 히스토그램, 평균, 중간값, 최빈값 등 통계에 대한 내용을 일부 배우게 된다. 통계학이라는 학문이 있을 만큼 현재 많이 사용되고 있다.
우선 통계가 무엇을 의미하는지 그 뜻을 알아보자. 한마디로 통계라는 것은 어떤 집단에 대하여 조사한 결과들을 숫자를 통하여 정리한 내용이라고 할 수 있다.

통계의 시작

처음 통계는 국가적인 데이터를 다루는 것에만 한정되어 사용되었다. 왜냐하면 그 출발이 국가를 다스리는 것과 관련이 있었기 때문이다. 세금을 효율적으로 걷고 사용하려면 어떻게 해야할까, 국민의 삶의 질을 높이기 위해서는 어떻게 해야 할까 등을 고민하면서 통계가 시작되었다. 이는 통계의 영어단어 "statistics"에서도 드러나는데 국가를 뜻하는 "state"와 같은 어원이다.
예를 들어보자. 국가는 여러가지 조사를 벌이게 된다. 이 조사가 끝나면 데이터라는 것이 쌓이게 된다. 나열된 데이터로는 어떤 내용을 포함하는지 무엇을 말하는지를 알 수가 없다. 이 데이터가 내포하고 있는 의미를 보기 쉽게 나타내 줘야 하는데 이것에 통계가 사용되는 것이다.

통계적 지표-대푯값

중고등학교 시절 배우는 대푯값에 대하여 알아보고자 한다. 자료들이 많다면 그 특징을 제대로 알기가 어렵다. 그래서 이 자료들을 대표하는 어떤 값이 필요하게 되는데 이를 대푯값이라고 한다. 이 대푯값에는 평균, 중앙값, 최빈값 등이 있다. 이렇게 대푯값은 하나가 아니라 여러 가지이다. 이는 대푯값을 정하는 방법이 하나가 아니라 다양하기 때문이다.
예를 들어 대표를 가장 많은 사람이 선택한 것을 뽑을 수도 있고, 가장 나이가 많은 사람을 뽑을 수도 있고, 자료의 나이들 중 가운데 있는 것을 뽑을 수도 있고 뽑는 방식은 다양한 것이다.

평균

대푯값에서 가장 많이 익숙한 것이 바로 이 평균이다.  지금은 예전만큼은 아닌 것 같은데 예전에는 시험을 보고 나면 항상 평균을 내고는 했었다. 점수를 다 더하고 과목의 수로 나누는 것. 그렇게 평균을 내고는 하였다. 맞다. 평균을 구하는 방법은 자료의 값을 모두 합한 뒤 자료의 수로 나누면 된다. 하지만 이 평균은 단점을 가지고 있다. 바로 극단적인 값에도 쉽게 반응을 한다는 점이다. 예를 들어보자. 만약 시험을 보았는데 100점, 100점, 100점, 0점을 맞았다. 그렇다면 평균은 100+100+100+0을 한 300을 4로 나눈 값인 75점이 되는 것이다. 100점이 3개나 있지만 0점이라는 극단적인 점수로 인하여 평균이 75로 확 낮아지는 것이다. 다른 것들은 다 잘하였지만 극단적인 자료값으로 인하여 결과가 왜곡되는 현상이 발생하는 것이다.

중앙값

이렇게 극단적인 자료의 값에 덜 민감한 지표가 있다. 바로 중앙값과 최빈값이다.
우선 중앙값이라는 것은 자료를 적은 수부터 큰 수로 나열하였을 때 그 한 가운데 있는 값을 말한다. 자료의 수가 홀수인 경우에는 한가운데의 값이 하나로 존재한다. 그러나 자료의 수가 짝수인 경우는 그렇지가 못하다. 그럴 때는 가운데 두 자료의 값의 평균을 중앙값으로 정하게 된다. 예를 들어보자. 1,3,5,7의 중앙값은 3과 5의 합인 8을 2로 나눈 4가 되는 것이다.
보다시피 중앙값은 계산이 편하다. 그렇다고 아무 때나 쓸 수는 없는 노릇. 중앙값도 단점이 존재하기 때문이다. 예를 들어보자.
A라는 사람은 1,2,4,4,4 B라는 사람은 4,4,4,7,8이라는 자료를 지니고 있다. A와 B는 동일하게 중앙값이 4이다. 그런데 A입장에서는 중앙값 4가 큰 값이지만 B는 중앙값 4가 적은 값이다. 즉 중앙값은 가운데에 있는 값만을 취하기 때문에 여러 값이 갖는 특징을 무시할 수 있다는 단점이 있는 것이다.

최빈값

최빈값은 이름에서 알 수 있듯이 가장 빈번하게 나오는 값, 즉 제일 많이 나온 자료의 값을 말한다. 예를 들어 자료가 1,1,1,2,3이라면 최빈값은 1이 되는 것이다.
최빈값은 위의 평균과 중앙값과는 성질이 약간 다르다. 평균과 중앙값은 어찌 되었든 그 자료들의 균형을 이루는 지점을 찾아서 대푯값으로 선정하는 것이라면 최빈값은 균형과 상관없이 가장 많은 자료를 대표로 세우는 것이다. 일종의 다수결 원칙처럼 말이다. 그냥 제일 많은 걸 선택한다.
이 최빈값에도 단점은 존재한다. 예를 들어 1,1,1,10,18,40 이라는 자료에서 최빈값은 1이다. 이를 대푯값이라고 하기에는 다른 자료들과의 차이가 상당히 크다.

우리는 지금까지 대푯값의 평균값, 중앙값, 최빈값에 대하여 조금 자세히 알아보았다. 보다시피 완벽한 대푯값이 없었다. 그 이야기는 우리가 통계를 바라볼 때 '아~ 완벽하구나. 이렇구나.' 무조건 신뢰해서는 안된다는 것이다. 어떤 기준에서 어떤 방식으로 나온 결과인지 그것을 살펴보고 생각해 보아야 할 것이다.
지금까지 통계에 나오는 대푯값에 대하여 알아보았다. 다음 시간에도 유용한 수학 이야기로 찾아오고자 한다.

반응형