Study

[방송통신대] 2020년 데이터정보처리 입문 과제

cattaku 2020. 4. 14. 17:25

1. 교재 17쪽의 예제 1.1에 제시된 과정을 따라 엑셀을 활용하여 다음 그래프를 작성하시오.
필요한 통계정보는 KOSIS에서 찾아서 활용하시오
. -교재1장 내용(12)

(1) 출생성비, 합계출산율이 무엇을 의미하는지 조사하여 정리하시오.
- 출생성비는 여성 100명당 남성의 수로 계산한다. 출생성비가 높다는 말은 남성의 수가 여성에 비해 더 많다는 것을 의미한다
- 
합계출산율은 가임 여성(15~49) 1명이 평생동안 낳을 것으로 예상되는 평균 출생아 수를 나타낸 지표로 연령별 출산율의 총 합이다. 합계출산율이 높을수록 한 여성이 출생하는 자녀 수가 많다는 의미한다.

 (2) 1990년부터 2018년까지의 연도별 전국 총출생성비를 시계열도표로 나타내고 전체적인 경향을 설명하시오.

전국 총 충생성비 (1990~2018)

- 1990년대만 해도 출생성비가 116.5로 남성에 출생인구가 더 높았으나, 매년 출생성비가 줄어들어 2018년도 출생성비는 105.4 1990년도에 비해 -11.1 줄어들어 남성 출생인구 수가 감소한 것을 확인할 수 있다. 출생성비가 줄어든 요인으로는 과거에는 태아 성별을 미리 알 수 있었고, 그로 인해 여아인 경우 낙태를 하는 경우도 있었으나, 현재에는 낙태금지법과 출산율 감소, 산모의 평균 출산연령이 높아진 것 등이 가장 큰 요인으로 보인다.

(3) 1990년부터 2018년까지의 연도별 서울과 부산의 총출생성비를 하나의 시계열도표에 나타내고 비교하여 설명하시오.

서울/부산 총출생성비 비교

- 1990년대까지는 서울지역에 비해 부산지역의 출생성비가 평균 5.1포인트 가량 높았으나, 2000년대로 들어오면서 서울과 부산의 출생성비의 차이가 비슷해지는 것을 확인 할 수 있다. 이는 1990년대에는 서울지역에 비해 부산지역에서 남아를 더 선호했던 것으로 보이며, 이는 지역환경 및 지역문화 등의 영향이 컸을 것으로 예상된다. 반면에 2000년도에 들어오면서 출생성비가 낮아지는 요인 중에 하나로는 지역의 인구 감소와 결혼 및 출산율 감소 등이 큰 요인일 것으로 보인다.


(4) 1993년부터 2018년까지의 연도별 전국 합계출산율을 시계열도표로 나타내고 전체적인 경향을 설명하시오.

 

2013~2018 합계출산율

- 위 그래프는 2013 ~ 2018년까지의 합계출산율을 나타낸 그래프이다.
2013
년도에는 가임여성 1명당 출산율은 1.187명이였고, 2014, 2015년에는 평균 0.035 명 증가 하였으나, 2016년도부터 계속해서 감소하여 2018년도에는 사상 최저로 가임여성 1명당 출산하는 아기가 1명도 되지 않는 0.977로 나타났다. 이는 OECD회원국 평균인 1.65명에도 미치지 못하며,  초저출산 기준인 1.3.명에도 미치지 못하는 수준이다.

2. 교재 72쪽에 제시된 데이터 score.txt(이기재 교수 홈페이지 자료실에 업로드되어 있음)에 대해서 R을 이용하여 다음 분석을 하시오. - 교재3장 내용(12)

(1) 평균, 중앙값, 표본분산, 표본표준편차, 변동계수를 구하여 분포의 특징을 설명하시오.

score.txt 파일에 데이터를 분석한 결과 데이터 합은 3084, 평균값은 47.44615, 중앙값은 48, 표분분산 값은 404.3135, 표준 편차는 20.10755이고 변동계수는 0.4237972 였습니다.


(2) 줄기-잎 그림, 히스토그램, 상자그림을 그리고 분포의 특징을 설명하시오.

줄기/잎 그림

- 줄기-잎그림은 데이터가 소량인 경우 한 눈에 보기 편리하게 만들어진 그래프로 위 그림을 보면 score 데이터에 있는 65개의 숫자들 중에 50단위로 시작하는 수가 가장 많고 그 다음으로는 40단위 숫자 많으며, 가장 작은 단위의 숫자는 8090 단위에 숫자인 것을 알 수 있다.

히스토그램

 

상자그림

- 상자그림 그래프는 다섯숫자 요약(최소값, 최대값, 중앙값, 1분사위수, 3분사위수)을 위해서 사용되며, 특이값과 함께 그래프로 표현한 것으로서 분포의 상태, 특이값의 유무, 여러 집단의 수치 자료를 비교하고자 할 때 이용되는 그래프이다.
가장 위에 O가 특이값이고, 그 아래서 선이 최대값, 가운데 직사각형 윗면이 제3사분위수, 직사각형 아랫면이 제1사분위수, 직사각형 안에 굵은 선이 중앙값이다.

3. 교재4장 연습문제 1(6)