코딩팡 — 빅데이터분석기사 실기 연습환경

제공된 데이터 disease.csv는 환자 300명의 검진 정보와 질병 여부 자료이다. group 컬럼으로 학습용(train)과 평가용(test)이 나뉘어 있다. group이 'train'인 데이터로만 로지스틱 회귀를 적합한 뒤, group이 'test'인 데이터로 예측하여 소문항별 답을 구해 답안 제출 화면에 입력하시오. (단, 모형에는 절편항을 포함한다.)

종속변수는 disease(0=정상, 1=질병)이고, 독립변수는 age·bp·glucose·bmi이다.

컬럼명	설명
age	나이
bp	수축기 혈압
glucose	공복 혈당
bmi	체질량지수
disease	질병 여부 (0: 정상, 1: 질병)
group	데이터 구분 (train: 학습용 / test: 평가용)

분류 규칙: test 데이터의 예측 확률이 0.7 이상이면 1(질병), 0.7 미만이면 0(정상) 으로 분류한다.

소문항

train으로 적합한 모형에서 glucose가 5 증가할 때의 오즈비(odds ratio)(= exp(5 × 회귀계수), 혈당이 5 증가할 때 질병 오즈가 몇 배가 되는지)를 구하여라. [제출] 반올림하여 소수 셋째 자리
test 데이터를 위 규칙(임계값 0.7)으로 분류했을 때 1(질병)로 예측된 인원 수를 구하여라. [제출] 정수
test 데이터에 대한 민감도(Sensitivity, 재현율) 를 구하여라. [제출] 반올림하여 소수 셋째 자리

💡 시험 팁 — 민감도(Sensitivity)란? 실제 질병자(disease=1) 중에서 모형이 질병으로 맞춘 비율이다. 혼동행렬에서 민감도 = TP / (TP + FN) (TP=실제1·예측1, FN=실제1·예측0). 즉 "진짜 환자를 얼마나 놓치지 않고 잡아냈는가"를 뜻한다.

[11번] 제3유형 (15점)