[증거기반의학]1편: 반려데일리벳 양육이 데일리벳 위험을 40% 낮춘다고? – 데일리벳에서 이어집니다.
지난 글에서 우리는 “개를 기르면 치매 위험이 40% 줄어든다(OR 0.60)”는 데일리벳 포럼 결과를 살펴보았다. 아마 일부 독자는 이렇게 생각했을 것이다.
“그래, 위험이 줄었다는 건 알겠어. 그런데 이게 왜 증거기반의학 이야기지? 그냥 통계 해석 아니야?”
바로 이 지점이 핵심이다. 증거기반의학은 통계적 유의성 여부나 단순한 숫자 해석이 아니다. 데일리벳 포럼 결과가 제시하는 숫자를 임상적 맥락에서 어떻게 해석하고, 어떤 한계와 어떤 적용 가능성을 지니는지를 비판적이고 체계적으로 평가하는 접근법이다. 이번 글에서는 그 접근법의 기초를, 우리가 논의한 데일리벳 포럼를 다시 살펴보며 구체적으로 짚어보고자 한다.
추가로 계산한 위험비, 절대 위험 감소, 치료 필요 수
오즈비만으로는 임상적 의미를 이해하기 어렵기 때문에 연구 결과를 바탕으로 위험비(Risk Ratio, RR), 절대 위험 감소(Absolute Risk Reduction, ARR), 치료 필요 수(Number Needed to Treat, NNT)를 추가로 계산했다. 이 값들은 논문에서 제공되지 않았으나, 효과의 임상적 의미를 보다 명확히 이해하는 데 필요해서 필자가 직접 계산했다.
위험비(Risk Ratio, RR)은 “몇 배 더 위험한가?”라는 질문에 대한 대답을 해준다.
오즈비(0.60)를 Zhang & Yu 공식 [1]으로 변환하면 다음과 같다. 이 수식은 다소 복잡하다. 핵심 숫자만 확인하면 충분하다.

즉, 개를 기르는 사람의 치매 발생률은 개를 기르지 않는 사람의 치매 발생률의 약 61.3% 수준(즉, 0.61배)이다.
절대 위험 감소(Absolute Risk Reduction, ARR)은 “실제로 몇 명이나 효과 보는지”라는 질문에 대답을 해준다.

즉, 개를 기르면 치매 발생 위험이 절대적으로 약 2%, 100명 중 약 2명 절대감소한다는 것이다.
치료 필요 수(NNT)는 “몇 명이 치료받아야 1명 효과가 있는지”라는 질문에 대답을 해준다.

즉, 51명이 개를 기르면 4년 동안 1명의 치매 발생을 예방할 수 있다는 의미다.
왜 절대 위험 감소가 중요한가?
절대 위험 감소(ARR)는 효과의 강도를 보여주는 위험비나 오즈비와 달리, 효과의 실제 크기를 나타낸다. 다시 말해, 얼마나 많은 사람이 실제로 영향을 받는지를 알려주는 지표이다.
예를 들어, 어떤 암 예방약이 위험을 0.1배(위험비 = 0.10)로 낮춘다고 시킨다고 가정해보자. 하지만 암 발생률이 원래 0.01% (즉, 0.0001) 라면, 절대 위험 감소(ARR)는 생각보다 아주 작다. 계산 과정은 다음과 같다:
-치료받지 않은 그룹(비노출군)의 암 발생률(P₀) = 0.0001 (0.01%)
-치료받은 그룹(노출군)의 암 발생률(P₁) = P₀ × 위험비 = 0.0001 × 0.10 = 0.00001 (0.001%)
따라서,

즉, 효과의 강도(위험비)는 매우 크지만 (0.1배 수준으로 위험 감소),
효과의 규모(절대 위험 감소)는 매우 작아서 0.009%, 즉 100,000명 중에 9명에 불과하다. 위험비는 “효과가 강하다는 것”(강도)을 보여주지만, 절대 위험 감소는 “실제로 얼마나 많은 사람들이 영향을 받는가”(규모)를 보여준다.
이번 데일리벳 포럼에서도 위험비에서 치매 위험이 약 0.61배가 되는 것으로 나타났지만, 치매 발생 자체가 낮았기 때문에 절대 위험 감소는 1.97%, 즉 100명 중 약 2명 절대 감소로 비교적 작았다.
데일리벳 포럼의 한계
이번 데일리벳 포럼에서 데일리벳 포럼자들이 스스로 밝힌 한계점은 다음과 같다. 일본에서는 반려동물(특히 개와 고양이) 소유 비율이 서구권보다 낮아서 결과의 일반화에 제한이 있다. 분석에서는 운동 습관과 사회적 고립 경로에 초점을 맞췄지만, 심리적 요인은 고려하지 못했다. 이미 인지 기능이 저하되어 개를 기르지 않은 사람들이 포함되었을 가능성이 있다.
이에 더해, 데일리벳 포럼자가 명시하지 않았지만 추가로 고려해야 할 한계도 있다.
첫째, 데일리벳 포럼 시작 이후 개를 새로 기르거나 그만둔 사람들은 여전히 처음 분류된 그룹에 포함되었기 때문에 노출 오분류(misclassification bias)가 발생했을 가능성이 있다.
둘째, 교란변수 보정(성향 점수를 활용한 가중치 방법)은 데일리벳 포럼 시작 시점의 조건만 고려했기 때문에 시간이 지나면서 변하는 교란 변수(시간가변 교란, time-varying confounding)를 통제할 수 없었다. 즉, 코호트 연구임에도 불구하고 시간의 흐름에 따른 노출 및 교란 변수의 변화를 분석에 반영하지 못했다. 이로 인해, 다른 코호트 연구들이 일반적으로 제공하는 인과성에 대한 증거력에 비해 이 연구의 증거 수준은 낮아질 수 있다.
이러한 한계는 Figure 1의 B에서 제시된 다양한 코호트 데일리벳 포럼의 인과 추론 가능성을 비교한 다이어그램에서도 잘 설명된다. 본 데일리벳 포럼는 그 중에서도 시간 정보를 충분히 활용하지 못한 관찰데일리벳 포럼로, 물결 모양의 Cohort studies 피라미드 층의 아래쪽에 해당한다고 볼 수 있다.
따라서 이번 데일리벳 포럼에서 제시된 효과 크기는 다소 과대평가되었을 가능성이 있으며, 실제 효과는 이보다 작을 수 있다. 또한 인과성에 대한 증거력이 다른 코호트 데일리벳 포럼에 비해 떨어질 수 있다.

앞서 이야기한 이런 한계들을 조금 더 체계적으로 보면, 비무작위 데일리벳 포럼의 편향 위험 평가 도구(ROBINS-I) 기준으로 생각해볼 수 있다 [2]. 이 기준으로 보면, 이번 데일리벳 포럼는 편향 위험이 Serious(심각) 수준이라고 할 수 있다. 성향점수 매칭이라는 인과추론 방법으로 일부 교란은 통제했지만, 시간 지나면서 변하는 교란변수와 노출 오분류 문제는 여전히 남아 있었다. 사실, 이번 글에서 데일리벳 포럼 설계와 편향, 효과 크기를 검토하는 과정은 ROBINS-I 평가법의 사고방식과 유사했다. 이름을 굳이 붙이지 않았을 뿐이다.
여기까지 글 따라온 분들이라면 “그래도 효과 있어 보이는데, 심각하다고?” 하고 아쉬울 수도 있다. 하지만 관찰데일리벳 포럼에서는 이런 한계가 완전히 없기는 어렵고, 이번 데일리벳 포럼처럼 한계를 솔직하게 이해하고 평가하는 과정 자체가 다음 데일리벳 포럼의 출발점이다. 그리고, 이런 데일리벳 포럼 결과도 임상적 판단 및 데일리벳 포럼에 참고할 수 있는 자료가 된다. 예를 들어, 이 논문 결과를 바탕을 치료를 결정하기에 무리가 있다. 하지만, 이번 데일리벳 포럼에서 드러난 한계들은 향후 인과성을 보다 강하게 입증할 데일리벳 포럼 설계에 중요한 참고가 될 수 있다.
이 데일리벳 포럼의 의의
이번에는 이번 데일리벳 포럼에서 추정한 치료 효과를 조금 더 세세하게 구분해 보고자 한다. 다소 복잡할 수 있지만, 전체 흐름을 이해하는 데 필수적인 부분은 아니니 부담 없이 읽어도 좋다. 치료효과는 다음과 같이 3가지로 나뉠 수 있다.
1) 추정한 효과가 실제 개를 기르는 고령자에게서 평가한 치료효과인지 (치료군 평균 효과, Average Treatment effect on the Treated, ATT),
2) 전체 고령자 인구에 대한 평균 효과인지 (전체 인구 평균 효과, Average Treatment Effect, ATE),
3) 현재 개를 기르지 않는 고령자가 앞으로 개를 기를 경우 기대할 수 있는 효과인지 (비치료군 평균효과, Average Treatment effect on the Untreated, ATU).
이번 데일리벳 포럼는 성향점수 가중치 방법을 이용하여 실험데일리벳 포럼처럼 분석했기 때문에 ATE를 추정했다고 볼 수 있다. 이렇게 구분하는 주된 이유는 개를 기르는 사람(노출군 또는 치료군)과 개를 기르지 않는 사람(비노출군 또는 비치료군)의 특성이 다르기 때문이다. 개를 기르지 않는 이들은 건강상의 이유나 사회적 고립 등으로 인해 ATT나 ATE 수준의 효과를 얻지 못할 가능성이 크다. 따라서 일반적으로 ATT ATE≥ ATU의 관계가 성립할 가능성이 높다.
결국, 해당 논문에서 제시된 오즈비(OR) 값 0.60은 ‘개를 기르면 치매 위험이 40% 줄어든다’는 인상을 준다. 그러나 실제 절대 위험 감소는 100명 중 약 2명에 불과하며, 51명이 4년간 개를 길러야 1명의 치매 발생을 예방할 수 있다는 계산이 나온다.
또한, 개를 기르지 않은 데일리벳 포럼 참여자들에게 이 효과를 적용했을 경우, 치료 효과의 크기는 더 작을 수 있다. 즉, 임상적 의미는 오즈비가 주는 인상보다 훨씬 작다.
아울러, 앞서 언급한 편향 가능성과 데일리벳 포럼 설계상의 한계로 인해 보고된 효과 크기는 과대평가되었을 가능성이 있으며, 이 데일리벳 포럼가 일반적으로 코호트 데일리벳 포럼가 제공하는 인과 추론의 증거력을 충분히 확보했다고 보기는 어렵다.
이렇게 데일리벳 포럼 설계 및 한계, 편향 위험을 따져보면, 이번 데일리벳 포럼 결과가 단순히 ‘효과가 있다/없다’가 아니라, 그 효과를 얼마나 믿을 수 있는지와 임상적 의미까지 짚어볼 수 있다. 그리고 바로 이 접근법이, 임상의학과 역학이라는 두 분야가 만나 새로운 진료 판단 방식을 만들어 가는 증거기반의학적 사고의 시작이다.
임상의학과 역학의 연결고리는 다음 편에서 이어진다.
1. Zhang J, Yu KF. What’s the relative risk? A method of correcting the odds ratio in cohort studies of common outcomes. JAMA. 1998 Nov 18;280(19):1690-1. PMID9832001
2. Sterne JA et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ 2016;355:i4919.
[데일리벳 주소기반데일리벳 주소]3편: 데일리벳 주소데일리벳 주소과 역학의 앙상블 – 데일리벳으로 이어집니다.
