# MASLDPharmacoGeno (매슬드파마코지노)

**도메인**: MASLD (genotype × drug × outcome × diet × ethnic)
**카테고리**: 연구 아이디어 생성 — 가설 생성 + 온톨로지 + 문헌 갭 분석 (Friday rotation)
**날짜**: 2026-05-01

## 목적

MASLD 약물반응 연구에서 5차원 온톨로지(SNP × 약물 × outcome × 식이 × ethnic)를 구축하고,
PubMed/GWAS Catalog/gnomAD/ClinicalTrials.gov 기반 cross-reference로
**미탐색(under-explored) cell**을 ranking하여 grant-ready 가설 카드를 생성한다.
**한국 lean MASLD focus mode**로 KASL multicenter cohort 적용 가능 hypothesis를 별도 1-pager로 출력한다.

## 의학적 안전성 디스클레이머

> 본 도구는 **연구용·참고용**입니다. 임상의사결정에 직접 사용하지 마십시오.
> 생성된 가설은 IRB 승인·전문가 검토를 거친 후에만 활용하십시오.
> 유전형 분석 결과는 임상유전학 전문가 해석이 필요합니다.
> 본 MVP에 포함된 모든 evidence 수치(PubMed counts, mechanism plausibility, cohort N 등)는
> **합성/mock 데이터**이며 실제 문헌·DB를 반영하지 않습니다.

## 대상 사용자

- MASLD/MASH 약물반응 연구자
- MASLD 유전체 코호트 PI (KASL · KDA)
- Pharmacogenomics 연구자
- 닥터앤서 3.0 간 sub-task 후보 PI
- 한국 lean MASLD · 동아시아 코호트 IIS 설계 연구자

## 핵심 기능 5

1. **5-D 온톨로지**
   - SNP 5: PNPLA3 rs738409 / TM6SF2 rs58542926 / HSD17B13 rs72613567 / MBOAT7 rs641738 / GCKR rs1260326
   - 약물 9: resmetirom · efruxifermin · pegozafermin · lanifibranor · semaglutide · tirzepatide · survodutide · pioglitazone · vitamin E
   - Outcome 5: MASH resolution · fibrosis improvement · ≥30% PDFF reduction · ≥20% VCTE reduction · ≥15% MRE-stiffness reduction
   - Diet 5: Korean LF/HC · Mediterranean · low-carb · ketogenic · DASH
   - Ethnic 3: East Asian · Caucasian · African (gnomAD allele freq)
2. **5종 데이터 채굴 (mock)**: PubMed query bank counts, GWAS Catalog supporting phenotypes, gnomAD ethnic frequency, ClinicalTrials.gov stratification flags, mechanism plausibility scores.
3. **미탐색 cell ranking**: 5×9×5×5×3 = 3,375 base cell. Score = 0.30·novelty + 0.20·mechanism + 0.20·gwas + 0.20·ethnic_freq + 0.10·korean_N + (no-stratification bonus).
4. **한국 lean MASLD focus mode**: East Asian + Korean LF/HC + 핵심 SNP(PNPLA3/TM6SF2/HSD17B13)로 필터, KASL cohort N 추정, IIS 검정력 score.
5. **출력**: top-N hypothesis card (Markdown), 한국 lean MASLD 1-pager, AASLD/EASL abstract draft (~250 word).

## 실행법

```bash
# 도움말
python3 main.py --help

# 기본 (top-50 + 1-pager + abstract; stdout)
python3 main.py --top 50

# 한국 lean MASLD focus
python3 main.py --top 25 --korean-lean

# outputs/ 디렉터리에 markdown 파일 작성
python3 main.py --top 50 --write-outputs
```

**의존성**: Python 3.11 표준 라이브러리만 사용 (argparse, json, dataclasses, itertools).
`pip install` 불필요. **외부 네트워크/API 호출 없음**.

## 디렉터리 구조

```
2026-05-01-2-masld-pharmaco-geno/
├── README.md                          # 이 파일
├── main.py                            # CLI 진입점
├── QA.md                              # 검수 로그
├── CHANGELOG.md                       # 작업 기록
├── data/
│   ├── snps.json                      # SNP 메타데이터 + ethnic freq
│   ├── drugs.json                     # 약물 메타데이터
│   ├── outcomes.json                  # outcome 정의
│   ├── diets.json                     # 식이 패턴
│   ├── ethnic.json                    # 인종 그룹
│   └── evidence.json                  # SYNTHETIC 증거 (PubMed/GWAS/trial/plausibility/N)
└── outputs/
    ├── top_hypothesis_cards.md        # 샘플: top-50 가설 카드
    ├── korean_lean_one_pager.md       # 샘플: 한국 lean 1-pager
    └── aasld_abstract_draft.md        # 샘플: AASLD abstract 초안
```

## 검수 체크리스트

- [x] `python3 -c "import ast; ast.parse(open('main.py').read())"` — syntax OK
- [x] `python3 main.py --help` — argparse 정상 동작
- [x] 데이터 JSON 6개 모두 load 성공
- [x] `python3 main.py --top 50 --write-outputs` — return code 0, outputs/ 작성
- [x] `python3 main.py --top 25 --korean-lean` — focus mode 정상
- [x] 모든 출력에 안전성 디스클레이머 포함

## 출처 / 디스클레이머

- 본 MVP의 모든 evidence 데이터(`data/evidence.json`)는 **합성**입니다.
- SNP 정보·gnomAD 빈도는 일반 공개 지식 범위의 **근사값**이며 임상 활용 불가.
- ClinicalTrials.gov / GWAS Catalog 실제 API 호출은 없습니다 (오프라인 제약).
- 실제 운용 시: GWAS Catalog REST, gnomAD GraphQL, ClinicalTrials.gov v2 REST, PubMed E-utilities 연결 필요. 모두 IRB·data use agreement 하에서 수행.
- 본 도구는 임상 의사결정 보조 장치(SaMD)가 아닙니다.
