# MASLDDatasetRelease-Kor (매슬드데이터셋릴리스코어)

> **참고용·연구용. 표시된 데이터셋 메타데이터·DUA 본문·release note는 합성/요약본이며, 실제 데이터 접근은 각 데이터셋의 공식 절차(DUA·IRB·신청서)를 직접 따라야 합니다. 임상 의사결정에 단독 근거로 사용 금지.**
>
> **Research-use only. Synthetic/summarized metadata. Actual data access requires the official DUA/IRB process of each dataset. Not for sole clinical decision-making.**

---

## 목적

MASLD/MASH 도메인의 공개 cohort·imaging archive·biobank·consortium 데이터셋의 신규 release, refresh, version bump, DUA 변경을 **오프라인 standalone** 환경에서 자동 모니터링·diff·digest 알림하고, 외부 검증 데이터셋 후보 카탈로그를 제공한다.

- 도메인: **MASLD / MASH / fibrosis / metabolic liver**
- 카테고리: **연구 알림 (research alerting)**
- 사용자: 한국 내분비/간장학 연구자, AI 모델 외부 검증 담당, 닥터앤서 3.0 MASLD sub-task 팀

## 핵심 기능

1. **데이터셋 source 등록 + 자동 모니터링**
   - UK Biobank, NIH All of Us, LITMUS, NIMBLE, NASH CRN, GO-FAR, MAESTRO derivative, KoGES, KNHANES, K-CURE, K-MASLD cohort, TCIA NAFLD imaging, NHIS-NSC 총 13개 source 메타데이터 캐시.
   - 코호트 크기·NIT modality·DUA 난이도(1-5)·release 주기 카드 표시.

2. **변경점 diff + 변수/modality 추적**
   - 데이터셋별 release note 2-3 버전 보유. `difflib.unified_diff` 기반 unified diff 화면 표시.
   - 코호트 크기·imaging modality·linkage·field 변경 요약 본문 형태로 비교.

3. **DUA·접근 절차 추적**
   - 주요 데이터셋(UKB, All of Us, LITMUS, NIMBLE, K-CURE) DUA 본문 2-3 버전 diff.
   - 신청 timeline reference 표 (각 단계별 소요 주수) 내장.

4. **외부 검증 데이터셋 후보 카탈로그**
   - 5개 연구 task (NIT 진단, fibrosis 병기, MASH 활성도, HCC surveillance, treatment outcome)별 적합 데이터셋 매칭.
   - 코호트 크기·NIT modality·biopsy 비율·linkage·DUA 난이도 비교 표 + python-docx 기반 plan docx export.

5. **digest + 리포트**
   - 일일/주간 release·DUA digest (국문/영문 전환).
   - docx export + 간이 RSS export.
   - watchlist에 등록된 데이터셋 우선 정렬 + `[WATCH]` 마킹.

## 실행법

```bash
cd "/Users/sangjoonpark/claude daily project/2026 metabolic daily idea/projects/2026-05-21-3-masld-dataset-release-kor"

# (선택) 가상환경
python3 -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt

# 1) CLI summary (외부 네트워크 0)
python3 app.py --summary

# 2) Streamlit UI (오프라인, 로컬 localhost)
streamlit run app.py
```

UI 탭:

- `최신 release/refresh 알림` — 데이터셋 카드, watchlist ★ 표시
- `변경점 diff 뷰어` — 데이터셋 선택 → 이전 vs 새 버전 unified diff
- `DUA 변경 추적` — DUA 본문 diff + 신청 timeline reference 표
- `외부 검증 카탈로그` — task 선택 → 비교 표 + plan docx export
- `watchlist` — 관심 데이터셋·task 추가/제거 (sqlite 영구 저장)
- `digest 미리보기` — 국문/영문 digest + docx/RSS export

## 디렉터리

```
.
├── app.py                  # Streamlit + CLI 엔트리포인트
├── requirements.txt        # streamlit/pandas/python-docx pinned
├── data/
│   ├── datasets.json
│   ├── release_notes.json
│   ├── dua_versions.json
│   └── tasks_catalog.json
├── watchlist.sqlite        # 최초 실행 시 자동 생성
├── README.md
└── QA.md
```

## 검수 체크리스트

- [x] `python3 -c "import ast; ast.parse(open('app.py').read())"` 통과
- [x] 모든 JSON 파일 `json.load` 통과
- [x] `python3 app.py --summary` 정상 출력
- [x] `requirements.txt` pinned version 명시
- [x] 외부 네트워크 호출 0 (모든 데이터는 로컬 `data/` 캐시)
- [x] 전역 패키지 설치 0 (venv + pip 권장)

## 데이터 출처 (offline cache, 모두 합성/요약)

- UK Biobank — ukbiobank.ac.uk
- NIH All of Us — researchallofus.org
- LITMUS — litmus-project.eu
- NIMBLE — fnih.org Biomarkers Consortium
- NASH CRN — repository.niddk.nih.gov
- GO-FAR — illustrative federated consortium (합성)
- MAESTRO derivative — illustrative sponsor derivative (합성)
- KoGES — nih.go.kr
- KNHANES — knhanes.kdca.go.kr
- K-CURE — k-cure.mohw.go.kr
- K-MASLD cohort — KASL-affiliated illustrative
- TCIA NAFLD imaging — cancerimagingarchive.net
- NHIS-NSC — nhiss.nhis.or.kr

> 위 URL은 참조용. 본 도구는 어떤 외부 호출도 수행하지 않는다.

## 디스클레이머

- 모든 메타데이터·release note·DUA 텍스트는 **합성 또는 요약**이며, 공식 원본을 대체하지 않는다.
- 실제 데이터 접근에는 각 데이터셋의 **공식 DUA/IRB/신청서**가 필요하다.
- 임상 의사결정에 단독 근거로 사용 금지.

## 연계 메모

- **MASLDStager / OpenClaw hepatic 후보 검증**: 본 카탈로그의 fibrosis 병기 / MASH 활성도 task용 데이터셋(LITMUS, NIMBLE, NASH CRN, K-MASLD)을 외부 검증 후보로 1차 선정 가능.
- **닥터앤서 3.0 MASLD sub-task 연계**: 한국 환경 외부 검증은 K-MASLD, KoGES, KNHANES, K-CURE, NHIS-NSC 5종 우선 검토. K-CURE 폐쇄분석실 절차가 가장 길어(평균 14주+) timeline 사전 확보 필요.
- 본 도구는 **알림·메타데이터 관리** 도구이며 실제 데이터 다운로드/분석은 별도 환경에서 수행한다.
