오픈뉴스백과
둘러보기ONP 브리핑뉴스
회사학술과학정부용어사전커뮤니티피드 제보
...

오픈뉴스백과

집단지성 기반 뉴스 검증 플랫폼. 다양한 시각으로 뉴스를 이해합니다.

서비스

세계의 오늘한국의 오늘뉴스정부과학학술용어사전소개

법적 고지

개인정보처리방침이용약관콘텐츠 이용 안내

문의

문의하기

본 플랫폼에서 제공하는 뉴스 콘텐츠의 저작권은 각 언론사에 있으며, 무단 복제 및 배포를 금지합니다.

RSS 피드를 통해 수집된 콘텐츠는 각 원저작자의 라이선스 조건을 따릅니다. 오픈 라이선스(CC-BY 등) 콘텐츠는 해당 라이선스에 따라 출처를 표기합니다.

오픈뉴스백과는 뉴스 집계 및 검증 플랫폼으로, 개별 기사의 내용에 대한 책임은 해당 언론사에 있습니다.

이용자가 작성한 피드백, 팩트체크, 독자 제보 등의 콘텐츠에 대한 책임은 해당 작성자에게 있습니다.

콘텐츠 제거 요청: 문의 폼

© 2026 오픈뉴스백과 (OpenNewsPedia). All rights reserved.

뉴스 목록
관련 뉴스2건2개 미디어
arXiv CS.AI
arXiv CS.AI
PLOS ONE
학술
기타

T2D-Bench: Evidence-Gated Evaluation of LLM Outputs for Type 2 Diabetes Using a Multi-Layer Clinical-Lifestyle Knowledge Graph

arXiv CS.AI
조회 0

이 뉴스, 어떠셨어요?

한 번의 탭으로 반응을 남겨요 · 로그인 불필요

CC BY
이 매체는 공공·자유 라이선스로 본문을 직접 표시합니다.

Abstract

Large language models (LLMs) can produce clinically fluent recommendations for type 2 diabetes while failing to satisfy guideline constraints or explicitly justify lifestyle-related glycemic claims.

We present T2D-Bench, a reproducible benchmark and evidence-gated evaluation framework for testing whether LLM outputs satisfy explicit, graph-checkable evidence requirements.

T2D-Bench is built on a multi-layer clinical-lifestyle knowledge graph that combines a biomedical spine (UMLS, DrugBank, SIDER), computable ADA Standards of Care rules, and lifestyle knowledge connected through a mechanistic bridge to glycemic laboratory effects.

Across 100 structured vignettes spanning diagnosis, medication safety, and adversarial lifestyle conflicts, baseline outputs failed benchmark-defined evidence-path checks in 35% of cases for GPT-4o-mini and 33% for GPT-4o.

The evidence gate detects unsupported omissions and uses constrained revision to bring outputs into verifier-level compliance with benchmark-defined evidence requirements.

These results show that computable evidence constraints can make unsupported clinical omissions explicit, measurable, and correctable in diabetes-focused LLM outputs.

전문 보기

관련 뉴스

1건 · 1개 매체

Family history of diabetes and glycemic progression: A propensity score-based analysis using health checkup data

PLOS ONE
기타
관련 뉴스 제보는 로그인 후 가능합니다.

'research' 카테고리 뉴스

Correction: Defect induced improved capacitive performance of MnS incorporated MoO<sub>3</sub> nanocomposite for supercapacitor electrodes in aqueous electrolytes

PLOS ONE

Correction: Burden and predisposing factors of physical inactivity among adults in Africa: Systematic review and Meta-analysis

PLOS ONE

Potential of extracellular vesicle-derived microRNAs as a platform for biomarker discovery in acute lymphoblastic leukemia

PLOS ONE

arXiv의 다른 기사

RIFT-Bench: Dynamic Red-teaming For Agentic AI Systems

arXiv CS.AI

Neuro-Symbolic Drive: Rule-Grounded Faithful Reasoning for Driving VLAs

arXiv CS.AI

Critique of Agent Model

arXiv CS.AI

피드백

피드백을 남기려면 로그인해 주세요.