오픈뉴스백과
둘러보기ONP 브리핑뉴스
회사학술과학정부용어사전커뮤니티피드 제보
...

오픈뉴스백과

집단지성 기반 뉴스 검증 플랫폼. 다양한 시각으로 뉴스를 이해합니다.

서비스

세계의 오늘한국의 오늘라이브뉴스정부과학학술용어사전소개

법적 고지

개인정보처리방침이용약관콘텐츠 이용 안내

문의

문의하기

본 플랫폼에서 제공하는 뉴스 콘텐츠의 저작권은 각 언론사에 있으며, 무단 복제 및 배포를 금지합니다.

RSS 피드를 통해 수집된 콘텐츠는 각 원저작자의 라이선스 조건을 따릅니다. 오픈 라이선스(CC-BY 등) 콘텐츠는 해당 라이선스에 따라 출처를 표기합니다.

오픈뉴스백과는 뉴스 집계 및 검증 플랫폼으로, 개별 기사의 내용에 대한 책임은 해당 언론사에 있습니다.

이용자가 작성한 피드백, 팩트체크, 독자 제보 등의 콘텐츠에 대한 책임은 해당 작성자에게 있습니다.

콘텐츠 제거·정정이 필요하시면 문의하기에 남겨 주세요.

© 2026 오픈뉴스백과 (OpenNewsPedia). All rights reserved.

뉴스 목록
미디어 커버리지1건1개 미디어
arXiv Math
학술
기타

Bilevel Data Curation for LLM Fine-tuning: Offline Selection and Online Self-Refining Generation

arXiv Math
조회 0

이 뉴스, 어떠셨어요?

한 번의 탭으로 반응을 남겨요 · 로그인 불필요

CC BY
이 매체는 공공·자유 라이선스로 본문을 직접 표시합니다.

Abstract

Supervised fine-tuning (SFT) datasets are critical to the downstream performance of large language models, yet they often contain low-quality or harmful question-response pairs.

To improve SFT data quality, we develop a unified bilevel framework that combines offline data selection with the online self-refining generation.

In the offline setting, bilevel data selection (BDS) selects question-response pairs from the offline SFT dataset to maximize the validation performance.

We theoretically show that the optimal model given by BDS outperforms direct data mixing approach in useful data coverage.

Moreover, we provide a global convergence analysis for gradient-based BDS approach for one-layer Transformer, showing that the epsilon-global optimum of offline BDS is achievable in finite time.

Although efficient, offline BDS discards potentially harmful questions together with responses, thereby reducing question diversity.

We address this limitation by refining the responses to selected questions using online self-refining generation framework.

However, BDS is inefficient to update the response weights when responses are regenerated online.

To address this issue, we introduce bilevel multi-objective optimization (BMO) for response-level weighting.

We show that BMO recovers the same validation-aligned solution as BDS, but admits a closed-form importance-ratio weight that adapts to regenerated responses.

Experiments on LLM quality enhancement and safety-aware fine-tuning demonstrate that the proposed framework consistently improves both data quality and downstream fine-tuning performance.

전문 보기

관련 뉴스

관련 뉴스 제보는 로그인 후 가능합니다.

'research' 카테고리 뉴스

Rise Time Effects of a Portable Inductive Energy Storage Pulse Generator on NO Production in Spark Discharges

arXiv Physics

ConSolv: Solvent-Conditional Machine Learning Implicit Solvent Potential

arXiv Physics

Machine Learning Approaches for Improved Scalability of Metallic Magnetic Calorimeters

arXiv Physics

arXiv의 다른 기사

Machine learning is revolutionizing weather forecasting -- the next step is a change in how we work

arXiv Physics

Liquid Jet in Crossflow: Review of Breakup modes and Injector Geometry Effects

arXiv Physics

Slow Extraction Beam Commissioning for the Mu2e Experiment at Fermilab

arXiv Physics

피드백

피드백을 남기려면 로그인해 주세요.