오픈뉴스백과
둘러보기ONP 브리핑뉴스
회사학술과학정부용어사전커뮤니티피드 제보
...

오픈뉴스백과

집단지성 기반 뉴스 검증 플랫폼. 다양한 시각으로 뉴스를 이해합니다.

서비스

세계의 오늘한국의 오늘라이브뉴스정부과학학술용어사전소개

법적 고지

개인정보처리방침이용약관콘텐츠 이용 안내

문의

문의하기

본 플랫폼에서 제공하는 뉴스 콘텐츠의 저작권은 각 언론사에 있으며, 무단 복제 및 배포를 금지합니다.

RSS 피드를 통해 수집된 콘텐츠는 각 원저작자의 라이선스 조건을 따릅니다. 오픈 라이선스(CC-BY 등) 콘텐츠는 해당 라이선스에 따라 출처를 표기합니다.

오픈뉴스백과는 뉴스 집계 및 검증 플랫폼으로, 개별 기사의 내용에 대한 책임은 해당 언론사에 있습니다.

이용자가 작성한 피드백, 팩트체크, 독자 제보 등의 콘텐츠에 대한 책임은 해당 작성자에게 있습니다.

콘텐츠 제거·정정이 필요하시면 문의하기에 남겨 주세요.

© 2026 오픈뉴스백과 (OpenNewsPedia). All rights reserved.

뉴스 목록
미디어 커버리지1건1개 미디어
arXiv Math
학술
기타

Hierarchical Muon: Tiled Newton-Schulz Updates for Efficient Muon Optimization

arXiv Math
조회 0

이 뉴스, 어떠셨어요?

한 번의 탭으로 반응을 남겨요 · 로그인 불필요

CC BY
이 매체는 공공·자유 라이선스로 본문을 직접 표시합니다.

Abstract

Muon-type optimizers construct update directions for dense neural-network weights by applying a finite Newton-Schulz map to momentum-gradient matrices.

For an $H \times W$ matrix, with $r=\min\{H,W\}$ and $s=\max\{H,W\}$, $K$ steps of the full-matrix Newton-Schulz update require $O(r^2 s K)$ work and couple all rows and columns through repeated Gram matrix products.

We introduce Hierarchical Muon (HiMuon), a tiled Newton-Schulz scheme for Muon-type optimization.

HiMuon partitions each momentum-gradient matrix into $T \times T$ tiles, applies the same finite Newton-Schulz map independently to each tile, and reassembles the results.

For finite $T$ below the matrix dimensions, HiMuon defines a local matrix-function map rather than a convergent approximation to the full-matrix update: spectral interactions are preserved within tiles and discarded across tile boundaries.

For fixed finite $T$, the leading Newton-Schulz work decreases to $O(H W T K)$, and the computation decomposes into independent small dense matrix operations.

This structure enables tile-size-dependent GPU kernels, cross-layer batching, memory-bounded chunking, and runtime tile-size schedules.

Experiments on transformer training and controlled matrix-function diagnostics show that HiMuon improves optimizer-step efficiency while keeping training behavior close to full-matrix Muon in the tested regimes.

전문 보기

관련 뉴스

관련 뉴스 제보는 로그인 후 가능합니다.

'research' 카테고리 뉴스

Detecting and Controlling Sycophancy with Cascading Linear Features

arXiv CS.AI

Life After Benchmark Saturation: A Case Study of CORE-Bench

arXiv CS.AI

Refusal Lives Downstream of Persona in Chat Models

arXiv CS.AI

arXiv의 다른 기사

Knowledge-augmented Agentic AI for Mental Health Medication Information Seeking

arXiv CS.AI

Accelerating Skill Assessment in Chess: A Drift-Diffusion-Enhanced Elo Rating System

arXiv CS.AI

Governing Actions, Not Agents: Institutional Attestation as a Governance Model for Autonomous AI Systems

arXiv CS.AI

피드백

피드백을 남기려면 로그인해 주세요.