šµ DeepMusic-OCR: How AI Learns to Read Sheet Music
We adapted DeepSeek-OCR a model built for reading text and taught it to read the 2D language of music notation.
Hereās what the paper is really about š
Thread š§µ
1/
Unlike normal text, music is two-dimensional:
⢠Vertical = chords / simultaneity
⢠Horizontal = rhythm / time
Traditional OMR systems try to segment symbols.
DeepMusic-OCR doesnāt.
It reads the entire score at once.
2/
š The Encoder
DeepMusic-OCR uses a vision encoder redesigned for music:
⢠8Ć8 fine-patch resolution for tiny details
⢠2D positional encoding aligned with staff lines
⢠Dual attention: local (notes) + global (layout)
⢠Pretrained on millions of synthetic sheets
This lets the model capture both symbols and structure.
3/
š¼ The Decoder
Instead of outputting words, the decoder outputs musical events, like:
<note:F#5-quarter>
<clef:G>
<key:D-major>
It also handles:
⢠Polyphony
⢠Chords
⢠Multiple voices
ā¦thanks to a Mixture-of-Experts architecture.
4/
š§ Musical Grammar Built In
DeepMusic-OCR isnāt allowed to output impossible music.
A āmusical grammar lossā penalizes:
⢠Broken measures
⢠Impossible rhythms
⢠Invalid symbols
This gives the model a sense of musical correctness.
5/
š¼ļø Training Data
Since real OMR data is limited, we generated millions of training examples from:
⢠MusicXML
⢠MuseScore
⢠IMSLP
Each score is rendered in multiple engraving styles, with distortions to simulate scanned pages.
Synthetic data = the breakthrough.
6/
ā” Results
With ~200 tokens per page, DeepMusic-OCR achieves:
⢠High symbol accuracy
⢠Consistent measures
⢠Strong transfer to handwritten music
And it does so at a fraction of the compute cost of traditional OMR systems.
7/
š Why This Matters
DeepMusic-OCR enables:
⢠Digitization of classical archives
⢠Large-scale symbolic music analysis
⢠Conditioning generative models with real scores
⢠Education tools for musicians
This isnāt just OCR itās visual-symbolic music understanding.
784
0
De inhoud op deze pagina wordt geleverd door derden. Tenzij anders vermeld, is OKX niet de auteur van het (de) geciteerde artikel(en) en claimt geen auteursrecht op de materialen. De inhoud is alleen bedoeld voor informatieve doeleinden en vertegenwoordigt niet de standpunten van OKX. Het is niet bedoeld als een goedkeuring van welke aard dan ook en mag niet worden beschouwd als beleggingsadvies of een uitnodiging tot het kopen of verkopen van digitale bezittingen. Voor zover generatieve AI wordt gebruikt om samenvattingen of andere informatie te verstrekken, kan deze door AI gegenereerde inhoud onnauwkeurig of inconsistent zijn. Lees het gelinkte artikel voor meer details en informatie. OKX is niet verantwoordelijk voor inhoud gehost op sites van een derde partij. Het bezitten van digitale activa, waaronder stablecoins en NFT's, brengt een hoge mate van risico met zich mee en de waarde van deze activa kan sterk fluctueren. Overweeg zorgvuldig of de handel in of het bezit van digitale activa geschikt voor je is in het licht van je financiƫle situatie.

