🎶 2022-08-31 16:40:02 – Pariz/Francuska.
Spektrogrami (a) originalnih audio klipova, (b) odgovarajućih 3kbit/s MP32 verzija, i (c), (d), (e) restauracija sa različitim nasumično uzorkovanim z-šumovima iz N(0,I). Zasluge: Lattner & Nistal.
Tokom proteklih nekoliko decenija, kompjuterski naučnici su razvili sve naprednije tehnologije i alate za skladištenje velikih količina muzike i audio fajlova u elektronskim uređajima. Prekretnica za skladištenje muzike bio je razvoj MP3 (tj. MPEG-1 Layer 3) tehnologije, tehnike za kompresovanje zvučnih isječaka ili pjesama u vrlo male datoteke koje se lako mogu pohraniti i prenijeti između uređaja.
Kodiranje, uređivanje i kompresija medijskih datoteka, uključujući PKZIP, JPEG, GIF, PNG, MP3, AAC, Cinepak i MPEG-2 datoteke, postižu se korištenjem skupa tehnologija poznatih kao naziv kodeka. Kodeci su tehnologije kompresije s dvije ključne komponente: koder koji komprimira datoteke i dekoder koji ih dekompresuje.
Postoje dvije vrste kodeka, takozvani kodeci bez gubitaka i kodeci s gubicima. Prilikom dekompresije, kodeci bez gubitaka, kao što su PKZIP i PNG kodeci, reproduciraju potpuno istu datoteku kao originalne datoteke. Metode kompresije sa gubitkom, s druge strane, proizvode faksimil originalne datoteke koja zvuči (ili izgleda) kao original, ali zauzima manje prostora za pohranu u elektroničkim uređajima.
Audio kodeci sa gubitkom u osnovi rade tako što komprimiraju digitalne audio tokove, uklanjaju neke podatke, a zatim ih dekompresuju. Općenito, ljudima je teško ili nemoguće uočiti razliku između originalnog i raspakiranog fajla.
Međutim, kada kodeci s gubitkom koriste visoke stope kompresije, mogu dovesti do degradacije i primjetno promijeniti audio signale. Nedavno su kompjuterski naučnici pokušali da prevaziđu ovo ograničenje kodeka sa gubitkom i poboljšaju kvalitet komprimovanih datoteka koristeći tehnike dubokog učenja.
Istraživači iz Sony Computer Science Laboratories (CSL) nedavno su razvili novu metodu dubokog učenja za poboljšanje i vraćanje kvaliteta pjesama i visoko komprimiranih audio zapisa (tj. audio datoteka komprimiranih kodecima s gubitkom s visokim stopama kompresije). Ova metoda, predstavljena u prethodno objavljenom članku o arXiv-u, zasnovana je na generativnim adversarial mrežama (GAN), modelima mašinskog učenja u kojima se dvije neuronske mreže „takmiče“ kako bi napravile sve tačnija ili pouzdanija predviđanja.
„Mnogi radovi su se bavili problemom poboljšanja zvuka i uklanjanja artefakata kompresije koristeći tehnike dubokog učenja“, napisali su Stefan Lattner i Javier Nistal u svom članku. “Međutim, samo nekoliko radova bavi se restauracijom visoko kompresovanih audio signala u muzičkom domenu. U ovoj studiji testiramo stohastički generator za arhitekturu generativne adversarijske mreže (GAN) za ovaj zadatak. »
Kao i drugi GAN-ovi, model koji su kreirali Lattner i Nistal sastoji se od dva različita modela, nazvana "generator (G)" i "kritični (D)". Generator prima izvod muzičkog audio signala kompresovanog u MP3, predstavljenog spektrogramom (tj. vizuelnim prikazom frekvencija spektra audio signala).
Generator kontinuirano uči da proizvodi obnovljenu verziju tog originalnog signala, koji je manje veličine. Tokom ovog vremena, kritična komponenta GAN arhitekture uči da razlikuje visokokvalitetne originalne datoteke i obnovljene verzije, uočavajući tako razlike između njih. Na kraju, informacije koje je prikupio recenzent koriste se za poboljšanje kvaliteta vraćenih datoteka, osiguravajući da muzički ili audio podaci prisutni u vraćenim datotekama budu što vjerniji originalnim datotekama.
Lattner i Nistal procijenili su svoju arhitekturu zasnovanu na GAN-u u nizu testova, koji su imali za cilj utvrditi može li njihov model poboljšati kvalitetu MP3 ulaza i generirati kvalitetnije komprimirane uzorke bliže originalnoj datoteci od onih koje su kreirali drugi osnovni modeli za audio kompresiju. . Njihovi rezultati su bili vrlo obećavajući, jer su otkrili da su model vraćanja jako komprimiranih (3 kbps i 16 kbps) MP32 datoteka općenito bolji od originalnih komprimiranih datoteka, jer su bolje zvučali za stručne ljudske slušaoce. S druge strane, kada su koristili niže stope kompresije (64 kbps mono), tim je otkrio da njihov model radi nešto lošije od osnovnih alata za kompresiju MP3.
"Mi vršimo temeljnu procjenu različitih iskustava koristeći objektivna mjerenja i testove slušanja", rekli su Lattner i Nistal. „Utvrdili smo da modeli mogu poboljšati kvalitet audio signala u poređenju sa MP3 verzijama za 16 i 32 kbit/s i da su stohastički generatori u stanju da generišu izlaze bliže originalnim signalima od onih kod determinističkih generatora. »
Kao dio svoje studije, istraživači su također pokazali da njihova arhitektura može uspješno generirati i dodati realističan visokofrekventni sadržaj koji poboljšava kvalitet zvuka komprimiranih pjesama. Generirani sadržaj uključivao je udarne elemente, pjevački glas koji proizvodi sibilante ili plozive (tj. zvukove "s" i "t") i zvukove gitare.
U budućnosti bi model koji su kreirali mogao pomoći u značajnom smanjenju veličine MP3 muzičkih datoteka bez promjene njihovog sadržaja ili stvaranja lako uočljivih grešaka. Ovo bi moglo imati značajne implikacije na skladištenje i prijenos muzike na mobilnim aplikacijama. streaming (npr. Spotify, Apple Music, itd.) i moderne elektronske uređaje uključujući pametne telefone, tablete i računare.
Google Lyra će omogućiti glasovne pozive za još milijardu korisnika
Više informacija:
Stefan Lattner, Javier Nistal, Stohastička restauracija visoko kompresovanog muzičkog zvuka korištenjem generativnih suparničkih mreža. arXiv:2207.01667v1 [cs.SD]arxiv.org/abs/2207.01667
© 2022 Science X Network
Citation: Korišćenje GAN arhitekture za vraćanje jako komprimovanih muzičkih datoteka (2022, 31. avgusta) Preuzeto 1. septembra 2022. sa https://techxplore.com/news/2022-08-gan-architecture-heavily-compressed-music. html
Ovaj dokument podliježe autorskim pravima. Osim za poštenu upotrebu u svrhe privatnog proučavanja ili istraživanja, nijedan dio se ne smije reproducirati bez pismene dozvole. Sadržaj je samo informativnog karaktera.
IZVOR: Reviews News
Ne ustručavajte se podijeliti naš članak na društvenim mrežama kako biste nam dali solidan poticaj. 🎵