२३ सप्टेंबर, २०२५मराठी

पायथनसह डिजिटल ऑडिओच्या जगात एक्सप्लोर करा. हा सर्वसमावेशक मार्गदर्शक ध्वनी विश्लेषण आणि संश्लेषण, लिब्रोसा आणि सायपी सारख्या महत्वाच्या लायब्ररी आणि विकासक आणि उत्साही लोकांसाठी व्यावहारिक कोड उदाहरणे समाविष्ट करते.

पायथन ऑडिओ प्रोसेसिंग: ध्वनी विश्लेषण आणि संश्लेषणाचा सखोल अभ्यास

ध्वनी हा मानवी अनुभवाचा एक मूलभूत भाग आहे. आपल्याला आवडणाऱ्या संगीतापासून, आपण ओळखतो त्या आवाजांपर्यंत, आपल्या वातावरणातील पार्श्वभूमीतील आवाजांपर्यंत, ऑडिओ डेटा समृद्ध, गुंतागुंतीचा आणि अर्थपूर्ण आहे. डिजिटल युगात, या डेटाचे विश्लेषण आणि त्यावर प्रक्रिया करण्याची क्षमता मनोरंजन, कृत्रिम बुद्धिमत्ता आणि वैज्ञानिक संशोधन यांसारख्या विविध क्षेत्रांमध्ये एक महत्त्वपूर्ण कौशल्य बनले आहे. विकासक आणि डेटा वैज्ञानिकांसाठी, पायथन हे डिजिटल सिग्नल प्रोसेसिंग (डीएसपी) साठी लायब्ररींचे एक मजबूत इकोसिस्टम (Ecosystem) असलेले एक सामर्थ्यशाली माध्यम बनले आहे.

ऑडिओ प्रोसेसिंगच्या केंद्रस्थानी दोन पूरक विषय आहेत: ध्वनी विश्लेषण आणि ध्वनी संश्लेषण. ते डिजिटल ऑडिओचे यिन आणि यांग आहेत:

विश्लेषण ही रचनात्मक प्रक्रिया आहे. यात अस्तित्वातील ऑडिओ सिग्नल घेणे आणि अर्थपूर्ण माहिती काढण्यासाठी त्याचे विभाजन करणे समाविष्ट आहे. हे "हा आवाज कशापासून बनलेला आहे?" या प्रश्नाचे उत्तर देते.
संश्लेषण ही रचनात्मक प्रक्रिया आहे. यात गणितीय मॉडेल आणि अल्गोरिदम वापरून सुरवातीपासून ऑडिओ सिग्नल तयार करणे समाविष्ट आहे. हे "मी हा आवाज कसा तयार करू शकतो?" या प्रश्नाचे उत्तर देते.

हा सर्वसमावेशक मार्गदर्शक आपल्याला दोन्ही जगांच्या प्रवासावर घेऊन जाईल. आम्ही सैद्धांतिक आधार समजावून सांगू, आवश्यक पायथन टूल्स सादर करू आणि व्यावहारिक कोड उदाहरणांवर चर्चा करू, जे आपण स्वतः चालवू आणि स्वीकारू शकता. आपण ऑडिओ वैशिष्ट्यांचे विश्लेषण करू पाहणारे डेटा वैज्ञानिक असाल, अल्गोरिदमिक कंपोझिशनमध्ये (algorithmic composition) रस असलेले संगीतकार असाल किंवा पुढील मोठे ऑडिओ ॲप्लिकेशन तयार करणारे विकासक असाल, हा लेख आपल्याला प्रारंभ करण्यासाठी आवश्यक असलेला पाया देईल.

भाग 1: रचनात्मकतेची कला: पायथनसह ध्वनी विश्लेषण

ध्वनी विश्लेषण हे गुप्तहेर बनण्यासारखे आहे. आपल्याला एक पुरावा दिला जातो—एक ऑडिओ फाइल—आणि आपले कार्य म्हणजे तिची रहस्ये उघड करण्यासाठी आपल्या साधनांचा वापर करणे. कोणते स्वर वाजवले गेले? कोण बोलत होते? आवाज कोणत्या प्रकारच्या वातावरणात रेकॉर्ड केला गेला? ध्वनी विश्लेषण या प्रश्नांची उत्तरे देण्यास मदत करते.

डिजिटल ऑडिओमधील मूळ संकल्पना

ध्वनीचे विश्लेषण करण्यापूर्वी, ते संगणकात कसे दर्शविले जाते हे समजून घेणे आवश्यक आहे. ॲनालॉग ध्वनी लहरी एक सतत सिग्नल आहे. ते डिजिटल स्वरूपात साठवण्यासाठी, आपल्याला ते सॅम्पलिंग नावाच्या प्रक्रियेद्वारे रूपांतरित करणे आवश्यक आहे.

सॅम्पलिंग दर: हा प्रति सेकंद घेतलेल्या ऑडिओ सिग्नलच्या सॅम्पल्सची (Snapshot) संख्या आहे. हे हर्ट्झ (Hz) मध्ये मोजले जाते. संगीतासाठी एक सामान्य सॅम्पलिंग दर 44,100 Hz (44.1 kHz) आहे, याचा अर्थ दर सेकंदाला ध्वनीच्या ॲम्प्लिट्यूडचे 44,100 स्नॅपशॉट घेतले जातात.
बिट डेप्थ: हे प्रत्येक सॅम्पलचे रिझोल्यूशन (resolution) ठरवते. उच्च बिट डेप्थ अधिक डायनॅमिक रेंजला अनुमती देते (शांत आणि मोठ्या आवाजांमधील फरक). सीडीसाठी 16-बिट डेप्थ प्रमाणित आहे.

या प्रक्रियेचा परिणाम म्हणजे संख्यांचा क्रम, ज्याला आपण वेव्हफॉर्म म्हणून दर्शवू शकतो.

वेव्हफॉर्म: ॲम्प्लिट्यूड आणि वेळ

ऑडिओचे सर्वात मूलभूत प्रतिनिधित्व म्हणजे वेव्हफॉर्म. हे ॲम्प्लिट्यूड (मोठेपणा) विरुद्ध वेळेचे द्विमितीय प्लॉट आहे. वेव्हफॉर्म पाहिल्यानंतर आपल्याला ऑडिओच्या डायनॅमिक्सची सामान्य कल्पना येऊ शकते, परंतु त्यातील tonal content (टोनल कंटेंट) बद्दल जास्त माहिती मिळत नाही.

स्पेक्ट्रम: वारंवारता आणि पिच

आवाजाची tonal qualities (टोनल क्वालिटीज) समजून घेण्यासाठी, आपल्याला time domain (वेळ डोमेन) (वेव्हफॉर्म) मधून frequency domain (वारंवारता डोमेन) मध्ये जाणे आवश्यक आहे. हे फास्ट फुरियर ट्रांसफॉर्म (FFT) नावाच्या अल्गोरिदमचा वापर करून साध्य केले जाते. FFT वेव्हफॉर्मच्या एका भागाला त्याच्या घटक साइन वेव्हमध्ये विभाजित करते, प्रत्येकामध्ये एक विशिष्ट वारंवारता आणि ॲम्प्लिट्यूड असते. याचा परिणाम म्हणजे स्पेक्ट्रम, ॲम्प्लिट्यूड विरुद्ध वारंवारतेचा प्लॉट. हा प्लॉट ध्वनीमध्ये कोणत्या वारंवारता (किंवा पिच) उपस्थित आहेत आणि त्या किती मजबूत आहेत हे दर्शवितो.

टिंबर: ध्वनीचा "रंग"

एकाच नोट्सवर (समान मूलभूत वारंवारता) पियानो आणि गिटार वाजवल्यावर आवाज इतका वेगळा का येतो? याचे उत्तर आहे टिंबर (उच्चार "टॅम-बर"). टिंबर harmonics किंवा overtones च्या उपस्थिती आणि तीव्रतेद्वारे निर्धारित केले जाते—अतिरिक्त वारंवारता ज्या मूलभूत वारंवारतेच्या पूर्णांक पटीत असतात. या harmonics चे अद्वितीय संयोजन एका वाद्याला त्याच्या ध्वनीचा वैशिष्ट्यपूर्ण रंग देते.

ऑडिओ विश्लेषणासाठी आवश्यक पायथन लायब्ररी

पायथनची ताकद त्याच्या तृतीय-पक्ष लायब्ररींच्या विस्तृत संग्रहात आहे. ऑडिओ विश्लेषणासाठी, काही लायब्ररी महत्वाच्या आहेत.

लिब्रोसा: ही पायथनमध्ये ऑडिओ आणि संगीत विश्लेषणासाठी प्रमुख लायब्ररी आहे. हे ऑडिओ लोड करणे, व्हिज्युअलाइज करणे आणि टेम्पो, पिच आणि क्रोमॅटिक रिप्रेजेंटेशन (chromatic representation) सारखी उच्च-स्तरीय वैशिष्ट्ये काढण्यासाठी एक विस्तृत टूलकिट (toolkit) प्रदान करते.
सायपी: वैज्ञानिक पायथन स्टॅक (stack) मधील एक मुख्य लायब्ररी, सायपीमध्ये एक शक्तिशाली `signal` मॉड्यूल आहे. हे फिल्टरिंग, फूरियर ट्रांसफॉर्म आणि स्पेक्ट्रोग्राम (spectrograms) सह कार्य करण्यासारख्या निम्न-स्तरीय डीएसपी कार्यांसाठी उत्कृष्ट आहे. हे `.wav` फाइल्स वाचण्याचा आणि लिहिण्याचा एक सोपा मार्ग देखील प्रदान करते.
पायडब: उच्च-स्तरीय, साध्या फेरबदलांसाठी, `pydub` उत्कृष्ट आहे. हे आपल्याला ऑडिओचे विभाजन (slice), एकत्र करणे (concatenate), आच्छादित करणे (overlay) आणि अत्यंत अंतर्ज्ञानी API सह सोपे प्रभाव (effects) लागू करण्यास अनुमती देते. हे प्रीप्रोसेसिंग (preprocessing) कार्यांसाठी उत्तम आहे.
नम्पी आणि मॅटप्लोटलिब: ऑडिओ-विशिष्ट नसतानाही, हे अपरिहार्य आहेत. नम्पी ऑडिओ डेटा ठेवण्यासाठी मूलभूत डेटा स्ट्रक्चर (N-dimensional ॲरे) प्रदान करते आणि मॅटप्लोटलिब प्लॉटिंग (plotting) आणि व्हिज्युअलायझेशनसाठी मानक आहे.

व्यावहारिक विश्लेषण: वेव्हफॉर्मपासून (waveforms) ते माहितीपर्यंत

चला प्रत्यक्ष कामाला लागूया. प्रथम, आपल्याकडे आवश्यक लायब्ररी स्थापित असल्याची खात्री करा:

pip install librosa matplotlib numpy scipy

आपल्याला काम करण्यासाठी ऑडिओ फाइलची देखील आवश्यकता असेल. या उदाहरणांसाठी, आपल्याकडे `audio_sample.wav` नावाची फाइल असल्याचे आम्ही गृहीत धरू.

ऑडिओ लोड करणे आणि व्हिज्युअलाइज करणे

आपले पहिले पाऊल नेहमी ऑडिओ डेटा नम्पी ॲरेमध्ये लोड करणे असते. लिब्रोसा हे खूप सोपे करते.


import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# आपल्या ऑडिओ फाइलचा मार्ग परिभाषित करा
file_path = 'audio_sample.wav'

# ऑडिओ फाइल लोड करा
# y ही ऑडिओ टाइम सिरीज (नम्पी ॲरे) आहे
# sr हा सॅम्पलिंग दर आहे
y, sr = librosa.load(file_path)

# वेव्हफॉर्म प्लॉट करा
plt.figure(figsize=(14, 5))
librosa.display.waveshow(y, sr=sr)
plt.title('ऑडिओ वेव्हफॉर्म')
plt.xlabel('वेळ (s)')
plt.ylabel('ॲम्प्लिट्यूड')
plt.grid(True)
plt.show()

हा कोड आपली ऑडिओ फाइल लोड करतो आणि तिचा वेव्हफॉर्म दर्शवितो. आपण रेकॉर्डिंगचे मोठे आणि शांत भाग त्वरित पाहू शकता.

वारंवारता सामग्री अनपॅक (unpack) करणे: स्पेक्ट्रोग्राम

वेव्हफॉर्म उपयुक्त आहे, परंतु स्पेक्ट्रोग्राम आपल्याला अधिक समृद्ध दृश्य देतो. स्पेक्ट्रोग्राम वेळेनुसार बदलणाऱ्या सिग्नलचा स्पेक्ट्रम व्हिज्युअलाइज (visualize) करतो. क्षैतिज अक्ष वेळेचे प्रतिनिधित्व करतो, अनुलंब अक्ष वारंवारतेचे प्रतिनिधित्व करतो आणि रंग विशिष्ट वेळी विशिष्ट वारंवारतेच्या ॲम्प्लिट्यूडचे प्रतिनिधित्व करतो.


# शॉर्ट-टाइम फूरियर ट्रांसफॉर्म (STFT) ची गणना करा
D = librosa.stft(y)

# ॲम्प्लिट्यूडला डेसिबलमध्ये रूपांतरित करा (अधिक अंतर्ज्ञानी स्केल)
DB = librosa.amplitude_to_db(np.abs(D), ref=np.max)

# स्पेक्ट्रोग्राम प्लॉट करा
plt.figure(figsize=(14, 5))
librosa.display.specshow(DB, sr=sr, x_axis='time', y_axis='log')
plt.colorbar(format='%+2.0f dB')
plt.title('लॉग-फ्रिक्वेन्सी पॉवर स्पेक्ट्रोग्राम')
plt.show()

स्पेक्ट्रोग्रामसह, आपण संगीतातील नोट्स, एखाद्या व्यक्तीच्या भाषणातील फॉर्मंट्स (formants) किंवा मशीनच्या गुंजन (hum) ची वैशिष्ट्यपूर्ण वारंवारता अक्षरशः पाहू शकता.

अर्थपूर्ण वैशिष्ट्ये काढणे

अनेकदा, आपल्याला जटिल ऑडिओ सिग्नलला काही संख्या किंवा वेक्टरमध्ये डिस्टिल (distill) करायचा असतो, जे त्याची मुख्य वैशिष्ट्ये दर्शवतात. यांना वैशिष्ट्ये म्हणतात आणि ते ऑडिओसाठी मशीन लर्निंग मॉडेलचा आधार आहेत.

शून्य-क्रॉसिंग दर (ZCR): हा तो दर आहे ज्यावर सिग्नल त्याचे चिन्ह बदलतो (सकारात्मक ते नकारात्मक किंवा उलट). उच्च ZCR बहुतेक वेळा आवाजयुक्त किंवा तालबद्ध आवाज (जसे की झांज किंवा स्थिर आवाज) दर्शवितो, तर कमी ZCR tonal (टोनल), melodic (मेलोडिक) आवाजांसाठी (जसे की बासरी किंवा गायलेले स्वर) सामान्य आहे.


zcr = librosa.feature.zero_crossing_rate(y)
print(f"सरासरी शून्य-क्रॉसिंग दर: {np.mean(zcr)}")

स्पेक्ट्रल सेंट्रॉइड: हे वैशिष्ट्य स्पेक्ट्रमच्या "वस्तुमानाचे केंद्र" दर्शवते. हे आवाजाच्या ब्राइटनेसचे (brightness) माप आहे. उच्च स्पेक्ट्रल सेंट्रॉइड उच्च-वारंवारता सामग्री असलेला आवाज दर्शवितो (जसे की ट्रम्पेट), तर कमी स्पेक्ट्रल सेंट्रॉइड गडद आवाज दर्शवितो (जसे की व्हायोलिन).


spectral_centroids = librosa.feature.spectral_centroid(y=y, sr=sr)[0]

# वेळेनुसार स्पेक्ट्रल सेंट्रॉइड प्लॉट करणे
frames = range(len(spectral_centroids))
t = librosa.frames_to_time(frames, sr=sr)

plt.figure(figsize=(14, 5))
librosa.display.waveshow(y, sr=sr, alpha=0.4)
plt.plot(t, spectral_centroids, color='r') # लाल रंगात स्पेक्ट्रल सेंट्रॉइड दर्शवा
plt.title('स्पेक्ट्रल सेंट्रॉइड')
plt.show()

मेल-फ्रिक्वेन्सी केप्स्ट्रल कोएफिशियंट्स (MFCCs): हे ऑडिओ वर्गीकरण कार्यांसाठी सर्वात महत्वाचे वैशिष्ट्य आहे, विशेषत:speech recognition (स्पीच रिकॉग्निशन) आणि music genre classification (म्युझिक जॉनर क्लासिफिकेशन) मध्ये. MFCCs हे ध्वनीच्या शॉर्ट-टर्म पॉवर स्पेक्ट्रमचे कॉम्पॅक्ट प्रतिनिधित्व आहे, जे वारंवारतेच्या नॉनलाइनियर मेल स्केलवर लॉग पॉवर स्पेक्ट्रमच्या लीनियर कोसाइन ट्रांसफॉर्मवर आधारित आहे. हे किचकट आहे, परंतु मुख्य कल्पना ही आहे की ते मानवी श्रवणविषयक धारणा (auditory perception) मॉडेल करण्यासाठी डिझाइन केलेले आहेत, ज्यामुळे ते मानवासारखे आकलन (understanding) आवश्यक असलेल्या कार्यांसाठी अत्यंत प्रभावी ठरतात.


mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)

# MFCCs व्हिज्युअलाइज करा
plt.figure(figsize=(14, 5))
librosa.display.specshow(mfccs, sr=sr, x_axis='time')
plt.colorbar()
plt.title('MFCCs')
plt.show()

पिच आणि टेम्पो शोधणे

लिब्रोसा संगीत-विशिष्ट विश्लेषणासाठी उच्च-स्तरीय कार्ये देखील प्रदान करते.

टेम्पो आणि बीट ट्रॅकिंग: आम्ही जागतिक टेम्पो (प्रति मिनिट बीट्समध्ये) सहजपणे अंदाज लावू शकतो आणि ऑडिओमधील बीट्सची स्थाने शोधू शकतो.


# टेम्पोचा अंदाज लावा आणि बीट फ्रेम्स शोधा
tempo, beat_frames = librosa.beat.beat_track(y=y, sr=sr)
print(f'अंदाजित टेम्पो: {tempo:.2f} बीट्स प्रति मिनिट')

# बीट फ्रेम्स वेळेत रूपांतरित करा
beat_times = librosa.frames_to_time(beat_frames, sr=sr)

ही तर फक्त सुरुवात आहे. लिब्रोसा लय, सुसंवाद आणि टोनॅलिटीचे विश्लेषण करण्यासाठी अनेक वैशिष्ट्ये प्रदान करते, ज्यामुळे ते संगीत माहिती पुनर्प्राप्ती (MIR) साठी एक अविश्वसनीय शक्तिशाली साधन बनते.

भाग 2: निर्मितीची कला: पायथनसह ध्वनी संश्लेषण

जर विश्लेषण म्हणजे गोष्टी वेगळ्या करणे, तर संश्लेषण म्हणजे त्यांना सुरवातीपासून तयार करणे. पायथनसह, आपण डिजिटल लुथियर (digital luthier) बनू शकता, काही ओळींच्या कोडसह पूर्वी कधीही अस्तित्वात नसलेले आवाज तयार करू शकता. मुख्य कल्पना म्हणजे मूल्यांची नम्पी ॲरे व्युत्पन्न करणे, जी प्लेबॅक (playback) केल्यावर, आपण डिझाइन केलेली ध्वनी लहरी तयार करते.

मूलभूत संश्लेषण तंत्र

ध्वनी संश्लेषित करण्याचे अनेक मार्ग आहेत, प्रत्येकाचे स्वतःचे वैशिष्ट्य आहे. येथे काही मूलभूत दृष्टीकोन आहेत.

ॲडिटिव्ह सिंथेसिस: ही सर्वात सोपी आणि अंतर्ज्ञानी पद्धत आहे. फूरियरच्या सिद्धांतावर आधारित, हे नमूद करते की कोणतीही जटिल आवर्तक वेव्हफॉर्म (periodic waveform) साध्या साइन वेव्हच्या (harmonics) बेरजेच्या रूपात दर्शविली जाऊ शकते. वेगवेगळ्या वारंवारता, ॲम्प्लिट्यूड आणि फेजच्या साइन वेव्ह जोडून, आपण अविश्वसनीयपणे समृद्ध आणि जटिल टिम्बर्स (timbres) तयार करू शकता.
सब्स्ट्रॅक्टिव्ह सिंथेसिस: हे ॲडिटिव्हच्या विरुद्ध आहे. आपण हार्मोनिकली (harmonically) समृद्ध वेव्हफॉर्मने (जसे की स्क्वेअर वेव्ह किंवा सॉटूथ वेव्ह) सुरुवात करतो आणि नंतर वारंवारता कमी करण्यासाठी किंवा वजा करण्यासाठी फिल्टर वापरतो. हा बहुतेक क्लासिक ॲनालॉग सिंथेसायझरचा आधार आहे.
फ्रिक्वेन्सी मॉड्युलेशन (FM) सिंथेसिस: हे एक अत्यंत कार्यक्षम आणि शक्तिशाली तंत्र आहे, जिथे एका ऑसिलेटरची वारंवारता (carrier) दुसर्‍या ऑसिलेटरच्या आउटपुटद्वारे (modulator) सुधारित केली जाते. हे अत्यंत जटिल, डायनॅमिक आणि बहुतेक वेळा धातूचे किंवा घंटीसारखे आवाज तयार करू शकते.

ऑडिओ संश्लेषणासाठी आवश्यक पायथन लायब्ररी

संश्लेषणासाठी, आपले टूलकिट सोपे आहे, परंतु कमी शक्तिशाली नाही.

नम्पी: हे पूर्णपणे मूलभूत आहे. आम्ही आमच्या ध्वनी लहरींचे प्रतिनिधित्व करणार्‍या संख्यांची ॲरे तयार करण्यासाठी आणि हाताळण्यासाठी नम्पी वापरू. साइन, स्क्वेअर आणि त्रिकोण लहरींसारख्या वेव्हफॉर्म व्युत्पन्न करण्यासाठी त्याची गणितीय कार्ये आवश्यक आहेत.
सायपी: आम्ही आमच्या नम्पी ॲरे मानक `.wav` ऑडिओ फायलींमध्ये सेव्ह (save) करण्यासाठी सायपीचे `scipy.io.wavfile.write` फंक्शन वापरू, जे कोणत्याही मीडिया प्लेयरद्वारे प्ले केले जाऊ शकतात.

व्यावहारिक संश्लेषण: कोडमधून ध्वनी तयार करणे

चला आवाज तयार करणे सुरू करूया. आपल्याकडे सायपी आणि नम्पी तयार असल्याची खात्री करा.

शुद्ध टोन (साइन वेव्ह) तयार करणे

आपण तयार करू शकणारा सर्वात सोपा आवाज म्हणजे शुद्ध टोन, जो एका विशिष्ट वारंवारतेवर फक्त एक साइन वेव्ह आहे.


import numpy as np
from scipy.io.wavfile import write

# --- संश्लेषण पॅरामीटर्स ---
sr = 44100  # सॅम्पल दर
duration = 3.0  # सेकंद
frequency = 440.0  # Hz (A4 नोट)

# वेळ ॲरे व्युत्पन्न करा
# हे 0 ते 'duration' पर्यंत संख्यांचा क्रम तयार करते, प्रति सेकंद 'sr' पॉइंट्ससह
t = np.linspace(0., duration, int(sr * duration), endpoint=False)

# साइन वेव्ह व्युत्पन्न करा
# साइन वेव्हचे सूत्र आहे: amplitude * sin(2 * pi * frequency * time)
amplitude = np.iinfo(np.int16).max * 0.5 # कमाल 16-बिट पूर्णांक मूल्याच्या अर्ध्या भागाचा वापर करा
data = amplitude * np.sin(2. * np.pi * frequency * t)

# 16-बिट डेटामध्ये रूपांतरित करा आणि .wav फाइलमध्ये लिहा
write('sine_wave_440hz.wav', sr, data.astype(np.int16))

print(" 'sine_wave_440hz.wav' यशस्वीरित्या व्युत्पन्न झाली.")

जर आपण हा कोड चालवला, तर तो त्याच डिरेक्टरीमध्ये `.wav` फाइल तयार करेल. ती उघडा आणि आपल्याला एक परिपूर्ण A4 नोट ऐकू येईल!

envelopes (ADSR) सह ध्वनी आकार देणे

आपला शुद्ध टोन थोडा कंटाळवाणा आहे; तो अचानक सुरू आणि बंद होतो. वास्तविक जगातील आवाजांना डायनॅमिक आकार असतो. आम्ही envelopes वापरून यावर नियंत्रण ठेवू शकतो. सर्वात सामान्य प्रकार म्हणजे ADSR envelope:

Attack: आवाजाला शून्यापासून त्याच्या सर्वोच्च पातळीवर पोहोचायला लागणारा वेळ.
Decay: सर्वोच्च पातळीवरून सस्टेन पातळीवर (sustain level) पोहोचायला लागणारा वेळ.
Sustain: नोट सक्रिय असताना आवाज ज्या पातळीवर धरला जातो ती पातळी.
Release: नोट सोडल्यानंतर आवाज शून्यावर फिकट व्हायला लागणारा वेळ.

चला आपल्या साइन वेव्हवर एक साधे लीनियर अटॅक (linear attack) आणि रीलिज (release) लागू करूया.


# --- envelope पॅरामीटर्स ---
attack_time = 0.1  # सेकंद
release_time = 0.5 # सेकंद

# envelope तयार करा
attack_samples = int(sr * attack_time)
release_samples = int(sr * release_time)
sustain_samples = len(t) - attack_samples - release_samples

attack = np.linspace(0, 1, attack_samples)
# सोप्यासाठी, आम्ही decay वगळू आणि सस्टेन पातळी 1 बनवू
sustain = np.ones(sustain_samples)
release = np.linspace(1, 0, release_samples)

envelope = np.concatenate([attack, sustain, release])

# आपल्या साइन वेव्ह डेटामध्ये envelope लागू करा
enveloped_data = data * envelope

# नवीन आवाज फाइलमध्ये लिहा
write('enveloped_sine_wave.wav', sr, enveloped_data.astype(np.int16))

print(" 'enveloped_sine_wave.wav' यशस्वीरित्या व्युत्पन्न झाली.")

हा नवीन आवाज सहजपणे फिकट होईल आणि हळूवारपणे फिकट होत जाईल, ज्यामुळे तो अधिक संगीतमय आणि नैसर्गिक वाटेल.

ॲडिटिव्ह सिंथेसिससह (additive synthesis) गुंतागुंत निर्माण करणे

आता, harmonics जोडून एक समृद्ध टिंबर (timber) तयार करूया. उदाहरणार्थ, स्क्वेअर वेव्हमध्ये मूलभूत वारंवारता आणि त्याचे सर्व विषम harmonics असतात, ज्याची ॲम्प्लिट्यूड प्रमाणानुसार कमी होते. चला एक अंदाजे तयार करूया.


# --- ॲडिटिव्ह सिंथेसिस ---
fundamental_freq = 220.0 # A3 नोट

# मूलभूत टोनने सुरुवात करा
final_wave = np.sin(2. * np.pi * fundamental_freq * t)

# विषम harmonics जोडा
num_harmonics = 10
for i in range(3, num_harmonics * 2, 2):
    harmonic_freq = fundamental_freq * i
    harmonic_amplitude = 1.0 / i
    final_wave += harmonic_amplitude * np.sin(2. * np.pi * harmonic_freq * t)

# क्लिपिंग (amplitude > 1) प्रतिबंधित करण्यासाठी वेव्ह नॉर्मलाइझ करा
final_wave = final_wave / np.max(np.abs(final_wave))

# पूर्वीचा envelope लागू करा
rich_sound_data = (amplitude * final_wave) * envelope

# फाइलमध्ये लिहा
write('additive_synthesis_sound.wav', sr, rich_sound_data.astype(np.int16))

print(" 'additive_synthesis_sound.wav' यशस्वीरित्या व्युत्पन्न झाली.")

ही नवीन फाइल ऐका. हे साध्या साइन वेव्हपेक्षा (sine wave) खूप समृद्ध आणि अधिक क्लिष्ट वाटेल, स्क्वेअर वेव्हच्या (square wave) गुंजन आवाजाकडे झुकत आहे. आपण नुकतेच ॲडिटिव्ह सिंथेसिस (additive synthesis) केले आहे!

भाग 3: सहजीवी संबंध: विश्लेषण आणि संश्लेषण कोठे एकत्र येतात

जरी आपण विश्लेषण आणि संश्लेषणाकडे स्वतंत्र विषय म्हणून पाहिले असले तरी, त्यांची खरी शक्ती तेव्हाच उघड होते जेव्हा ते एकत्र वापरले जातात. ते एक फीडबॅक लूप (feedback loop) तयार करतात जेथे आकलन (understanding) निर्मितीला सूचित करते आणि निर्मिती आकलनासाठी नवीन सामग्री प्रदान करते.

जगांमधील पूल: रेसिंथेसिस (resynthesis)

सर्वात रोमांचक क्षेत्रांपैकी एक जिथे हे दोन्ही एकत्र येतात ते म्हणजे रेसिंथेसिस. ही प्रक्रिया अशा प्रकारे कार्य करते:

विश्लेषण: वास्तविक जगातील आवाज घ्या (उदा. व्हायोलिनचे रेकॉर्डिंग) आणि त्याची मुख्य ध्वनिक वैशिष्ट्ये काढा—त्यातील हार्मोनिक सामग्री, त्याचे पिच बदल, ॲम्प्लिट्यूड envelope.
मॉडेल: या वैशिष्ट्यांवर आधारित गणितीय मॉडेल तयार करा.
संश्लेषण: हे मॉडेल वापरून नवीन आवाज व्युत्पन्न करण्यासाठी आपले संश्लेषण इंजिन वापरा.

हे आपल्याला अत्यंत वास्तववादी कृत्रिम वाद्ये तयार करण्यास किंवा एका आवाजाची वैशिष्ट्ये दुसर्‍यावर लागू करण्यास अनुमती देते (उदा., मानवी आवाजाचा स्पेक्ट्रल envelope गिटारवर लावून ते "बोलल्यासारखे" करणे).

ऑडिओ इफेक्ट्स (audio effects) तयार करणे

जवळजवळ सर्व डिजिटल ऑडिओ इफेक्ट्स—रिव्हर्ब (reverb), डिले (delay), डिस्टॉर्शन (distortion), कोरस (chorus)—विश्लेषण आणि संश्लेषणाचे मिश्रण आहेत.

डिले/इको: ही एक सोपी प्रक्रिया आहे. सिस्टम येणाऱ्या ऑडिओचे विश्लेषण करते, ते बफरमध्ये (मेमरीचा एक भाग) साठवते आणि नंतर ते कमी ॲम्प्लिट्यूडवर नंतरच्या वेळी आउटपुट स्ट्रीममध्ये परत संश्लेषित करते.
डिस्टॉर्शन: हा इफेक्ट इनपुट सिग्नलच्या ॲम्प्लिट्यूडचे विश्लेषण करतो. जर ते एका विशिष्ट थ्रेशोल्डपेक्षा (threshold) जास्त असेल, तर ते एक नवीन हार्मोनिक्स (harmonics) जोडून वेव्हफॉर्म क्लिप (clip) किंवा बदलते (waveshaper) असे गणितीय फंक्शन लागू करून नवीन आउटपुट संश्लेषित करते.
रिव्हर्ब: हे भौतिक जागेच्या आवाजाचे अनुकरण करते. हे वास्तविक खोलीच्या ध्वनिक गुणधर्मांच्या विश्लेषणावर आधारित मॉडेल केलेल्या हजारो लहान, क्षीण प्रतिध्वनींचे (reflections) संश्लेषण करण्याची एक जटिल प्रक्रिया आहे.

या एकत्रित प्रयत्नांचे वास्तविक जगातील ॲप्लिकेशन्स

विश्लेषण आणि संश्लेषणादरम्यानचा संवाद उद्योगात नवकल्पना (innovation) चालवतो:

स्पीच टेक्नॉलॉजी: टेक्स्ट-टू-स्पीच (TTS) सिस्टम मानवासारखे भाषण संश्लेषित करते, बहुतेकदा मानवी भाषणाच्या मोठ्या प्रमाणात रेकॉर्ड केलेल्या विश्लेषणावर प्रशिक्षित केलेले असते. याउलट, ऑटोमॅटिक स्पीच रिकॉग्निशन (ASR) सिस्टम वापरकर्त्याचा आवाज मजकुरात रूपांतरित करण्यासाठी त्याचे विश्लेषण करते.
म्युझिक इन्फॉर्मेशन रिट्रीव्हल (MIR): स्पॉटिफाईसारख्या (Spotify) सिस्टम त्यांच्या संगीत कॅटलॉगचे (catalog) गाण्यांची वैशिष्ट्ये (टेम्पो, जॉनर, मूड) समजून घेण्यासाठी सखोल विश्लेषण करतात. हे विश्लेषण नवीन प्लेलिस्ट (playlist) संश्लेषित करण्यासाठी किंवा संगीत शिफारस करण्यासाठी वापरले जाऊ शकते.
जनरेटिव्ह आर्ट अँड म्युझिक: आधुनिक एआय मॉडेल (AI model) संगीत किंवा ध्वनीचे प्रचंड डेटासेटचे विश्लेषण करू शकतात आणि नंतर त्याच शैलीमध्ये पूर्णपणे नवीन, मूळ भाग संश्लेषित करू शकतात. हे विश्लेषण-नंतर-संश्लेषण प्रतिमानाचे थेट ॲप्लिकेशन (application) आहे.
गेम ऑडिओ: प्रगत गेम ऑडिओ इंजिन (audio engine) रिअल-टाइममध्ये आवाज संश्लेषित करतात. ते गेमच्या भौतिकशास्त्र इंजिनचे (physics engine) (उदा., कारचा वेग) विश्लेषण करू शकतात आणि त्या पॅरामीटर्सचा (parameters) वापर करून संबंधित इंजिनचा आवाज संश्लेषित करू शकतात, ज्यामुळे एक परिपूर्ण प्रतिसाद देणारा आणि डायनॅमिक ऑडिओ अनुभव तयार होतो.

निष्कर्ष: डिजिटल ऑडिओमधील आपला प्रवास

आम्ही रचनात्मकतेपासून निर्मितीपर्यंत, आवाज समजून घेण्यापासून ते तयार करण्यापर्यंत प्रवास केला आहे. आम्ही पाहिले आहे की ध्वनी विश्लेषण सखोलपणे ऐकण्यासाठी, ऑडिओच्या क्षणिक गुणांचे परिमाणीकरण (quantify) करण्यासाठी आणि त्यांना डेटामध्ये रूपांतरित करण्यासाठी साधने प्रदान करते. आम्ही हे देखील पाहिले आहे की ध्वनी संश्लेषण आपल्याला केवळ गणितीय तर्काने (mathematical logic) नवीन ध्वनी जग तयार करण्यासाठी ध्वनी रंगांची पॅलेट (palette) देते.

यातील मुख्य मुद्दा असा आहे की हे विरोधाभासी शक्ती नाहीत, तर एकाच नाण्याच्या दोन बाजू आहेत. सर्वोत्कृष्ट ऑडिओ ॲप्लिकेशन्स (audio applications), सर्वात सूक्ष्म संशोधन आणि सर्वात सर्जनशील कलात्मक प्रयत्न बहुतेक वेळा या दोन क्षेत्रांच्या छेदनबिंदूवर असतात. आम्ही विश्लेषणाद्वारे काढलेली वैशिष्ट्ये आपल्या सिंथेसायझरसाठी (synthesizers) पॅरामीटर्स (parameters) बनतात. आम्ही सिंथेसायझरने तयार केलेले आवाज आपल्या विश्लेषण मॉडेलसाठी डेटा बनतात.

पायथन आणि लिब्रोसा, सायपी आणि नम्पीसारख्या लायब्ररींच्या अविश्वसनीय इकोसिस्टमसह (ecosystem) या आकर्षक जगाचा शोध घेण्यासाठी प्रवेशाचा अडथळा पूर्वीपेक्षा कमी झाला आहे. या लेखातील उदाहरणे केवळ एक प्रारंभिक बिंदू आहेत. खरी उत्सुकता तेव्हा सुरू होते जेव्हा आपण ही तंत्रे एकत्र करण्यास, एकाचे आउटपुट दुसर्‍याच्या इनपुटमध्ये देण्यास आणि आवाजाच्या स्वरूपाबद्दल स्वतःचे प्रश्न विचारण्यास सुरुवात करतो.

म्हणून, आपल्याला आवडणारा आवाज लोड करा. त्याचे स्पेक्ट्रम ॲनालाइज (analyze) करा. त्याचे अनुकरण करणारा आवाज संश्लेषित करण्याचा प्रयत्न करा. हजारो आवाजांच्या प्रवासाची सुरुवात एका ओळीच्या कोडने होते.