20. september 2025Eesti

Põhjalik juhend NumPy lineaaralgebra võimalustest, hõlmates maatriksoperatsioone, dekompositsioonitehnikaid ja praktilisi rakendusi andmeteadlastele üle maailma.

NumPy Lineaaralgebra: Maatriksoperatsioonid ja dekompositsioon

NumPy, lühidalt Numerical Python, on Pythoni teadusliku arvutamise põhiline pakett. See pakub võimsaid tööriistu massiivide ja maatriksitega töötamiseks, muutes selle oluliseks teegiks andmeteadlastele, masinõppe inseneridele ja teadlastele kogu maailmas. See juhend sukeldub sügavalt NumPy lineaaralgebra võimalustesse, keskendudes maatriksoperatsioonidele ja dekompositsioonitehnikatele koos praktiliste näidetega, mis on olulised rahvusvahelistele andmeteaduse väljakutsetele.

Miks on lineaaralgebra andmeteaduse jaoks ülioluline

Lineaaralgebra on paljude andmeteaduse algoritmide ja tehnikate alus. Alates andmete eeltöötlusest ja dimensioonide vähendamisest kuni mudeli koolituse ja hindamiseni on kindel arusaam lineaaralgebra mõistetest hädavajalik. Täpsemalt, seda kasutatakse laialdaselt järgmistes valdkondades:

Andmete esitus: Andmete esitamine vektorite ja maatriksitena võimaldab tõhusat salvestamist ja manipuleerimist.
Masinõpe: Algoritmid nagu lineaarne regressioon, tugivektormasinad (SVM) ja peakomponentide analüüs (PCA) toetuvad suuresti lineaaralgebrale.
Pilditöötlus: Pilte saab esitada maatriksitena, mis võimaldab erinevaid piltide manipuleerimise ja analüüsi tehnikaid.
Soovitussüsteemid: Maatriksfaktoreerimise tehnikaid kasutatakse isikupärastatud soovituste koostamiseks.
Võrguanalüüs: Võrkude esitamine külgnevusmaatriksitena võimaldab analüüsida võrgustruktuuri ja omadusi.

NumPy `linalg` moodul: Teie lineaaralgebra tööriistakomplekt

NumPy pakub spetsiaalset moodulit nimega `linalg` (lühidalt lineaaralgebra), mis pakub laia valikut funktsioone lineaaralgebra operatsioonide tegemiseks. See moodul on kõrgelt optimeeritud ja kasutab tõhusaid numbrilisi algoritme, muutes selle sobivaks suurte andmekogumite käsitlemiseks. Moodulile `linalg` juurdepääsuks peate esmalt importima NumPy:

            import numpy as np

Põhilised maatriksoperatsioonid

Alustame mõnede põhiliste maatriksoperatsioonidega, kasutades NumPy:

Maatriksi loomine

Maatriksite loomiseks saate kasutada NumPy massiive. Siin on mõned näited:

            # 2x3 maatriksi loomine
A = np.array([[1, 2, 3], [4, 5, 6]])
print("Maatriks A:")
print(A)

# 3x2 maatriksi loomine
B = np.array([[7, 8], [9, 10], [11, 12]])
print("\nMaatriks B:")
print(B)

Maatriksi liitmine ja lahutamine

Maatriksi liitmine ja lahutamine on elementide kaupa tehtavad operatsioonid ja nõuavad sama kujuga maatriksit.

            # Maatriksi liitmine
C = A + np.array([[1,1,1],[1,1,1]])
print("\nMaatriks C (A + [[1,1,1],[1,1,1]]):")
print(C)

# Maatriksi lahutamine
D = A - np.array([[1,1,1],[1,1,1]])
print("\nMaatriks D (A - [[1,1,1],[1,1,1]]):")
print(D)


# Näide, mis demonstreerib kuju mittevastavust (põhjustab vea)
# A + B # See viskab vea, kuna A-l ja B-l on erinevad kujud

Maatriksi korrutamine

Maatriksi korrutamine on keerulisem operatsioon kui liitmine või lahutamine. Esimene maatriksi veergude arv peab võrduma teise maatriksi ridade arvuga. NumPy pakub maatrikskorrutamiseks funktsiooni `np.dot()` või operaatorit `@`.

            # Maatriksi korrutamine kasutades np.dot()
C = np.dot(A, B)
print("\nMaatriks C (A * B kasutades np.dot()):")
print(C)

# Maatriksi korrutamine kasutades @ operaatorit (Python 3.5+)
D = A @ B
print("\nMaatriks D (A @ B):")
print(D)

Elementide kaupa korrutamine (Hadamardi korrutis)

Kui soovite teha elementide kaupa korrutamist, saate NumPy massiivides kasutada otse operaatorit `*`. Pange tähele, et maatriksitel peab olema sama kuju.

            # Elementide kaupa korrutamine
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
C = A * B
print("\nElementide kaupa korrutamine (A * B):")
print(C)

Maatriksi transponeerimine

Maatriksi transponeerimine saadakse selle ridade ja veergude vahetamisel. Saate kasutada atribuuti `.T` või funktsiooni `np.transpose()`.

            # Maatriksi transponeerimine
print("\nMaatriks A:")
print(A)
print("\nA transponeering (A.T):")
print(A.T)

print("\nA transponeering kasutades np.transpose(A):")
print(np.transpose(A))

Maatriksi pöördväärtus

Ruutmaatriksi pöördväärtus (kui see on olemas) on maatriks, mis algse maatriksiga korrutades annab tulemuseks ühikmaatriksi. Pöördväärtuse arvutamiseks saate kasutada funktsiooni `np.linalg.inv()`.

            # Maatriksi pöördväärtus
A = np.array([[1, 2], [3, 4]])

try:
  A_inv = np.linalg.inv(A)
  print("\nA pöördväärtus:")
  print(A_inv)

  # Kontrollige, kas A * A_inv on ligikaudu ühikmaatriks
  identity = np.dot(A, A_inv)
  print("\nA * A_inv:")
  print(identity)

except np.linalg.LinAlgError:
  print("\nMaatriks A on singulaarne (mittepööratav).")


# Näide singulaarsest maatriksist (mittepööratav)
B = np.array([[1, 2], [2, 4]])

try:
  B_inv = np.linalg.inv(B)
  print("\nB pöördväärtus:")
  print(B_inv)

except np.linalg.LinAlgError:
  print("\nMaatriks B on singulaarne (mittepööratav).")

Maatriksi determinant

Determinant on skalaarväärtus, mida saab arvutada ruutmaatriksi elementidest ja mis kodeerib maatriksi poolt kirjeldatud lineaarse teisenduse teatud omadusi. See on kasulik pööratavuse kontrollimiseks. `np.linalg.det()` arvutab selle

            A = np.array([[1, 2], [3, 4]])
determinant = np.linalg.det(A)
print("\nA determinant:", determinant)

Maatriksi dekompositsioonitehnikad

Maatriksi dekompositsioon (tuntud ka kui maatriksfaktoreerimine) on maatriksi jagamine lihtsamate maatriksite korrutiseks. Neid tehnikaid kasutatakse laialdaselt dimensioonide vähendamisel, soovitusüsteemides ja lineaarsete süsteemide lahendamisel.

Singulaarväärtuste dekompositsioon (SVD)

Singulaarväärtuste dekompositsioon (SVD) on võimas tehnika, mis dekomponeerib maatriksi kolmeks maatriksiks: U, S ja V^T, kus U ja V on ortogonaalsed maatriksid ja S on diagonaalmaatriks, mis sisaldab singulaarväärtusi. SVD-d saab rakendada igale maatriksile (isegi mitte-ruutmaatriksitele).

NumPy pakub SVD tegemiseks funktsiooni `np.linalg.svd()`.

            # Singulaarväärtuste dekompositsioon
A = np.array([[1, 2, 3], [4, 5, 6]])
U, s, V = np.linalg.svd(A)

print("\nU:")
print(U)
print("\ns:")
print(s)
print("\nV:")
print(V)

#Rekonstrueeri A
S = np.zeros(A.shape)
S[:A.shape[0], :A.shape[0]] = np.diag(s)
B = U.dot(S.dot(V))
print("\nRekonstrueeritud A:")
print(B)

SVD rakendused:

Dimensioonide vähendamine: Säilitades ainult suurimad singulaarväärtused ja vastavad singulaarvektorid, saate vähendada andmete dimensioone, säilitades samal ajal kõige olulisema teabe. See on peakomponentide analüüsi (PCA) alus.
Pildi pakkimine: SVD-d saab kasutada piltide pakkimiseks, salvestades ainult kõige olulisemad singulaarväärtused ja vektorid.
Soovitussüsteemid: SVD-l põhinevaid maatriksfaktoreerimise tehnikaid kasutatakse kasutajate eelistuste ennustamiseks ja isikupärastatud soovituste koostamiseks.

Näide: Pildi pakkimine kasutades SVD

Kujutage ette pilti, mida esitatakse maatriksina. SVD rakendamine ja ainult singulaarväärtuste alamhulga säilitamine võimaldab pildi pakkimist minimaalse infokao korral. See tehnika on eriti väärtuslik piltide edastamiseks piiratud ribalaiusega võrkudes arengumaades või salvestusruumi optimeerimiseks piiratud ressurssidega seadmetes kogu maailmas.

            # Importige vajalikud teegid (näide matplotlib abil pildi laadimiseks)
import matplotlib.pyplot as plt
from PIL import Image  # Piltide lugemiseks ja manipuleerimiseks

# Laadige pilt (asendage 'image.jpg' oma pildifailiga)
try:
    img = Image.open('image.jpg').convert('L') # Tagage lihtsuse huvides halltoon
    img_array = np.array(img)

    # Tehke SVD
    U, s, V = np.linalg.svd(img_array)

    # Valige säilitatavate singulaarväärtuste arv (kohandage soovitud pakkimiseks)
    k = 50 # Näide: säilitage 50 parimat singulaarväärtust

    # Rekonstrueerige pilt, kasutades ainult k parimat singulaarväärtust
    S = np.zeros(img_array.shape)
    S[:img_array.shape[0], :img_array.shape[0]] = np.diag(s)
    S = S[:, :k]
    V = V[:k, :]
    reconstructed_img = U.dot(S.dot(V))

    # Klõpsake väärtused pildi kuvamiseks kehtivasse vahemikku [0, 255]
    reconstructed_img = np.clip(reconstructed_img, 0, 255).astype('uint8')

    # Kuvage originaal- ja rekonstrueeritud pildid
    plt.figure(figsize=(10, 5))

    plt.subplot(1, 2, 1)
    plt.imshow(img_array, cmap='gray')
    plt.title('Originaalpilt')

    plt.subplot(1, 2, 2)
    plt.imshow(reconstructed_img, cmap='gray')
    plt.title(f'Rekonstrueeritud pilt (k={k})')

    plt.show()

except FileNotFoundError:
    print("Viga: image.jpg ei leitud. Veenduge, et pildifail asub samas kataloogis.")
except Exception as e:
    print(f"Ilmnes viga: {e}")

Oluline: Asendage `image.jpg` kehtiva pildifailinimega, mis asub teie praeguses kataloogis. Võimalik, et peate installima Pillow (`pip install Pillow`), kui teil seda juba pole. Samuti veenduge, et `matplotlib` on installitud (`pip install matplotlib`).

Omaväärtuste dekompositsioon

Omaväärtuste dekompositsioon dekomponeerib ruutmaatriksi selle omavektoriteks ja omaväärtusteks. Omavektorid on spetsiaalsed vektorid, mis maatriksiga korrutamisel muudavad ainult skaalat (mitte suunda), ja omaväärtused tähistavad skaleerimisfaktorit. See dekompositsioon töötab ainult ruutmaatriksitega.

NumPy pakub omaväärtuste dekompositsiooni tegemiseks funktsiooni `np.linalg.eig()`.

            # Omaväärtuste dekompositsioon
A = np.array([[1, 2], [2, 1]])
w, v = np.linalg.eig(A)

print("\nOmaväärtused:")
print(w)
print("\nOmavektorid:")
print(v)

# Kontrollige, kas A * v[:,0] = w[0] * v[:,0]
first_eigenvector = v[:,0]
first_eigenvalue = w[0]

result_left = np.dot(A, first_eigenvector)
result_right = first_eigenvalue * first_eigenvector

print("\nA * omavektor:")
print(result_left)
print("\nomaväärtus * omavektor:")
print(result_right)

# Demonstreerige maatriksi rekonstrueerimist
Q = v
R = np.diag(w)
B = Q @ R @ np.linalg.inv(Q)

print("\nRekonstrueeritud maatriks:")
print(B)

Omaväärtuste dekompositsiooni rakendused:

Peakomponentide analüüs (PCA): PCA kasutab omaväärtuste dekompositsiooni andmete peakomponentide (maksimaalse dispersiooni suunad) tuvastamiseks.
Vibratsioonanalüüs: Inseneritöös kasutatakse omaväärtuste dekompositsiooni konstruktsioonide loomulike sageduste ja vibratsioonirežiimide analüüsimiseks.
Google'i PageRank algoritm: PageRanki lihtsustatud versioon kasutab lingimaatriksi omaväärtusi veebilehtede olulisuse määramiseks.

LU dekompositsioon

LU dekompositsioon faktoriseerib ruutmaatriksi A alumiseks kolmnurkseks maatriksiks L ja ülemiseks kolmnurkseks maatriksiks U, nii et A = LU. Seda dekompositsiooni kasutatakse sageli lineaarsete võrrandisüsteemide tõhusaks lahendamiseks.

            from scipy.linalg import lu

A = np.array([[2, 5, 8, 7], [5, 2, 2, 8], [7, 5, 6, 6], [5, 4, 4, 8]])
P, L, U = lu(A)

print("\nP (permutatsioonmaatriks):")
print(P)
print("\nL (alumine kolmnurkmaatriks):")
print(L)
print("\nU (ülemine kolmnurkmaatriks):")
print(U)

#Kontrollige, kas P @ A == L @ U
print("\nP @ A:")
print(P @ A)
print("\nL @ U:")
print(L @ U)

LU dekompositsiooni rakendused:

Lineaarsete süsteemide lahendamine: LU dekompositsioon on väga tõhus viis lineaarsete võrrandisüsteemide lahendamiseks, eriti kui peate süsteemi korduvalt lahendama sama maatriksi, kuid erinevate parempoolsete vektoritega.
Determinantide arvutamine: A determinandi saab hõlpsasti arvutada L ja U determinandist.

Lineaarsete võrrandisüsteemide lahendamine

Üks levinumaid lineaaralgebra rakendusi on lineaarsete võrrandisüsteemide lahendamine. NumPy pakub selleks funktsiooni `np.linalg.solve()`.

Vaatleme järgmist võrrandisüsteemi:

3x + y = 9
x + 2y = 8

Seda saab esitada maatrikskujul järgmiselt:

Ax = b

kus:
A = [[3, 1],
     [1, 2]]
x = [[x],
     [y]]
b = [[9],
     [8]]

Saate selle süsteemi lahendada, kasutades funktsiooni `np.linalg.solve()`:

            # Lineaarsete võrrandisüsteemi lahendamine
A = np.array([[3, 1], [1, 2]])
b = np.array([9, 8])

x = np.linalg.solve(A, b)
print("\nLahendus:")
print(x)

Vähimruutude lahendused

Kui lineaarsete võrrandisüsteemil pole täpset lahendust (nt mürarikkade andmete või ülemääratud süsteemi tõttu), saate leida vähimruutude lahenduse, mis minimeerib vea. NumPy pakub selleks funktsiooni `np.linalg.lstsq()`.

            # Vähimruutude lahendus
A = np.array([[1, 2], [3, 4], [5, 6]])
b = np.array([3, 7, 11])

x, residuals, rank, s = np.linalg.lstsq(A, b, rcond=None)
print("\nVähimruutude lahendus:")
print(x)
print("\nJäägid:")
print(residuals)
print("\nA auaste:")
print(rank)
print("\nA singulaarväärtused:")
print(s)

Praktilised näited ja globaalsed rakendused

Finantsmodelleerimine

Lineaaralgebrat kasutatakse laialdaselt finantsmodelleerimisel portfelli optimeerimiseks, riskijuhtimiseks ja tuletisinstrumentide hinnakujunduseks. Näiteks Markowitzi portfelli optimeerimine kasutab maatriksoperatsioone, et leida varade optimaalne jaotus, mis minimeerib riski teatud tootluse taseme korral. Globaalsed investeerimisfirmad toetuvad nendele tehnikatele, et hallata miljardeid dollareid varades, kohanedes erinevate turutingimustega erinevates riikides.

Kliimamodelleerimine

Kliimamudelid hõlmavad sageli suurte osaliste diferentsiaalvõrrandite süsteemide lahendamist, mis diskretiseeritakse ja aproksimeeritakse lineaaralgebra tehnikate abil. Need mudelid simuleerivad keerulisi atmosfääri- ja ookeaniprotsesse, et ennustada kliimamuutuste mõju, teavitades poliitilisi otsuseid riiklikul ja rahvusvahelisel tasandil. Teadlased kogu maailmas kasutavad neid mudeleid kliimamuutuste mõjude mõistmiseks ja leevendamiseks.

Sotsiaalvõrgustike analüüs

Sotsiaalvõrgustikke saab esitada graafikutena ja lineaaralgebrat saab kasutada nende struktuuri ja omaduste analüüsimiseks. Näiteks PageRanki algoritm (nagu varem mainitud) kasutab omaväärtuste dekompositsiooni võrgu sõlmede (nt veebilehed või kasutajad) olulisuse järjestamiseks. Sotsiaalmeedia ettevõtted kasutavad neid analüüse, et mõista kasutajate käitumist, tuvastada mõjukaid kasutajaid ja suunata reklaami tõhusalt.

Soovitussüsteemid (Globaalne e-kaubandus)

Globaalsed e-kaubanduse platvormid, mis tegutsevad mitmes riigis ja keeles, kasutavad isikupärastatud soovitusüsteemide koostamiseks maatriksfaktoreerimise tehnikaid. Analüüsides kasutajate ostuajalugu ja toodete hinnanguid, ennustavad need süsteemid, millistest toodetest võiks kasutaja olla huvitatud, parandades klientide rahulolu ja suurendades müüki. SVD ja sarnased meetodid on paljude nende süsteemide keskmes.

Parimad tavad ja jõudluskaalutlused

Vektoreerimine: Kasutage NumPy vektoriseeritud operatsioone alati, kui võimalik, et vältida selgesõnalisi tsükleid, mis on tavaliselt aeglasemad.
Andmetüübid: Valige sobivad andmetüübid (nt `float32` asemel `float64`), et vähendada mälukasutust ja parandada jõudlust, eriti suurte andmekogumite korral.
BLAS/LAPACK teegid: NumPy toetub tõhusate numbriliste arvutuste jaoks optimeeritud BLAS (Basic Linear Algebra Subprograms) ja LAPACK (Linear Algebra Package) teekidele. Veenduge, et teil on installitud hästi optimeeritud BLAS/LAPACK juurutus (nt OpenBLAS, MKL).
Mälu haldamine: Olge suurte maatriksitega töötades tähelepanelik mälukasutuse suhtes. Vältige andmete tarbetute koopiate loomist.

Järeldus

NumPy lineaaralgebra võimalused pakuvad võimsa aluse paljudele andmeteaduse ülesannetele. Maatriksoperatsioonide, dekompositsioonitehnikate ja tõhusate kodeerimistavade valdamise abil saavad andmeteadlased lahendada keerulisi probleeme ja eraldada andmetest väärtuslikku teavet. Alates rahandusest ja kliimamodelleerimisest kuni sotsiaalvõrgustike analüüsi ja globaalse e-kaubanduseni on lineaaralgebra rakendused laiad ja kasvavad jätkuvalt.

Lisamaterjalid

NumPy dokumentatsioon: https://numpy.org/doc/stable/reference/routines.linalg.html
SciPy loengumärkmed: https://scipy-lectures.org/index.html
Lineaaralgebra õpikud: Otsige standardseid lineaaralgebra õpikuid autoritelt nagu Gilbert Strang või David C. Lay, et saada põhjalikum ülevaade alusteooriast.