16 września 2025Polski

Odkryj pakiet 'email' w Pythonie. Naucz się efektywnie tworzyć złożone wiadomości MIME i parsować przychodzące e-maile w celu ekstrakcji danych globalnie.

Opanowanie pakietu 'email' w Pythonie: Sztuka tworzenia wiadomości MIME i solidnego parsowania

E-mail pozostaje kamieniem węgielnym globalnej komunikacji, niezbędnym do korespondencji osobistej, operacji biznesowych i automatycznych powiadomień systemowych. Za każdym e-mailem w formacie rich-text, każdym załącznikiem i każdym starannie sformatowanym podpisem kryje się złożoność Multipurpose Internet Mail Extensions (MIME). Dla deweloperów, zwłaszcza tych pracujących w Pythonie, opanowanie programowego tworzenia i parsowania tych wiadomości MIME jest kluczową umiejętnością.

Wbudowany pakiet email w Pythonie zapewnia solidne i kompleksowe ramy do obsługi wiadomości e-mail. Nie służy on tylko do wysyłania prostego tekstu; został zaprojektowany, aby abstrahować od skomplikowanych szczegółów MIME, pozwalając na tworzenie zaawansowanych e-maili i wyodrębnianie konkretnych danych z przychodzących wiadomości z niezwykłą precyzją. Ten przewodnik zabierze Cię w głąb dwóch głównych aspektów tego pakietu: tworzenia wiadomości MIME do wysyłania oraz ich parsowania w celu ekstrakcji danych, oferując globalną perspektywę najlepszych praktyk.

Zrozumienie zarówno tworzenia, jak i parsowania jest kluczowe. Kiedy tworzysz wiadomość, w zasadzie definiujesz jej strukturę i treść, aby inny system mógł ją zinterpretować. Kiedy parsowanie, interpretujesz strukturę i treść zdefiniowaną przez inny system. Głębokie zrozumienie jednego znacznie pomaga w opanowaniu drugiego, prowadząc do bardziej odpornych i interoperacyjnych aplikacji e-mailowych.

Zrozumienie MIME: Kręgosłup nowoczesnych e-maili

Zanim zagłębimy się w specyfikę Pythona, istotne jest, aby zrozumieć, czym jest MIME i dlaczego jest tak ważne. Pierwotnie wiadomości e-mail były ograniczone do zwykłego tekstu (7-bitowe znaki ASCII). MIME, wprowadzone na początku lat 90., rozszerzyło możliwości e-maili, aby wspierać:

Znaki inne niż ASCII: Umożliwiając tekst w językach takich jak arabski, chiński, rosyjski czy jakikolwiek inny język używający znaków spoza zestawu ASCII.
Załączniki: Wysyłanie plików takich jak dokumenty, obrazy, audio i wideo.
Formatowanie tekstu sformatowanego (rich text): E-maile HTML z pogrubieniem, kursywą, kolorami i układami.
Wiele części: Łączenie zwykłego tekstu, HTML i załączników w jednej wiadomości e-mail.

MIME osiąga to poprzez dodawanie określonych nagłówków do wiadomości e-mail i strukturyzowanie jej treści na różne "części". Kluczowe nagłówki MIME, z którymi się spotkasz, to:

Content-Type: Określa typ danych w części (np. text/plain, text/html, image/jpeg, application/pdf, multipart/alternative). Często zawiera również parametr charset (np. charset=utf-8).
Content-Transfer-Encoding: Wskazuje, jak klient poczty e-mail powinien zdekodować treść (np. base64 dla danych binarnych, quoted-printable dla głównie tekstu z niektórymi znakami spoza ASCII).
Content-Disposition: Sugeruje, jak klient poczty odbiorcy powinien wyświetlić daną część (np. inline do wyświetlenia w treści wiadomości, attachment dla pliku do zapisania).

Pakiet `email` w Pythonie: Dogłębna analiza

Pakiet email w Pythonie to wszechstronna biblioteka przeznaczona do programowego tworzenia, parsowania i modyfikowania wiadomości e-mail. Jest zbudowana wokół koncepcji obiektów Message, które reprezentują strukturę e-maila.

Kluczowe moduły w pakiecie to:

email.message: Zawiera podstawową klasę EmailMessage, która jest głównym interfejsem do tworzenia i manipulowania wiadomościami e-mail. Jest to bardzo elastyczna klasa, która automatycznie obsługuje szczegóły MIME.
email.mime: Dostarcza starsze klasy (jak MIMEText, MIMEMultipart), które oferują bardziej jawną kontrolę nad strukturą MIME. Chociaż EmailMessage jest generalnie preferowana dla nowego kodu ze względu na swoją prostotę, zrozumienie tych klas może być korzystne.
email.parser: Oferuje klasy takie jak BytesParser i Parser do konwersji surowych danych e-mail (bajtów lub ciągów znaków) na obiekty EmailMessage.
email.policy: Definiuje polityki, które kontrolują, jak wiadomości e-mail są tworzone i parsowane, wpływając na kodowanie nagłówków, zakończenia linii i obsługę błędów.

W większości nowoczesnych zastosowań będziesz głównie wchodzić w interakcję z klasą email.message.EmailMessage zarówno do tworzenia, jak i jako sparsowany obiekt wiadomości. Jej metody znacznie upraszczają proces, który kiedyś był bardziej rozwlekły z użyciem starszych klas email.mime.

Tworzenie wiadomości MIME: Budowanie e-maili z precyzją

Tworzenie e-maili polega na składaniu różnych komponentów (tekstu, HTML, załączników) w prawidłową strukturę MIME. Klasa EmailMessage znacznie usprawnia ten proces.

Podstawowe e-maile tekstowe

Najprostszy e-mail to zwykły tekst. Możesz go utworzyć i ustawić podstawowe nagłówki bez wysiłku:


from email.message import EmailMessage

msg = EmailMessage()
msg['Subject'] = 'Greetings from Python'
msg['From'] = 'sender@example.com'
msg['To'] = 'recipient@example.com'
msg.set_content('Hello, this is a plain text email sent from Python.\n\nBest regards,\nYour Python Script')

print(msg.as_string())

Wyjaśnienie:

EmailMessage() tworzy pusty obiekt wiadomości.
Dostęp podobny do słownika (msg['Subject'] = ...) ustawia popularne nagłówki.
set_content() dodaje główną treść e-maila. Domyślnie wnioskuje Content-Type: text/plain; charset="utf-8".
as_string() serializuje wiadomość do formatu ciągu znaków odpowiedniego do wysłania przez SMTP lub zapisania do pliku.

Dodawanie treści HTML

Aby wysłać e-mail w formacie HTML, wystarczy określić typ zawartości podczas wywoływania set_content(). Dobrą praktyką jest dostarczenie alternatywnej wersji w postaci zwykłego tekstu dla odbiorców, których klienci poczty nie renderują HTML, lub ze względu na dostępność.


from email.message import EmailMessage

msg = EmailMessage()
msg['Subject'] = 'Your HTML Newsletter'
msg['From'] = 'newsletter@example.com'
msg['To'] = 'subscriber@example.com'

html_content = """
<html>
    <head></head>
    <body>
        <h1>Welcome to Our Global Update!</h1>
        <p>Dear Subscriber,</p>
        <p>This is your <strong>latest update</strong> from around the world.</p>
        <p>Visit our <a href="http://www.example.com">website</a> for more.</p>
        <p>Best regards,<br>The Team</p>
    </body>
</html>
"""

# Dodaj wersję HTML
msg.add_alternative(html_content, subtype='html')

# Dodaj alternatywną wersję tekstową
plain_text_content = (
    "Welcome to Our Global Update!\n\n"
    "Dear Subscriber,\n\n"
    "This is your latest update from around the world.\n"
    "Visit our website for more: http://www.example.com\n\n"
    "Best regards,\nThe Team"
)
msg.add_alternative(plain_text_content, subtype='plain')

print(msg.as_string())

Wyjaśnienie:

add_alternative() służy do dodawania różnych reprezentacji *tej samej* treści. Klient poczty wyświetli "najlepszą", jaką jest w stanie obsłużyć (zazwyczaj HTML).
To automatycznie tworzy strukturę multipart/alternative MIME.

Obsługa załączników

Dołączanie plików jest proste przy użyciu add_attachment(). Możesz dołączyć dowolny typ pliku, a pakiet zajmie się odpowiednimi typami MIME i kodowaniami (zazwyczaj base64).


from email.message import EmailMessage
from pathlib import Path

# Utwórz pliki tymczasowe do demonstracji
Path('report.pdf').write_bytes(b'%PDF-1.4\n1 0 obj<</Type/Catalog/Pages 2 0 R>>endobj\n2 0 obj<</Count 0>>endobj\nxref\n0 3\n0000000000 65535 f\n0000000009 00000 n\n0000000052 00000 n\ntrailer<</Size 3/Root 1 0 R>>startxref\n104\n%%EOF') # Bardzo podstawowy, nieprawidłowy placeholder PDF
Path('logo.png').write_bytes(b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\x01\x00\x00\x00\x01\x08\x06\x00\x00\x00\x1f\x15\xc4\x89\x00\x00\x00\x0cIDAT\x08\x99c`\x00\x00\x00\x02\x00\x01\xe2!\x00\xa0\x00\x00\x00\x00IEND\xaeB`\x82') # Placeholder przezroczystego PNG 1x1

msg = EmailMessage()
msg['Subject'] = 'Important Document and Image'
msg['From'] = 'sender@example.com'
msg['To'] = 'recipient@example.com'
msg.set_content('Please find the attached report and company logo.')

# Dołącz plik PDF
with open('report.pdf', 'rb') as f:
    file_data = f.read()
    msg.add_attachment(
        file_data,
        maintype='application',
        subtype='pdf',
        filename='Annual_Report_2024.pdf'
    )

# Dołącz plik obrazu
with open('logo.png', 'rb') as f:
    image_data = f.read()
    msg.add_attachment(
        image_data,
        maintype='image',
        subtype='png',
        filename='CompanyLogo.png'
    )

print(msg.as_string())

# Usuń pliki tymczasowe
Path('report.pdf').unlink()
Path('logo.png').unlink()

Wyjaśnienie:

add_attachment() przyjmuje surowe bajty zawartości pliku.
maintype i subtype określają typ MIME (np. application/pdf, image/png). Są one kluczowe, aby klient poczty odbiorcy poprawnie zidentyfikował i obsłużył załącznik.
filename dostarcza nazwę, pod którą załącznik zostanie zapisany przez odbiorcę.
To automatycznie tworzy strukturę multipart/mixed.

Tworzenie wiadomości wieloczęściowych

Gdy masz wiadomość z treścią HTML, alternatywną wersją tekstową oraz osadzonymi obrazami lub powiązanymi plikami, potrzebujesz bardziej złożonej struktury wieloczęściowej. Klasa EmailMessage obsługuje to inteligentnie za pomocą add_related() i add_alternative().

Częstym scenariuszem jest e-mail HTML z obrazem osadzonym bezpośrednio w HTML (obraz "inline"). Używa się do tego multipart/related.


from email.message import EmailMessage
from pathlib import Path

# Utwórz tymczasowy plik obrazu do demonstracji (przezroczysty PNG 1x1)
Path('banner.png').write_bytes(b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\x01\x00\x00\x00\x01\x08\x06\x00\x00\x00\x1f\x15\xc4\x89\x00\x00\x00\x0cIDAT\x08\x99c`\x00\x00\x00\x02\x00\x01\xe2!\x00\xa0\x00\x00\x00\x00IEND\xaeB`\x82')

msg = EmailMessage()
msg['Subject'] = 'Inline Image Example'
msg['From'] = 'sender@example.com'
msg['To'] = 'recipient@example.com'

# Wersja tekstowa (alternatywna)
plain_text = 'Check out our amazing banner!\n\n[Image: Banner.png]\n\nVisit our site.'
msg.set_content(plain_text, subtype='plain') # Ustaw początkową treść tekstową

# Wersja HTML (z CID dla obrazu osadzonego)
html_content = """
<html>
    <head></head>
    <body>
        <h1>Our Latest Offer!</h1>
        <p>Dear Customer,</p>
        <p>Don't miss out on our special global promotion:</p>
        <img src="cid:my-banner-image" alt="Promotion Banner">
        <p>Click <a href="http://www.example.com">here</a> to learn more.</p>
    </body>
</html>
"""

msg.add_alternative(html_content, subtype='html') # Dodaj alternatywę HTML

# Dodaj obraz osadzony (treść powiązana)
with open('banner.png', 'rb') as img_file:
    image_data = img_file.read()
    msg.add_related(
        image_data,
        maintype='image',
        subtype='png',
        cid='my-banner-image' # Ten CID odpowiada 'src' w HTML
    )

print(msg.as_string())

# Usuń plik tymczasowy
Path('banner.png').unlink()

Wyjaśnienie:

set_content() ustanawia początkową treść (tutaj, zwykły tekst).
add_alternative() dodaje wersję HTML, tworząc strukturę multipart/alternative, która zawiera części tekstową i HTML.
add_related() jest używane dla treści, która jest "powiązana" z jedną z części wiadomości, zazwyczaj dla obrazów osadzonych w HTML. Przyjmuje parametr cid (Content-ID), który jest następnie odwoływany w tagu HTML <img src="cid:my-banner-image">.
Ostateczna struktura będzie typu multipart/mixed (jeśli byłyby zewnętrzne załączniki) zawierająca część multipart/alternative, która z kolei zawiera część multipart/related. Część multipart/related zawiera HTML i osadzony obraz. Klasa EmailMessage obsługuje tę złożoność zagnieżdżania za Ciebie.

Kodowanie i zestawy znaków dla globalnego zasięgu

W przypadku komunikacji międzynarodowej prawidłowe kodowanie znaków jest najważniejsze. Pakiet email domyślnie zdecydowanie preferuje użycie UTF-8, który jest uniwersalnym standardem do obsługi różnorodnych zestawów znaków z całego świata.


from email.message import EmailMessage

msg = EmailMessage()
msg['Subject'] = 'Global Characters: こんにちは, Привет, नमस्ते'
msg['From'] = 'global_sender@example.com'
msg['To'] = 'global_recipient@example.com'

# Znaki japońskie, rosyjskie i hindi
content = "This message contains diverse global characters:\n"
content += "こんにちは (Japanese)\n"
content += "Привет (Russian)\n"
content += "नमस्ते (Hindi)\n\n"
content += "The 'email' package handles UTF-8 gracefully."

msg.set_content(content)

print(msg.as_string())

Wyjaśnienie:

Gdy set_content() otrzymuje ciąg znaków Pythona, automatycznie koduje go do UTF-8 i ustawia nagłówek Content-Type: text/plain; charset="utf-8".
Jeśli treść tego wymaga (np. zawiera wiele znaków spoza ASCII), może również zastosować Content-Transfer-Encoding: quoted-printable lub base64, aby zapewnić bezpieczną transmisję przez starsze systemy pocztowe. Pakiet obsługuje to automatycznie zgodnie z wybraną polityką.

Niestandardowe nagłówki i polityki

Możesz dodać dowolny niestandardowy nagłówek do e-maila. Polityki (z email.policy) definiują, jak obsługiwane są wiadomości, wpływając na aspekty takie jak kodowanie nagłówków, zakończenia linii i obsługa błędów. Domyślna polityka jest zazwyczaj dobra, ale możesz wybrać `SMTP` dla ścisłej zgodności z SMTP lub zdefiniować własne.


from email.message import EmailMessage
from email import policy

msg = EmailMessage(policy=policy.SMTP)
msg['Subject'] = 'Email with Custom Header'
msg['From'] = 'info@example.org'
msg['To'] = 'user@example.org'
msg['X-Custom-Header'] = 'This is a custom value for tracking'
msg['Reply-To'] = 'support@example.org'
msg.set_content('This email demonstrates custom headers and policies.')

print(msg.as_string())

Wyjaśnienie:

Użycie policy=policy.SMTP zapewnia ścisłą zgodność ze standardami SMTP, co może być kluczowe dla dostarczalności.
Niestandardowe nagłówki dodaje się tak samo jak standardowe. Często zaczynają się od X-, aby oznaczyć niestandardowe nagłówki.

Parsowanie wiadomości MIME: Ekstrakcja informacji z przychodzących e-maili

Parsowanie polega na pobraniu surowych danych e-maila (zazwyczaj otrzymanych przez IMAP lub z pliku) i przekształceniu ich w obiekt `EmailMessage`, który można następnie łatwo inspekcjonować i manipulować.

Ładowanie i wstępne parsowanie

Zazwyczaj otrzymasz e-maile jako surowe bajty. Do tego celu używa się email.parser.BytesParser (lub funkcji pomocniczych email.message_from_bytes()).


from email.parser import BytesParser
from email.policy import default

raw_email_bytes = b"""
From: sender@example.com
To: recipient@example.com
Subject: Test Email with Basic Headers
Date: Mon, 1 Jan 2024 10:00:00 +0000
Content-Type: text/plain; charset="utf-8"

This is the body of the email.
It's a simple test.
"""

# Użycie BytesParser
parser = BytesParser(policy=default)
msg = parser.parsebytes(raw_email_bytes)

# Lub używając funkcji pomocniczej
# from email import message_from_bytes
# msg = message_from_bytes(raw_email_bytes, policy=default)

print(f"Subject: {msg['subject']}")
print(f"From: {msg['from']}")
print(f"Content-Type: {msg['Content-Type']}")

Wyjaśnienie:

BytesParser przyjmuje surowe dane bajtowe (w taki sposób przesyłane są e-maile) i zwraca obiekt EmailMessage.
policy=default określa reguły parsowania.

Dostęp do nagłówków

Nagłówki są łatwo dostępne za pomocą kluczy podobnych do słownikowych. Pakiet automatycznie obsługuje dekodowanie zakodowanych nagłówków (np. tematów z międzynarodowymi znakami).


# ... (używając obiektu 'msg' z poprzedniego przykładu parsowania)

print(f"Date: {msg['date']}")
print(f"Message ID: {msg['Message-ID'] if 'Message-ID' in msg else 'N/A'}")

# Obsługa wielu nagłówków (np. nagłówków 'Received')
# from email.message import EmailMessage # Jeśli jeszcze nie zaimportowano
# from email import message_from_string # Dla szybkiego przykładu z ciągiem znaków

multi_header_email = message_from_string(
    """
From: a@example.com
To: b@example.com
Subject: Multi-header Test
Received: from client.example.com (client.example.com [192.168.1.100])
        by server.example.com (Postfix) with ESMTP id 123456789
        for <b@example.com>; Mon, 1 Jan 2024 10:00:00 +0000 (GMT)
Received: from mx.another.com (mx.another.com [192.168.1.101])
        by server.example.com (Postfix) with ESMTP id 987654321
        for <b@example.com>; Mon, 1 Jan 2024 09:59:00 +0000 (GMT)

Body content here.
"""
)

received_headers = multi_header_email.get_all('received')
if received_headers:
    print("\nReceived Headers:")
    for header in received_headers:
        print(f"- {header}")

Wyjaśnienie:

Dostęp do nagłówka zwraca jego wartość jako ciąg znaków.
get_all('header-name') jest przydatne dla nagłówków, które mogą pojawić się wielokrotnie (jak Received).
Pakiet obsługuje dekodowanie nagłówków, więc wartości takie jak Subject: =?utf-8?Q?Global_Characters:_=E3=81=93=E3=82=93=E3=81=AB=E3=81=A1=E3=81=AF?= są automatycznie konwertowane na czytelne ciągi znaków.

Ekstrakcja treści (body)

Ekstrakcja właściwej treści wiadomości wymaga sprawdzenia, czy wiadomość jest wieloczęściowa. W przypadku wiadomości wieloczęściowych iteruje się po jej częściach.


from email.message import EmailMessage
from email import message_from_string

multipart_email_raw = """
From: multi@example.com
To: user@example.com
Subject: Test Multipart Email
Content-Type: multipart/alternative; boundary="_----------=_12345"

--_----------=_12345
Content-Type: text/plain; charset="utf-8"

Hello from the plain text part!

--_----------=_12345
Content-Type: text/html; charset="utf-8"

<html>
<body>
<h1>Hello from the HTML part!</h1>
<p>This is a <strong>rich text</strong> email.</p>
</body>
</html>

--_----------=_12345--
"""

msg = message_from_string(multipart_email_raw)

if msg.is_multipart():
    print("\n--- Multipart Email Body ---")
    for part in msg.iter_parts():
        content_type = part.get_content_type()
        charset = part.get_content_charset() or 'utf-8' # Domyślnie utf-8, jeśli nie określono
        payload = part.get_payload(decode=True) # Dekoduj bajty payloadu

        try:
            decoded_content = payload.decode(charset)
            print(f"Content-Type: {content_type}, Charset: {charset}\nContent:\n{decoded_content}\n")
        except UnicodeDecodeError:
            print(f"Content-Type: {content_type}, Charset: {charset}\nContent: (Binary or undecodable data)\n")
            # Obsłuż dane binarne lub spróbuj kodowania zapasowego
else:
    print("\n--- Single Part Email Body ---")
    charset = msg.get_content_charset() or 'utf-8'
    payload = msg.get_payload(decode=True)
    try:
        decoded_content = payload.decode(charset)
        print(f"Content-Type: {msg.get_content_type()}, Charset: {charset}\nContent:\n{decoded_content}\n")
    except UnicodeDecodeError:
        print(f"Content: (Binary or undecodable data)\n")

Wyjaśnienie:

is_multipart() określa, czy e-mail ma wiele części.
iter_parts() iteruje przez wszystkie podczęści wiadomości wieloczęściowej.
get_content_type() zwraca pełny typ MIME (np. text/plain).
get_content_charset() wyodrębnia zestaw znaków z nagłówka Content-Type.
get_payload(decode=True) jest kluczowe: zwraca *zdekodowaną* treść jako bajty. Następnie musisz .decode() te bajty przy użyciu odpowiedniego zestawu znaków, aby uzyskać ciąg znaków Pythona.

Obsługa załączników podczas parsowania

Załączniki są również częściami wiadomości wieloczęściowej. Można je zidentyfikować za pomocą nagłówka Content-Disposition i zapisać ich zdekodowany payload.


from email.message import EmailMessage
from email import message_from_string
import os

# Przykładowy e-mail z prostym załącznikiem
email_with_attachment = """
From: attach@example.com
To: user@example.com
Subject: Document Attached
MIME-Version: 1.0
Content-Type: multipart/mixed; boundary="_----------=_XYZ"

--_----------=_XYZ
Content-Type: text/plain; charset="utf-8"

Here is your requested document.

--_----------=_XYZ
Content-Type: application/pdf
Content-Transfer-Encoding: base64
Content-Disposition: attachment; filename="document.pdf"

JVBERi0xLjQKMSAwIG9iagpbL1BERi9UZXh0L0ltYWdlQy9JbWFnZUkvSW1hZ0VCXQplbmRvYmoK

--_----------=_XYZ--
"""

msg = message_from_string(email_with_attachment)

output_dir = 'parsed_attachments'
os.makedirs(output_dir, exist_ok=True)

print("\n--- Processing Attachments ---")
for part in msg.iter_attachments():
    filename = part.get_filename()
    if filename:
        filepath = os.path.join(output_dir, filename)
        try:
            with open(filepath, 'wb') as f:
                f.write(part.get_payload(decode=True))
            print(f"Saved attachment: {filepath} (Type: {part.get_content_type()})")
        except Exception as e:
            print(f"Error saving {filename}: {e}")
    else:
        print(f"Found an attachment without a filename (Content-Type: {part.get_content_type()})")

# Usuń katalog wyjściowy
# import shutil
# shutil.rmtree(output_dir)

Wyjaśnienie:

iter_attachments() w szczególności zwraca części, które są prawdopodobnie załącznikami (tj. mają nagłówek Content-Disposition: attachment lub nie są inaczej sklasyfikowane).
get_filename() wyodrębnia nazwę pliku z nagłówka Content-Disposition.
part.get_payload(decode=True) pobiera surową zawartość binarną załącznika, już zdekodowaną z base64 lub quoted-printable.

Dekodowanie kodowań i zestawów znaków

Pakiet email wykonuje doskonałą pracę, automatycznie dekodując popularne kodowania transferowe (jak base64, quoted-printable), gdy wywołujesz get_payload(decode=True). W przypadku samej treści tekstowej próbuje użyć zestawu znaków charset określonego w nagłówku Content-Type. Jeśli zestaw znaków nie jest określony lub jest nieprawidłowy, może być konieczne eleganckie obsłużenie tego.


from email.message import EmailMessage
from email import message_from_string

# Przykład z potencjalnie problematycznym zestawem znaków
email_latin1 = """
From: legacy@example.com
To: new_system@example.com
Subject: Special characters: àéíóú
Content-Type: text/plain; charset="iso-8859-1"

This message contains Latin-1 characters: àéíóú
"""

msg = message_from_string(email_latin1)

if msg.is_multipart():
    for part in msg.iter_parts():
        payload = part.get_payload(decode=True)
        charset = part.get_content_charset() or 'utf-8'
        try:
            print(f"Decoded (Charset: {charset}): {payload.decode(charset)}")
        except UnicodeDecodeError:
            print(f"Failed to decode with {charset}. Trying fallback...")
            # Powrót do popularnego zestawu znaków lub 'latin-1', jeśli jest oczekiwany
            print(f"Decoded (Fallback Latin-1): {payload.decode('latin-1', errors='replace')}")
else:
    payload = msg.get_payload(decode=True)
    charset = msg.get_content_charset() or 'utf-8'
    try:
        print(f"Decoded (Charset: {charset}): {payload.decode(charset)}")
    except UnicodeDecodeError:
        print(f"Failed to decode with {charset}. Trying fallback...")
        print(f"Decoded (Fallback Latin-1): {payload.decode('latin-1', errors='replace')}")

Wyjaśnienie:

Zawsze próbuj używać zestawu znaków określonego w nagłówku Content-Type.
Użyj bloku try-except UnicodeDecodeError dla solidności, zwłaszcza gdy masz do czynienia z e-mailami z różnorodnych i potencjalnie niestandardowych źródeł.
errors='replace' lub errors='ignore' można użyć z .decode() do obsługi znaków, których nie można zmapować na docelowe kodowanie, zapobiegając awariom.

Zaawansowane scenariusche parsowania

E-maile w świecie rzeczywistym mogą być bardzo złożone, z zagnieżdżonymi strukturami wieloczęściowymi. Rekurencyjna natura pakietu email sprawia, że nawigacja po nich jest prosta. Możesz połączyć is_multipart() z iter_parts(), aby przemierzać głęboko zagnieżdżone wiadomości.


from email.message import EmailMessage
from email import message_from_string

def parse_email_part(part, indent=0):
    prefix = "  " * indent
    content_type = part.get_content_type()
    charset = part.get_content_charset() or 'N/A'
    print(f"{prefix}Part Type: {content_type}, Charset: {charset}")

    if part.is_multipart():
        for subpart in part.iter_parts():
            parse_email_part(subpart, indent + 1)
    elif part.get_filename(): # To jest załącznik
        print(f"{prefix}  Attachment: {part.get_filename()} (Size: {len(part.get_payload(decode=True))} bytes)")
    else: # To jest zwykła część body text/html
        payload = part.get_payload(decode=True)
        try:
            decoded_content = payload.decode(charset)
            # print(f"{prefix}  Content (first 100 chars): {decoded_content[:100]}...") # Dla zwięzłości
        except UnicodeDecodeError:
            print(f"{prefix}  Content: (Binary or undecodable text)")

complex_email_raw = """
From: complex@example.com
To: receiver@example.com
Subject: Complex Email with HTML, Plain, and Attachment
MIME-Version: 1.0
Content-Type: multipart/mixed; boundary="outer_boundary"

--outer_boundary
Content-Type: multipart/alternative; boundary="inner_boundary"

--inner_boundary
Content-Type: text/plain; charset="utf-8"

Plain text content.

--inner_boundary
Content-Type: text/html; charset="utf-8"

<html><body><h2>HTML Content</h2></body></html>

--inner_boundary--

--outer_boundary
Content-Type: application/octet-stream
Content-Transfer-Encoding: base64
Content-Disposition: attachment; filename="data.bin"

SGVsbG8gV29ybGQh

--outer_boundary--
"""

msg = message_from_string(complex_email_raw)
print("\n--- Traversing Complex Email Structure ---")
parse_email_part(msg)

Wyjaśnienie:

Funkcja rekurencyjna parse_email_part demonstruje, jak przechodzić przez całe drzewo wiadomości, identyfikując części wieloczęściowe, załączniki i treść na każdym poziomie.
Ten wzorzec jest bardzo elastyczny do wyodrębniania określonych typów treści z głęboko zagnieżdżonych e-maili.

Tworzenie a parsowanie: Perspektywa porównawcza

Chociaż są to odrębne operacje, tworzenie i parsowanie to dwie strony tej samej monety: obsługi wiadomości MIME. Zrozumienie jednego nieuchronnie pomaga w drugim.

Tworzenie (Wysyłanie):

Cel: Prawidłowe składanie nagłówków, treści i załączników w zgodną ze standardami strukturę MIME.
Główne narzędzie: email.message.EmailMessage z metodami takimi jak set_content(), add_attachment(), add_alternative(), add_related().
Kluczowe wyzwania: Zapewnienie poprawnych typów MIME, zestawów znaków (zwłaszcza UTF-8 dla globalnego wsparcia), `Content-Transfer-Encoding` i prawidłowego formatowania nagłówków. Błędy mogą prowadzić do nieprawidłowego wyświetlania e-maili, uszkodzenia załączników lub oznaczania wiadomości jako spam.

Parsowanie (Odbieranie):

Cel: Rozkładanie surowego strumienia bajtów e-maila na jego składowe części, wyodrębnianie określonych nagłówków, treści i załączników.
Główne narzędzie: email.parser.BytesParser lub email.message_from_bytes(), a następnie nawigacja po wynikowym obiekcie EmailMessage za pomocą metod takich jak is_multipart(), iter_parts(), get_payload(), get_filename() i dostęp do nagłówków.
Kluczowe wyzwania: Obsługa źle sformatowanych e-maili, prawidłowa identyfikacja kodowań znaków (zwłaszcza gdy są niejednoznaczne), radzenie sobie z brakującymi nagłówkami i solidne wyodrębnianie danych z różnorodnych struktur MIME.

Wiadomość, którą tworzysz za pomocą `EmailMessage`, powinna być idealnie parsowalna przez `BytesParser`. Podobnie, zrozumienie struktury MIME uzyskanej podczas parsowania daje wgląd w to, jak samodzielnie budować złożone wiadomości.

Najlepsze praktyki w globalnej obsłudze e-maili z Pythonem

Dla aplikacji, które wchodzą w interakcję z globalną publicznością lub obsługują różnorodne źródła e-maili, rozważ następujące najlepsze praktyki:

Standaryzuj na UTF-8: Zawsze używaj UTF-8 dla całej treści tekstowej, zarówno podczas tworzenia, jak i oczekując go podczas parsowania. Jest to globalny standard kodowania znaków i pozwala unikać mojibake (zniekształconego tekstu).
Weryfikuj adresy e-mail: Przed wysłaniem zweryfikuj adresy e-mail odbiorców, aby zapewnić dostarczalność. Podczas parsowania bądź przygotowany na potencjalnie nieprawidłowe lub źle sformatowane adresy w nagłówkach `From`, `To` lub `Cc`.
Rygorystycznie testuj: Testuj tworzenie e-maili w różnych klientach pocztowych (Gmail, Outlook, Apple Mail, Thunderbird) i na różnych platformach, aby zapewnić spójne renderowanie HTML i załączników. W przypadku parsowania, testuj z szeroką gamą przykładowych e-maili, w tym tych z nietypowymi kodowaniami, brakującymi nagłówkami lub złożonymi zagnieżdżonymi strukturami.
Oczyszczaj sparsowane dane wejściowe: Zawsze traktuj treść wyodrębnioną z przychodzących e-maili jako niezaufaną. Oczyszczaj treść HTML, aby zapobiec atakom XSS, jeśli wyświetlasz ją w aplikacji internetowej. Weryfikuj nazwy i typy załączników, aby zapobiec atakom typu path traversal lub innym lukom bezpieczeństwa podczas zapisywania plików.
Solidna obsługa błędów: Zaimplementuj wszechstronne bloki try-except podczas dekodowania payloadów lub uzyskiwania dostępu do potencjalnie brakujących nagłówków. Elegancko obsługuj UnicodeDecodeError lub KeyError.
Obsługuj duże załączniki: Uważaj na rozmiary załączników, zarówno podczas tworzenia (aby uniknąć przekroczenia limitów serwera pocztowego), jak i parsowania (aby zapobiec nadmiernemu zużyciu pamięci lub miejsca na dysku). Rozważ strumieniowanie dużych załączników, jeśli jest to obsługiwane przez Twój system.
Wykorzystaj email.policy: W krytycznych zastosowaniach jawnie wybierz `email.policy` (np. `policy.SMTP`), aby zapewnić ścisłą zgodność ze standardami e-mail, co może wpłynąć na dostarczalność i interoperacyjność.
Zachowanie metadanych: Podczas parsowania zdecyduj, które metadane (nagłówki, oryginalne ciągi graniczne) są ważne do zachowania, zwłaszcza jeśli budujesz system archiwizacji lub przekazywania poczty.

Wnioski

Pakiet email w Pythonie to niezwykle potężna i elastyczna biblioteka dla każdego, kto potrzebuje programowo wchodzić w interakcję z pocztą e-mail. Opanowując zarówno tworzenie wiadomości MIME, jak i solidne parsowanie przychodzących e-maili, odblokowujesz możliwość tworzenia zaawansowanych systemów automatyzacji poczty e-mail, budowania klientów pocztowych, analizowania danych e-mail i integrowania funkcjonalności pocztowych z praktycznie każdą aplikacją.

Pakiet przemyślanie obsługuje podstawowe złożoności MIME, pozwalając deweloperom skupić się na treści i logice ich interakcji e-mailowych. Niezależnie od tego, czy wysyłasz spersonalizowane newslettery do globalnej publiczności, czy wyodrębniasz kluczowe dane z automatycznych raportów systemowych, głębokie zrozumienie pakietu email okaże się nieocenione w budowaniu niezawodnych, interoperacyjnych i globalnie świadomych rozwiązań e-mailowych.

Opanowanie pakietu 'email' w Pythonie: Sztuka tworzenia wiadomości MIME i solidnego parsowania

Zrozumienie MIME: Kręgosłup nowoczesnych e-maili

Pakiet email w Pythonie: Dogłębna analiza

Tworzenie wiadomości MIME: Budowanie e-maili z precyzją

Podstawowe e-maile tekstowe

Dodawanie treści HTML

Obsługa załączników

Tworzenie wiadomości wieloczęściowych

Kodowanie i zestawy znaków dla globalnego zasięgu

Niestandardowe nagłówki i polityki

Parsowanie wiadomości MIME: Ekstrakcja informacji z przychodzących e-maili

Ładowanie i wstępne parsowanie

Dostęp do nagłówków

Ekstrakcja treści (body)

Obsługa załączników podczas parsowania

Dekodowanie kodowań i zestawów znaków

Zaawansowane scenariusche parsowania

Tworzenie a parsowanie: Perspektywa porównawcza

Najlepsze praktyki w globalnej obsłudze e-maili z Pythonem

Wnioski

Pakiet `email` w Pythonie: Dogłębna analiza