۳۰ تیر ۱۴۰۴فارسی

با این راهنمای جامع بر مهندسی ویژگی مسلط شوید. بیاموزید چگونه داده‌های خام را به ویژگی‌های ارزشمند برای بهبود عملکرد مدل‌های یادگیری ماشین تبدیل کنید.

مهندسی ویژگی: هنر پیش‌پردازش داده

در قلمرو یادگیری ماشین و علم داده، داده‌های خام اغلب به الماسی نتراشیده شباهت دارند. این داده‌ها پتانسیل عظیمی در خود دارند، اما ارزش ذاتی آن‌ها تا زمانی که تحت پالایش دقیق قرار نگیرند، پنهان باقی می‌ماند. اینجاست که مهندسی ویژگی، یعنی هنر تبدیل داده‌های خام به ویژگی‌های معنادار، ضروری می‌شود. این راهنمای جامع به پیچیدگی‌های مهندسی ویژگی می‌پردازد و اهمیت، تکنیک‌ها و بهترین شیوه‌ها را برای بهینه‌سازی عملکرد مدل در یک زمینه جهانی بررسی می‌کند.

مهندسی ویژگی چیست؟

مهندسی ویژگی کل فرآیند انتخاب، تبدیل و ایجاد ویژگی‌های جدید از داده‌های خام را برای بهبود عملکرد مدل‌های یادگیری ماشین در بر می‌گیرد. این کار صرفاً پاکسازی داده نیست؛ بلکه استخراج اطلاعات روشنگرانه و نمایش آن به شکلی است که الگوریتم‌ها بتوانند به راحتی آن را درک و استفاده کنند. هدف، ساخت ویژگی‌هایی است که به طور مؤثر الگوها و روابط زیربنایی درون داده‌ها را به تصویر می‌کشند و به پیش‌بینی‌های دقیق‌تر و قوی‌تر منجر می‌شوند.

آن را مانند آماده کردن مواد اولیه عالی برای یک شاهکار آشپزی در نظر بگیرید. شما فقط مواد خام را داخل قابلمه نمی‌ریزید و انتظار یک غذای لذیذ را ندارید. در عوض، مواد را با دقت انتخاب، آماده و ترکیب می‌کنید تا یک طعم هماهنگ ایجاد کنید. به طور مشابه، مهندسی ویژگی شامل انتخاب، تبدیل و ترکیب دقیق عناصر داده برای ایجاد ویژگی‌هایی است که قدرت پیش‌بینی مدل‌های یادگیری ماشین را افزایش می‌دهند.

چرا مهندسی ویژگی مهم است؟

اهمیت مهندسی ویژگی را نمی‌توان نادیده گرفت. این کار مستقیماً بر دقت، کارایی و قابلیت تفسیر مدل‌های یادگیری ماشین تأثیر می‌گذارد. در ادامه دلایل اهمیت آن ذکر شده است:

بهبود دقت مدل: ویژگی‌های خوب مهندسی‌شده اطلاعات مرتبطی را در اختیار مدل‌ها قرار می‌دهند و به آن‌ها امکان می‌دهند تا به طور مؤثرتر یاد بگیرند و پیش‌بینی‌های دقیق‌تری انجام دهند.
زمان آموزش سریع‌تر: با کاهش نویز و اطلاعات نامرتبط، مهندسی ویژگی می‌تواند به طور قابل توجهی فرآیند آموزش را تسریع کند.
افزایش قابلیت تفسیر مدل: ویژگی‌های معنادار درک اینکه چگونه یک مدل به پیش‌بینی‌های خود می‌رسد را آسان‌تر می‌کند و امکان بینش بهتر و تصمیم‌گیری دقیق‌تر را فراهم می‌آورد.
تعمیم‌پذیری بهتر: مهندسی ویژگی می‌تواند به مدل‌ها کمک کند تا بر روی داده‌های دیده‌نشده بهتر تعمیم یابند، که منجر به عملکرد قوی‌تر و قابل‌اطمینان‌تر در سناریوهای دنیای واقعی می‌شود.

تکنیک‌های کلیدی در مهندسی ویژگی

مهندسی ویژگی طیف گسترده‌ای از تکنیک‌ها را شامل می‌شود که هر کدام برای انواع داده‌ها و حوزه‌های مسئله خاصی طراحی شده‌اند. در اینجا برخی از رایج‌ترین تکنیک‌ها آورده شده است:

۱. پاکسازی داده

پیش از شروع هرگونه تلاش برای مهندسی ویژگی، ضروری است که از پاک و عاری از خطا بودن داده‌ها اطمینان حاصل کنید. این امر شامل رسیدگی به مسائلی مانند موارد زیر است:

مقادیر گمشده: مدیریت داده‌های گمشده برای جلوگیری از نتایج مغرضانه یا نادرست حیاتی است. تکنیک‌های رایج عبارتند از:
جایگزینی (Imputation): جایگزین کردن مقادیر گمشده با تخمین‌ها (مانند میانگین، میانه، مد) یا استفاده از روش‌های جایگزینی پیچیده‌تر مانند k-نزدیکترین همسایه (k-NN). به عنوان مثال، اگر با داده‌های مشتریان از کشورهای مختلف کار می‌کنید و سن برخی از ورودی‌ها گمشده است، می‌توانید سن گمشده را بر اساس میانگین سن مشتریان همان کشور جایگزین کنید.
حذف: حذف سطرها یا ستون‌هایی با تعداد قابل توجهی از مقادیر گمشده. این کار باید با احتیاط انجام شود، زیرا می‌تواند منجر به از دست رفتن اطلاعات شود.
داده‌های پرت (Outliers): شناسایی و مدیریت داده‌های پرت برای جلوگیری از تأثیر منفی آن‌ها بر نتایج مهم است. تکنیک‌ها عبارتند از:
پیرایش (Trimming): حذف مقادیر حدی که خارج از یک محدوده از پیش تعریف‌شده قرار می‌گیرند.
وینسورسازی (Winsorizing): جایگزین کردن مقادیر حدی با مقادیر کمتر حدی (مثلاً جایگزین کردن مقادیر بالای صدک ۹۹ با مقدار صدک ۹۹).
تبدیل: اعمال تبدیل‌های ریاضی (مانند تبدیل لگاریتمی) برای کاهش تأثیر داده‌های پرت.
قالب‌بندی ناهماهنگ: اطمینان از قالب‌بندی هماهنگ داده‌ها برای تحلیل دقیق حیاتی است. این شامل رسیدگی به مسائلی مانند:
قالب‌بندی تاریخ: استانداردسازی فرمت‌های تاریخ (مثلاً تبدیل همه تاریخ‌ها به YYYY-MM-DD).
حالت متن: تبدیل تمام متون به حروف کوچک یا بزرگ.
واحدهای اندازه‌گیری: اطمینان از اینکه تمام مقادیر با واحدهای یکسانی بیان شده‌اند (مثلاً تبدیل همه ارزها به یک ارز مشترک مانند دلار آمریکا).
داده‌های تکراری: حذف ورودی‌های تکراری برای جلوگیری از نتایج مغرضانه.

۲. مقیاس‌بندی ویژگی

مقیاس‌بندی ویژگی شامل تبدیل محدوده مقادیر ویژگی‌های مختلف به یک مقیاس مشابه است. این امر مهم است زیرا بسیاری از الگوریتم‌های یادگیری ماشین به مقیاس ویژگی‌های ورودی حساس هستند. تکنیک‌های رایج مقیاس‌بندی عبارتند از:

مقیاس‌بندی کمینه-بیشینه (Min-Max Scaling): ویژگی‌ها را به محدوده‌ای بین ۰ و ۱ مقیاس‌بندی می‌کند. این روش زمانی مفید است که نیاز به حفظ روابط بین نقاط داده اصلی دارید. فرمول: (X - X_min) / (X_max - X_min)
استانداردسازی (مقیاس‌بندی Z-score): ویژگی‌ها را طوری مقیاس‌بندی می‌کند که میانگین ۰ و انحراف معیار ۱ داشته باشند. این روش زمانی مفید است که می‌خواهید نقاط داده از توزیع‌های مختلف را مقایسه کنید. فرمول: (X - μ) / σ، که در آن μ میانگین و σ انحراف معیار است.
مقیاس‌بندی مقاوم (Robust Scaling): مشابه استانداردسازی است، اما به جای میانگین و انحراف معیار از میانه و دامنه بین چارکی (IQR) استفاده می‌کند. این روش حساسیت کمتری به داده‌های پرت دارد.

مثال: یک مجموعه داده با دو ویژگی را در نظر بگیرید: درآمد (با دامنه ۲۰,۰۰۰ تا ۲۰۰,۰۰۰ دلار) و سن (با دامنه ۲۰ تا ۸۰ سال). بدون مقیاس‌بندی، ویژگی درآمد بر محاسبات فاصله در الگوریتم‌هایی مانند k-NN غلبه کرده و منجر به نتایج مغرضانه می‌شود. مقیاس‌بندی هر دو ویژگی به یک محدوده مشابه تضمین می‌کند که آن‌ها به طور مساوی در مدل مشارکت دارند.

۳. کدگذاری متغیرهای دسته‌ای

الگوریتم‌های یادگیری ماشین معمولاً به ورودی عددی نیاز دارند. بنابراین، لازم است متغیرهای دسته‌ای (مانند رنگ‌ها، کشورها، دسته‌بندی محصولات) به نمایش‌های عددی تبدیل شوند. تکنیک‌های رایج کدگذاری عبارتند از:

کدگذاری تک-داغ (One-Hot Encoding): برای هر دسته یک ستون باینری ایجاد می‌کند. این روش برای متغیرهای دسته‌ای با تعداد نسبتاً کمی از دسته‌ها مناسب است.
کدگذاری برچسبی (Label Encoding): به هر دسته یک عدد صحیح منحصر به فرد اختصاص می‌دهد. این روش برای متغیرهای دسته‌ای ترتیبی (مانند کم، متوسط، زیاد) که ترتیب دسته‌ها معنادار است، مناسب است.
کدگذاری ترتیبی (Ordinal Encoding): مشابه کدگذاری برچسبی است، اما به شما امکان می‌دهد ترتیب دسته‌ها را مشخص کنید.
کدگذاری هدف (Target Encoding): هر دسته را با میانگین متغیر هدف برای آن دسته جایگزین می‌کند. این روش زمانی مؤثر است که رابطه قوی بین متغیر دسته‌ای و متغیر هدف وجود داشته باشد. هنگام استفاده از کدگذاری هدف، مراقب نشت هدف (target leakage) باشید و از تکنیک‌های اعتبارسنجی متقابل مناسب استفاده کنید.
کدگذاری فرکانس (Frequency Encoding): هر دسته را با فرکانس آن در مجموعه داده جایگزین می‌کند. این روش می‌تواند برای ثبت شیوع دسته‌های مختلف مفید باشد.

مثال: یک مجموعه داده با ستون "Country" را در نظر بگیرید که مقادیری مانند "USA"، "Canada"، "UK" و "Japan" دارد. کدگذاری تک-داغ چهار ستون جدید ایجاد می‌کند: "Country_USA"، "Country_Canada"، "Country_UK" و "Country_Japan". هر سطر در ستون مربوط به کشور خود مقدار ۱ و در ستون‌های دیگر مقدار ۰ خواهد داشت.

۴. تبدیل ویژگی

تبدیل ویژگی شامل اعمال توابع ریاضی بر روی ویژگی‌ها برای بهبود توزیع آن‌ها یا رابطه آن‌ها با متغیر هدف است. تکنیک‌های رایج تبدیل عبارتند از:

تبدیل لگاریتمی: تابع لگاریتم را برای کاهش چولگی در داده‌هایی با دنباله بلند اعمال می‌کند. این برای ویژگی‌هایی مانند درآمد، جمعیت یا ارقام فروش مفید است.
تبدیل جذر: مشابه تبدیل لگاریتمی است، اما در کاهش چولگی کمتر تهاجمی است.
تبدیل باکس-کاکس (Box-Cox): یک تبدیل عمومی‌تر است که می‌تواند هم چولگی مثبت و هم منفی را مدیریت کند.
ویژگی‌های چندجمله‌ای: با به توان رساندن ویژگی‌های موجود به توان‌های مختلف (مانند توان دو، توان سه) یا با ترکیب آن‌ها (مانند ضرب دو ویژگی در هم) ویژگی‌های جدیدی ایجاد می‌کند. این کار می‌تواند به ثبت روابط غیرخطی بین ویژگی‌ها و متغیر هدف کمک کند.
تبدیل توانی (Power Transformer): یک تبدیل توانی را برای شبیه‌تر کردن داده‌ها به توزیع گاوسی اعمال می‌کند. کتابخانه scikit-learn کلاس `PowerTransformer` را برای این منظور فراهم می‌کند که از روش‌های Yeo-Johnson و Box-Cox پشتیبانی می‌کند.

مثال: اگر یک ویژگی دارید که تعداد بازدیدهای وب‌سایت را نشان می‌دهد و به شدت به سمت راست چولگی دارد (یعنی بیشتر کاربران تعداد کمی بازدید دارند، در حالی که تعداد کمی از کاربران تعداد بسیار زیادی بازدید دارند)، یک تبدیل لگاریتمی می‌تواند به نرمال‌سازی توزیع و بهبود عملکرد مدل‌های خطی کمک کند.

۵. ایجاد ویژگی

ایجاد ویژگی شامل تولید ویژگی‌های جدید از ویژگی‌های موجود است. این کار می‌تواند با ترکیب ویژگی‌ها، استخراج اطلاعات از آن‌ها، یا ایجاد ویژگی‌های کاملاً جدید بر اساس دانش دامنه انجام شود. تکنیک‌های رایج ایجاد ویژگی عبارتند از:

ترکیب ویژگی‌ها: ایجاد ویژگی‌های جدید با ترکیب دو یا چند ویژگی موجود. به عنوان مثال، می‌توانید یک ویژگی "BMI" را با تقسیم وزن یک فرد بر مجذور قد او ایجاد کنید.
استخراج اطلاعات: استخراج اطلاعات مرتبط از ویژگی‌های موجود. به عنوان مثال، می‌توانید روز هفته را از یک ویژگی تاریخ یا پیش‌شماره منطقه را از یک شماره تلفن استخراج کنید.
ایجاد ویژگی‌های تعاملی: ایجاد ویژگی‌های جدیدی که تعامل بین دو یا چند ویژگی موجود را نشان می‌دهند. به عنوان مثال، می‌توانید یک ویژگی ایجاد کنید که تعامل بین سن و درآمد یک مشتری را نشان دهد.
ویژگی‌های مختص دامنه: ایجاد ویژگی‌ها بر اساس دانش دامنه. به عنوان مثال، در صنعت مالی، می‌توانید ویژگی‌هایی را بر اساس نسبت‌های مالی یا شاخص‌های اقتصادی ایجاد کنید.
ویژگی‌های مبتنی بر زمان: ایجاد ویژگی‌های مرتبط با زمان مانند روز هفته، ماه، فصل، سال، پرچم‌های تعطیلات و غیره از اشیاء تاریخ-زمان.

مثال: در یک مجموعه داده خرده‌فروشی، می‌توانید یک ویژگی "ارزش طول عمر مشتری" (CLTV) را با ترکیب اطلاعات مربوط به تاریخچه خرید مشتری، فرکانس خریدها و میانگین ارزش سفارش ایجاد کنید. این ویژگی جدید می‌تواند یک پیش‌بینی‌کننده قوی برای فروش‌های آینده باشد.

۶. انتخاب ویژگی

انتخاب ویژگی شامل انتخاب زیرمجموعه‌ای از مرتبط‌ترین ویژگی‌ها از مجموعه اصلی است. این کار می‌تواند به بهبود عملکرد مدل، کاهش پیچیدگی و جلوگیری از بیش‌برازش (overfitting) کمک کند. تکنیک‌های رایج انتخاب ویژگی عبارتند از:

انتخاب ویژگی تک‌متغیره: ویژگی‌ها را بر اساس آزمون‌های آماری تک‌متغیره (مانند آزمون کای-دو، ANOVA) انتخاب می‌کند.
حذف بازگشتی ویژگی (RFE): به طور بازگشتی ویژگی‌ها را حذف کرده و عملکرد مدل را ارزیابی می‌کند.
اهمیت ویژگی از مدل‌های مبتنی بر درخت: از امتیازات اهمیت ویژگی از مدل‌های مبتنی بر درخت (مانند جنگل تصادفی، گرادیان بوستینگ) برای انتخاب مهم‌ترین ویژگی‌ها استفاده می‌کند.
SelectFromModel: از یک مدل از پیش آموزش‌دیده برای انتخاب ویژگی‌ها بر اساس اهمیت آن‌ها استفاده می‌کند.
انتخاب ویژگی مبتنی بر همبستگی: ویژگی‌های با همبستگی بالا را برای کاهش چندهم‌خطی شناسایی و حذف می‌کند.

مثال: اگر یک مجموعه داده با صدها ویژگی دارید که بسیاری از آن‌ها نامرتبط یا اضافی هستند، انتخاب ویژگی می‌تواند به شناسایی مهم‌ترین ویژگی‌ها و بهبود عملکرد و قابلیت تفسیر مدل کمک کند.

بهترین شیوه‌ها برای مهندسی ویژگی

برای اطمینان از اثربخشی تلاش‌های مهندسی ویژگی، رعایت این بهترین شیوه‌ها مهم است:

داده‌های خود را درک کنید: قبل از شروع مهندسی ویژگی، زمانی را برای درک کامل داده‌های خود اختصاص دهید. این شامل درک انواع داده، توزیع‌ها و روابط بین ویژگی‌ها است.
تخصص دامنه کلیدی است: با متخصصان دامنه همکاری کنید تا ویژگی‌های بالقوه مفیدی را که ممکن است فوراً از خود داده‌ها مشخص نباشند، شناسایی کنید.
تکرار و آزمایش کنید: مهندسی ویژگی یک فرآیند تکراری است. از آزمایش تکنیک‌های مختلف و ارزیابی تأثیر آن‌ها بر عملکرد مدل نترسید.
ویژگی‌های خود را اعتبارسنجی کنید: همیشه ویژگی‌های خود را برای اطمینان از اینکه واقعاً عملکرد مدل را بهبود می‌بخشند، اعتبارسنجی کنید. از معیارهای ارزیابی مناسب و تکنیک‌های اعتبارسنجی متقابل استفاده کنید.
کار خود را مستند کنید: یک رکورد دقیق از ویژگی‌هایی که ایجاد می‌کنید، تبدیل‌هایی که اعمال می‌کنید و دلایل انتخاب‌های خود نگه دارید. این کار درک و نگهداری خط لوله مهندسی ویژگی شما را آسان‌تر می‌کند.
تعاملات ویژگی را در نظر بگیرید: تعاملات بالقوه بین ویژگی‌ها را بررسی کنید تا ببینید آیا ایجاد ویژگی‌های تعاملی جدید می‌تواند عملکرد مدل را بهبود بخشد.
مراقب نشت داده باشید: مراقب باشید تا از نشت داده (data leakage) جلوگیری کنید، که زمانی رخ می‌دهد که اطلاعات از مجموعه آزمون برای ایجاد یا انتخاب ویژگی‌ها استفاده می‌شود. این می‌تواند منجر به تخمین‌های عملکرد بیش از حد خوش‌بینانه و تعمیم‌پذیری ضعیف شود.
از ابزارهای خودکار مهندسی ویژگی با احتیاط استفاده کنید: در حالی که ابزارهای خودکار مهندسی ویژگی می‌توانند مفید باشند، مهم است که نحوه کار آن‌ها را درک کرده و ویژگی‌هایی را که تولید می‌کنند با دقت ارزیابی کنید. اتکای بیش از حد به ابزارهای خودکار بدون دانش دامنه می‌تواند منجر به نتایج غیربهینه شود.

ملاحظات جهانی در مهندسی ویژگی

هنگام کار با داده‌ها از منابع متنوع جهانی، در نظر گرفتن موارد زیر ضروری است:

تفاوت‌های فرهنگی: از تفاوت‌های فرهنگی که ممکن است بر تفسیر داده‌ها تأثیر بگذارد، آگاه باشید. به عنوان مثال، فرمت‌های تاریخ، نمادهای ارز و فرمت‌های آدرس می‌توانند در کشورهای مختلف متفاوت باشند.
موانع زبانی: اگر با داده‌های متنی کار می‌کنید، ممکن است نیاز به ترجمه زبان یا استفاده از تکنیک‌های پردازش زبان طبیعی (NLP) برای مدیریت زبان‌های مختلف داشته باشید.
مقررات حریم خصوصی داده‌ها: از مقررات حریم خصوصی داده‌ها مانند GDPR، CCPA و سایر مقررات منطقه‌ای که ممکن است نحوه جمع‌آوری، پردازش و استفاده از داده‌های شخصی را محدود کنند، آگاه باشید.
مناطق زمانی: هنگام کار با داده‌های سری زمانی، حتماً تفاوت‌های مناطق زمانی را در نظر بگیرید.
تبدیل ارز: اگر با داده‌های مالی کار می‌کنید، ممکن است نیاز به تبدیل ارزها به یک ارز مشترک داشته باشید.
نرمال‌سازی آدرس: فرمت‌های آدرس در کشورهای مختلف بسیار متفاوت است. استفاده از تکنیک‌های نرمال‌سازی آدرس را برای استانداردسازی داده‌های آدرس در نظر بگیرید.

مثال: تصور کنید در حال ساخت یک مدل برای پیش‌بینی ریزش مشتری برای یک شرکت تجارت الکترونیک جهانی هستید. مشتریان در کشورهای مختلفی قرار دارند و تاریخچه خرید آن‌ها با ارزهای گوناگون ثبت شده است. شما باید تمام ارزها را به یک ارز مشترک (مانند دلار آمریکا) تبدیل کنید تا اطمینان حاصل شود که مدل می‌تواند به درستی مقادیر خرید را در کشورهای مختلف مقایسه کند. علاوه بر این، باید تعطیلات منطقه‌ای یا رویدادهای فرهنگی را که ممکن است بر رفتار خرید در مناطق خاص تأثیر بگذارد، در نظر بگیرید.

ابزارها و فناوری‌ها برای مهندسی ویژگی

چندین ابزار و فناوری می‌توانند در فرآیند مهندسی ویژگی کمک کنند:

کتابخانه‌های پایتون:
Pandas: یک کتابخانه قدرتمند برای دستکاری و تحلیل داده‌ها.
Scikit-learn: یک کتابخانه جامع برای یادگیری ماشین، شامل تکنیک‌های مقیاس‌بندی، کدگذاری و انتخاب ویژگی.
NumPy: یک کتابخانه بنیادی برای محاسبات عددی.
Featuretools: یک کتابخانه خودکار مهندسی ویژگی.
Category Encoders: یک کتابخانه که به طور خاص برای کدگذاری دسته‌ای طراحی شده است.
پلتفرم‌های ابری:
Amazon SageMaker: یک سرویس یادگیری ماشین کاملاً مدیریت‌شده که ابزارهایی برای مهندسی ویژگی و ساخت مدل فراهم می‌کند.
Google Cloud AI Platform: یک پلتفرم مبتنی بر ابر برای توسعه و استقرار مدل‌های یادگیری ماشین.
Microsoft Azure Machine Learning: یک پلتفرم مبتنی بر ابر برای ساخت، استقرار و مدیریت مدل‌های یادگیری ماشین.
SQL: برای استخراج و تبدیل داده‌ها از پایگاه‌های داده.

نتیجه‌گیری

مهندسی ویژگی یک گام حیاتی در خط لوله یادگیری ماشین است. با انتخاب، تبدیل و ایجاد دقیق ویژگی‌ها، می‌توانید به طور قابل توجهی دقت، کارایی و قابلیت تفسیر مدل‌های خود را بهبود بخشید. به یاد داشته باشید که داده‌های خود را به طور کامل درک کنید، با متخصصان دامنه همکاری کنید و با تکنیک‌های مختلف تکرار و آزمایش کنید. با پیروی از این بهترین شیوه‌ها، می‌توانید پتانسیل کامل داده‌های خود را آزاد کرده و مدل‌های یادگیری ماشین با عملکرد بالا بسازید که تأثیر واقعی در دنیای واقعی دارند. همانطور که در چشم‌انداز جهانی داده‌ها حرکت می‌کنید، به یاد داشته باشید که تفاوت‌های فرهنگی، موانع زبانی و مقررات حریم خصوصی داده‌ها را در نظر بگیرید تا اطمینان حاصل کنید که تلاش‌های مهندسی ویژگی شما هم مؤثر و هم اخلاقی است.

سفر مهندسی ویژگی یک فرآیند مداوم کشف و پالایش است. با کسب تجربه، درک عمیق‌تری از ظرایف داده‌های خود و مؤثرترین تکنیک‌ها برای استخراج بینش‌های ارزشمند به دست خواهید آورد. چالش را بپذیرید، کنجکاو بمانید و به کاوش در هنر پیش‌پردازش داده ادامه دهید تا قدرت یادگیری ماشین را آزاد کنید.