هوش مصنوعی با پایتون، بخش چهارم – آماده‌سازی داده‌ها (قسمت اول)

مجله خط دید 2020/06/20

۰ 41 خواندن این مطلب 2 دقیقه زمان میبرد

ما در بخش‌های قبل الگوریتم‌های یادگیری ماشین نظارت‌شده و بدون نظارت را مطالعه کردیم. این الگوریتم‌ها برای شروع فرآیند آموزش به داده‌های فرمت‌شده نیاز دارند. ما باید داده‌ها را به روشی خاص آماده یا قالب‌بندی کنیم تا بتواند به‌عنوان ورودی الگوریتم‌های یادگیری ماشین آماده‌سازی شود. در این بخش از سری مطالب هوش مصنوعی با پایتون به آماده‌سازی داده برای الگوریتم‌های یادگیری ماشین می‌پردازیم.

پردازش داده‌ها

در زندگی روزمره ما با داده‌های زیادی سروکار داریم اما این داده‌ها به‌صورت خام هستند. برای آماده‌سازی داده‌ها به‌عنوان ورودی الگوریتم‌های یادگیری ماشین، باید آن را به یک داده معنی‌دار تبدیل کنیم. اینجاست که پردازش داده‌ها وارد بحث می‌شود. به‌عبارت‌دیگر می‌توان گفت قبل از ارائه داده‌ها به الگوریتم‌های یادگیری ماشین، ما نیاز به پردازش داده‌ها داریم.

مراحل پردازش داده‌ها

برای پیش‌پردازش داده‌ها در پایتون، این مراحل را دنبال کنید:

مرحله ۱: واردکردن[۱] بسته‌های[۲] مفید – اگر از پایتون استفاده می‌کنیم، این اولین قدم برای تبدیل داده‌ها به یک قالب خاص، یعنی پردازش اولیه است. این کار را می‌توان به شرح زیر انجام داد:

import numpy as np

import sklearn.preprocessing

در اینجا ما از دو پکیج زیر استفاده کرده‌ایم:

Numpy – اساساً Numpy یک بسته پردازش آرایه برای اهداف عمومی و کلی است که برای دستکاری مؤثر آرایه‌های بزرگ چندبُعدی از پرونده‌های دلخواه ساخته‌شده است بودن اینکه سرعت بیش از حدی را برای آرایه‌های چندبُعدی کوچک قربانی کند.

Sklearn.processing – این بسته بسیاری از توابع متداول سودمند[۳] و کلاس‌های transformer را برای تغییر بردارهای ویژگی خام به ارائه‌ای (نمایشی) از آن‌ها که برای الگوریتم‌های یادگیری ماشین مناسب‌تر است، فراهم می‌کند.

مرحله ۲: تعریف داده‌های نمونه[۴]– بعد از واردکردن پکیج‌ها ما باید برخی از داده‌های نمونه را تعریف کنیم تا بتوانیم تکنیک‌های پیش‌پردازش را روی آن داده‌ها اعمال کنیم. اکنون داده‌های نمونه زیر را تعریف خواهیم کرد:

Input_data = np.array([2.1, -1.9, 5.5],

[-۱.۵, ۲.۴, ۳.۵],

[۰.۵, -۷.۹, ۵.۶],

[۵.۹, ۲.۳, -۵.۸])

مرحله ۳: استفاده از تکنیک پیش‌پردازش: در این مرحله باید هر یک از تکنیک‌های پیش‌پردازش را به‌کارگیریم. در بخش زیر تکنیک‌های پیش‌پردازش داده‌ها شرح داده‌شده است.

تکنیک‌های پردازش داده‌ها

دوتایی سازی

یکی از روش‌های پیش‌پردازش است که هنگامی که نیاز به تبدیل مقادیر عددی به مقادیر بولی باشد، استفاده می‌شود. می‌توانیم از یک متد داخلی استفاده کنیم تا داده‌های ورودی را با استفاده از مقدار آستانه به صورت زیر دوتایی سازی کنیم:

data_binarized = preprocessing.Binarizer(threshold = 0.5).transform(input_data)

print(“\nBinarized data:\n”, data_binarized)

حال پس از اجرای کد فوق، ما خروجی زیر را خواهیم داشت، تمام مقادیر بالاتر از ۰.۵ (مقدار آستانه) به ۱ تبدیل می‌شوند و تمام مقادیر زیر ۰.۵ به صفر تبدیل می‌شوند.

داده‌های دوتایی سازی شده:

[[۱. ۰. ۱.]

[۰. ۱. ۱.]

[۰. ۰. ۱.]

[۱. ۱. ۰.]]