هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت اول)
ما در بخشهای قبل الگوریتمهای یادگیری ماشین نظارتشده و بدون نظارت را مطالعه کردیم. این الگوریتمها برای شروع فرآیند آموزش به دادههای فرمتشده نیاز دارند. ما باید دادهها را به روشی خاص آماده یا قالببندی کنیم تا بتواند بهعنوان ورودی الگوریتمهای یادگیری ماشین آمادهسازی شود. در این بخش از سری مطالب هوش مصنوعی با پایتون به آمادهسازی داده برای الگوریتمهای یادگیری ماشین میپردازیم.
پردازش دادهها
در زندگی روزمره ما با دادههای زیادی سروکار داریم اما این دادهها بهصورت خام هستند. برای آمادهسازی دادهها بهعنوان ورودی الگوریتمهای یادگیری ماشین، باید آن را به یک داده معنیدار تبدیل کنیم. اینجاست که پردازش دادهها وارد بحث میشود. بهعبارتدیگر میتوان گفت قبل از ارائه دادهها به الگوریتمهای یادگیری ماشین، ما نیاز به پردازش دادهها داریم.
مراحل پردازش دادهها
برای پیشپردازش دادهها در پایتون، این مراحل را دنبال کنید:
مرحله 1: واردکردن[1] بستههای[2] مفید – اگر از پایتون استفاده میکنیم، این اولین قدم برای تبدیل دادهها به یک قالب خاص، یعنی پردازش اولیه است. این کار را میتوان به شرح زیر انجام داد:
import numpy as np
import sklearn.preprocessing
در اینجا ما از دو پکیج زیر استفاده کردهایم:
Numpy – اساساً Numpy یک بسته پردازش آرایه برای اهداف عمومی و کلی است که برای دستکاری مؤثر آرایههای بزرگ چندبُعدی از پروندههای دلخواه ساختهشده است بودن اینکه سرعت بیش از حدی را برای آرایههای چندبُعدی کوچک قربانی کند.
Sklearn.processing – این بسته بسیاری از توابع متداول سودمند[3] و کلاسهای transformer را برای تغییر بردارهای ویژگی خام به ارائهای (نمایشی) از آنها که برای الگوریتمهای یادگیری ماشین مناسبتر است، فراهم میکند.
مرحله 2: تعریف دادههای نمونه[4]– بعد از واردکردن پکیجها ما باید برخی از دادههای نمونه را تعریف کنیم تا بتوانیم تکنیکهای پیشپردازش را روی آن دادهها اعمال کنیم. اکنون دادههای نمونه زیر را تعریف خواهیم کرد:
Input_data = np.array([2.1, -1.9, 5.5],
[-1.5, 2.4, 3.5],
[0.5, -7.9, 5.6],
[5.9, 2.3, -5.8])
مرحله 3: استفاده از تکنیک پیشپردازش: در این مرحله باید هر یک از تکنیکهای پیشپردازش را بهکارگیریم. در بخش زیر تکنیکهای پیشپردازش دادهها شرح دادهشده است.
تکنیکهای پردازش دادهها
دوتایی سازی
یکی از روشهای پیشپردازش است که هنگامی که نیاز به تبدیل مقادیر عددی به مقادیر بولی باشد، استفاده میشود. میتوانیم از یک متد داخلی استفاده کنیم تا دادههای ورودی را با استفاده از مقدار آستانه به صورت زیر دوتایی سازی کنیم:
data_binarized = preprocessing.Binarizer(threshold = 0.5).transform(input_data)
print(“\nBinarized data:\n”, data_binarized)
حال پس از اجرای کد فوق، ما خروجی زیر را خواهیم داشت، تمام مقادیر بالاتر از 0.5 (مقدار آستانه) به 1 تبدیل میشوند و تمام مقادیر زیر 0.5 به صفر تبدیل میشوند.
دادههای دوتایی سازی شده:
[[1. 0. 1.]
[0. 1. 1.]
[0. 0. 1.]
[1. 1. 0.]]
بخشهای دیگر مقاله را از لینکهای زیر بخوانید:
هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت دوم)
هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت سوم)
هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت آخر)
[1] Import
[2] Package
[3] Utility Functions
[4] Sample Data