هوش مصنوعی با پایتون، بخش چهارم – آماده‌سازی داده‌ها (قسمت دوم)

مجله خط دید 2020/06/21

۰ 52 خواندن این مطلب 1 دقیقه زمان میبرد

حذف میانه[۱]

این یکی دیگر از تکنیک‌های پیش‌پردازش رایج است که در یادگیری ماشین استفاده می‌شود. در اصل از آن برای از بین بردن میانه از بردار ویژگی استفاده می‌شود به‌طوری‌که هر ویژگی روی محور صفر قرار گیرد. ما همچنین می‌توانیم بایاس[۲] (داده‌ای که از تخمینِ زده شده دور باشد) را از ویژگی‌های بردار ویژگی حذف کنیم. برای اعمال تکنیک پردازش حذف میانه برروی داده‌های نمونه، می‌توانیم کد پایتون زیر را بنویسیم:

print(“Mean = “, input_data.mean(axis = 0))

print(“Std deviation = “, input_data.std(axis = 0))

بعد از اجرای کدهای بالا، خروجی زیر را خواهیم داشت:

Mean = [1.75-1.275 2.2]

Std deviation = [2.71431391 4.20022321 4.69414529]

حالا کد زیر میانه و انحراف معیار استاندارد را از داده ورودی حذف می‌کند:

data_scaled = preprocessing.scale(input_data)

print(“Mean =”, data_scaled.mean(axis=0))

print(“Std deviation =”, data_scaled.std(axis = 0))

ما بعد از اجرای کدهای بالا خروجی زیر را خواهیم داشت:

Mean = [1.11022302e-16 0.00000000e+00 0.00000000e+00]

Std deviation = [1. 1. 1.]

مقیاس‌گذاری

این یگی دیگر آر تکنیک‌های پردازش داده است که برای مقیاس‌بندی بردارهای ویژگی استفاده می‌شود. مقیاس بندی بردارهای ویژگی موردنیاز است زیرا مقادیر هر ویژگی می‌تواند بین بسیاری از مقادیر تصادفی متفاوت باشد. به عبارت دیگر می‌توان گفت مقیاس‌بندی مهم است زیرا نمی‌خواهیم هیچ‌کدام از ویژگی‌ها از نظر مصنوعی بزرگ یا کوچک باشند. با کمک کد پایتون زیر می‌توانیم مقیاس‌گذاری داده‌های ورودی خود را انجام دهیم، یعنی بردار ویژگی.