هوش مصنوعی با پایتون، بخش چهارم – آماده‌سازی داده‌ها (قسمت سوم)

مجله خط دید 2020/06/22

۰ 62 خواندن این مطلب 1 دقیقه زمان میبرد

نرمال‌سازی

این یکی دیگر از تکنیک‌های پردازش داده است که برای اصلاح بردارهای ویژگی استفاده می‌شود. چنین اصلاحی برای اندازه‌گیری بردارهای ویژگی در مقیاس معمول ضروری است. موارد زیر دو نوع نرمال‌سازی است که می‌تواند در یادگیری ماشین مورد استفاده قرار گیرد.

نرمال‌سازی L1

همچنین از آن به عنوان کمترین انحرافات مطلق[۱] یاد می‌شود. این نوع نرمال‌سازی مقادیر را به‌گونه‌ای تغییر می‌دهد که مجموع مقادیر مطلق همیشه در هر سطر ۱ است. می‌توان آن را با کمک کد پایتون زیر، روی داده‌های ورودی پیاده‌سازی کرد-

# نرمال‌سازی داده‌ها

data_normalized_l1 = preprocessing.normalize(input_data, norm = ‘l1’)

print(“\nL1 normalized data:\n”, data_normalized_l1)

تکه کد بالا خروجی زیر را دارد:

نرمال‌سازی L1#

[[۰.۲۲۱۰۵۲۶۳ -۰.۲ ۰.۵۷۸۹۴۷۳۷]

[-۰.۲۰۲۷۰۲۷ ۰.۳۲۴۳۲۴۳۲ ۰.۴۷۲۹۷۲۹۷]

[۰.۰۳۵۷۱۴۲۹ -۰.۵۶۴۲۸۵۷۱ ۰.۴]

[۰.۴۲۱۴۲۸۵۷ ۰.۱۶۴۲۸۵۷۱ -۰.۴۱۴۲۸۵۷۱]]

نرمال‌سازی L2#

[[۰.۳۳۹۴۶۱۱۴ -۰.۳۰۷۱۳۱۵۱ ۰.۸۸۹۰۶۴۸۹]

[-۰.۳۳۳۲۵۱۰۶ ۰.۵۳۳۲۰۱۶۹ ۰.۷۷۷۵۸۵۸]

[۰.۰۵۱۵۶۵۵۸ -۰.۸۱۴۷۳۶۱۲ ۰.۵۷۷۵۳۴۴۶]

[۰.۶۸۷۰۶۹۱۴ ۰.۲۶۷۸۴۰۵۱ -۰.۶۷۵۴۲۳۹]]

برچسب‌گذاری داده‌ها

ما پیش از این می‌دانستیم که داده‌ها باید برای الگوریتم‌های یادگیری ماشین در قالب مشخصی باشند. شرط مهم دیگر این است که داده‌ها قبل از ارسال به عنوان ورودی الگوریتم‌های یادگیری ماشین باید به‌درستی برچسب‌گذاری شوند. به عنوان مثال اگر در مورد دسته‌بندی صحبت می‌کنیم، برچسب‌های زیادی روی داده‌ها وجود دارد. این برچسب‌ها به صورت کلمات، اعداد و غیره هستند. توابع مربوط به یادگیری ماشین در پکیج sklearn انتظار دارند داده‌ها برچسب اعداد داشته باشند. بنابراین اگر داده‌ها به شکل دیگری هستند باید به اعداد تبدیل شوند. این فرآیند تبدیل برچسب‌های کلمه به شکل عددی، رمزگذاری برچسب نامیده می‌شود.