هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت سوم)

نرمالسازی
این یکی دیگر از تکنیکهای پردازش داده است که برای اصلاح بردارهای ویژگی استفاده میشود. چنین اصلاحی برای اندازهگیری بردارهای ویژگی در مقیاس معمول ضروری است. موارد زیر دو نوع نرمالسازی است که میتواند در یادگیری ماشین مورد استفاده قرار گیرد.
نرمالسازی L1
همچنین از آن به عنوان کمترین انحرافات مطلق[1] یاد میشود. این نوع نرمالسازی مقادیر را بهگونهای تغییر میدهد که مجموع مقادیر مطلق همیشه در هر سطر 1 است. میتوان آن را با کمک کد پایتون زیر، روی دادههای ورودی پیادهسازی کرد-
# نرمالسازی دادهها
data_normalized_l1 = preprocessing.normalize(input_data, norm = ‘l1’)
print(“\nL1 normalized data:\n”, data_normalized_l1)
تکه کد بالا خروجی زیر را دارد:
نرمالسازی L1#
[[0.22105263 -0.2 0.57894737]
[-0.2027027 0.32432432 0.47297297]
[0.03571429 -0.56428571 0.4]
[0.42142857 0.16428571 -0.41428571]]
نرمالسازی L2#
[[0.33946114 -0.30713151 0.88906489]
[-0.33325106 0.53320169 0.7775858]
[0.05156558 -0.81473612 0.57753446]
[0.68706914 0.26784051 -0.6754239]]
برچسبگذاری دادهها
ما پیش از این میدانستیم که دادهها باید برای الگوریتمهای یادگیری ماشین در قالب مشخصی باشند. شرط مهم دیگر این است که دادهها قبل از ارسال به عنوان ورودی الگوریتمهای یادگیری ماشین باید بهدرستی برچسبگذاری شوند. به عنوان مثال اگر در مورد دستهبندی صحبت میکنیم، برچسبهای زیادی روی دادهها وجود دارد. این برچسبها به صورت کلمات، اعداد و غیره هستند. توابع مربوط به یادگیری ماشین در پکیج sklearn انتظار دارند دادهها برچسب اعداد داشته باشند. بنابراین اگر دادهها به شکل دیگری هستند باید به اعداد تبدیل شوند. این فرآیند تبدیل برچسبهای کلمه به شکل عددی، رمزگذاری برچسب نامیده میشود.
بخشهای دیگر مقاله را از لینکهای زیر بخوانید:
هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت اول)
هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت دوم)
هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت آخر)
[1] Least Absolute Deviation