هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت آخر)
مراحل رمزگذاری برچسب
این مراحل را برای رمزگذاری برچسبهای داده در پایتون دنبال کنید:
مرحله 1: واردکردن پکیجهای مفید: اگر ما از پایتون استفاده میکنیم، این اولین قدم برای تبدیل دادهها به قالب خاص یعنی پردازش پیش فرض است. این کار را میتوان با کدهای زیر انجام داد:
import numpy as np
from sklearn import preprocessing
مرحله 2: تعیین برچسبهای نمونه: بعد از واردکردنِ پکیجها باید برخی از برچسبهای نمونه را تعریف کنیم تا بتوانیم رمزگذار برچسب را ایجاد کرده و آموزش[1] دهیم. اکنون برچسبهای نمونه زیر را تعریف خواهیم کرد:
# نمونه برچسبهای ورودی
input_labels = [‘red’,’black’,’red’,’green’,’black’,’yellow’,’white’]
مرحله 3: ایجاد و آموزش شیء رمزگذار برچسب: در این مرحله باید رمزگذار را ایجاد کنیم و آن را آموزش دهیم. کد پایتون زیر در انجام این کار کمک خواهد کرد.
# ایجاد رمزگذار برچسب
encoder = preprocessing.LabelEncoder()
encoder.fit(input_labels)
پس از اجرای کد پایتون فوق، خروجی به شکل زیر خواهد بود:
LabelEncoder()
مرحله 4: بررسی کارایی با کدگذاری لیست مرتبشده تصادفی
از این مرحله میتوان بوسیله لیست مرتبشده تصادفی، برای بررسی عملکرد استفاده کرد. کد پایتونی که در ادامه میآید همین کار را انجام میدهد:
# رمزگذاری مجموعهای از برچسبها
test_labels = [‘green’,’red’,’black’]
encoded_values = encoder.transform(test_labels)
print(“\nLabels =”, test_labels)
برچسبها مانند کد زیر چاپ میشوند:
Labels = [‘green’, ‘red’, ‘black’]
اکنون میتوانیم لیستی از مقادیر رمزگذاری شده را پیدا کنیم. یعنی برچسبهای کلمهای که به شرح زیر به اعداد تبدیلشدهاند:
print(“Encoded values =”, list(encoded_values))
مقادیر رمزگذاری شده به شرح زیر چاپ میشوند:
Encoded values = [1, 2, 0]
مرحله 5: بررسی کارایی با رمزگشایی یک مجموعه تصادفی از اعداد
از این مرحله میتوان برای بررسی عملکرد با رمزگشایی مجموعه تصادفی اعداد استفاده کرد. با دنبال کردن کد پایتون زیر میتوانید همین کار را انجام دهید.
# رمزگشایی مجموعهای از مقادیر
encoded_values = [3,0,4,1]
decoded_list = encoder.inverse_transform(encoded_values)
print(“\nEncoded values =”, encoded_values)
اکنون مقادیر رمزگذاری شده به شرح زیر چاپ میشوند:
Encoded values = [3, 0, 4, 1]
print(“\nDecoded labels =”, list(decoded_list))
مقادیر رمزگشاییشده هم به شرح زیر چاپ میشوند:
Decoded labels = [‘white’, ‘black’, ‘yellow’, ‘green’]
دادههای برچسبگذاری شده در برابر دادههای بدون برچسب
دادههای بدون برچسب به طور عمده شامل نمونههای ساختهشده طبیعی یا انسانی است که بهراحتی از جهان قابل حصول است. آنها شامل صوت، ویدئو، عکسها، مقالات خبری و غیره هستند. از طرف دیگر دادههای برچسبگذاری شده مجموعهای از دادههای بدون برچسب را میگیرند و به هر تکه از آن دادههای بدون برچسب، تگی یا برچسبی یا کلاسی که بامعنی باشد، میافزایند. برای مثال، اگر ما عکسی داشته باشیم میتوان برچسب را بر اساس محتوای عکس، یعنی عکس پسر یا دختر یا حیوان یا هر چیز دیگری قرار داد. برچسبگذاری داده به تخصص و قضاوت بشری در مورد آن تکه داده بدون برچسب نیاز دارد. سناریوهای بسیاری وجود دارد که در آنها دادههای بدون برچسب فراوان است و بهآسانی بهدستآمده است اما دادههای بابرچسب اغلب به یک انسان / متخصص برای تفسیر نیاز دارند. یادگیری نیمه نظارتشده[2] سعی در ترکیب دادههای بابرچسب و بدون برچسب برای ساخت مدلهای بهتر دارد که در بخشهای آینده به آن خواهیم پرداخت.
بخشهای دیگر مقاله را از لینکهای زیر بخوانید:
هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت اول)
هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت دوم)
هوش مصنوعی با پایتون، بخش چهارم – آمادهسازی دادهها (قسمت سوم)
[1] Train
[2] Semi-supervised