آموزشمطالب ویژه

هوش مصنوعی با پایتون، بخش چهارم – آماده‌سازی داده‌ها (قسمت آخر)

مراحل رمزگذاری برچسب

این مراحل را برای رمزگذاری برچسب‌های داده در پایتون دنبال کنید:

مرحله 1: واردکردن پکیج‌های مفید: اگر ما از پایتون استفاده می‌کنیم، این اولین قدم برای تبدیل داده‌ها به قالب خاص یعنی پردازش پیش فرض است. این کار را می‌توان با کدهای زیر انجام داد:

 

import numpy as np

from sklearn import preprocessing

مرحله 2: تعیین برچسب‌های نمونه: بعد از واردکردنِ پکیج‌ها باید برخی از برچسب‌های نمونه را تعریف کنیم تا بتوانیم رمزگذار برچسب را ایجاد کرده و آموزش[1] دهیم. اکنون برچسب‌های نمونه زیر را تعریف خواهیم کرد:

 

# نمونه برچسب‌های ورودی

input_labels = [‘red’,’black’,’red’,’green’,’black’,’yellow’,’white’]

مرحله 3: ایجاد و آموزش شیء رمزگذار برچسب: در این مرحله باید رمزگذار را ایجاد کنیم و آن را آموزش دهیم. کد پایتون زیر در انجام این کار کمک خواهد کرد.

 

# ایجاد رمزگذار برچسب

encoder = preprocessing.LabelEncoder()

encoder.fit(input_labels)

پس از اجرای کد پایتون فوق، خروجی به شکل زیر خواهد بود:

LabelEncoder()

مرحله 4: بررسی کارایی با کدگذاری لیست مرتب‌شده تصادفی

از این مرحله می‌توان بوسیله لیست مرتب‌شده تصادفی، برای بررسی عملکرد استفاده کرد. کد پایتونی که در ادامه می‌آید همین کار را انجام می‌دهد:

 

# رمزگذاری مجموعه‌ای از برچسب‌ها

test_labels = [‘green’,’red’,’black’]

encoded_values = encoder.transform(test_labels)

print(“\nLabels =”, test_labels)

برچسب‌ها مانند کد زیر چاپ می‌شوند:

Labels = [‘green’, ‘red’, ‘black’]

 

اکنون می‌توانیم لیستی از مقادیر رمزگذاری شده را پیدا کنیم. یعنی برچسب‌های کلمه‌ای که به شرح زیر به اعداد تبدیل‌شده‌اند:

print(“Encoded values =”, list(encoded_values))

مقادیر رمزگذاری شده به شرح زیر چاپ می‌شوند:

Encoded values = [1, 2, 0]

مرحله 5: بررسی کارایی با رمزگشایی یک مجموعه تصادفی از اعداد

از این مرحله می‌توان برای بررسی عملکرد با رمزگشایی مجموعه تصادفی اعداد استفاده کرد. با دنبال کردن کد پایتون زیر می‌توانید همین کار را انجام دهید.

 

# رمزگشایی مجموعه‌ای از مقادیر

encoded_values = [3,0,4,1]

decoded_list = encoder.inverse_transform(encoded_values)

print(“\nEncoded values =”, encoded_values)

اکنون مقادیر رمزگذاری شده به شرح زیر چاپ می‌شوند:

Encoded values = [3, 0, 4, 1]

print(“\nDecoded labels =”, list(decoded_list))

 

مقادیر رمزگشایی‌شده هم به شرح زیر چاپ می‌شوند:

Decoded labels = [‘white’, ‘black’, ‘yellow’, ‘green’]

 

داده‌های برچسب‌گذاری شده در برابر داده‌های بدون برچسب

داده‌های بدون برچسب به طور عمده شامل نمونه‌های ساخته‌شده طبیعی یا انسانی است که به‌راحتی از جهان قابل حصول است. آن‌ها شامل صوت، ویدئو، عکس‌ها، مقالات خبری و غیره هستند. از طرف دیگر داده‌های برچسب‌گذاری شده مجموعه‌ای از داده‌های بدون برچسب را می‌گیرند و به هر تکه از آن داده‌های بدون برچسب، تگی یا برچسبی یا کلاسی که بامعنی باشد، می‌افزایند. برای مثال، اگر ما عکسی داشته باشیم می‌توان برچسب را بر اساس محتوای عکس، یعنی عکس پسر یا دختر یا حیوان یا هر چیز دیگری قرار داد. برچسب‌گذاری داده به تخصص و قضاوت بشری در مورد آن تکه داده بدون برچسب نیاز دارد. سناریوهای بسیاری وجود دارد که در آن‌ها داده‌های بدون برچسب فراوان است و به‌آسانی به‌دست‌آمده است اما داده‌های بابرچسب اغلب به یک انسان / متخصص برای تفسیر نیاز دارند. یادگیری نیمه نظارت‌شده[2] سعی در ترکیب داده‌های بابرچسب و بدون برچسب برای ساخت مدل‌های بهتر دارد که در بخش‌های آینده به آن خواهیم پرداخت.

 

 

بخش‌های دیگر مقاله را از لینک‌های زیر بخوانید:

هوش مصنوعی با پایتون، بخش چهارم – آماده‌سازی داده‌ها (قسمت اول)

هوش مصنوعی با پایتون، بخش چهارم – آماده‌سازی داده‌ها (قسمت دوم)

هوش مصنوعی با پایتون، بخش چهارم – آماده‌سازی داده‌ها (قسمت سوم)

 

 

 

[1] Train

[2] Semi-supervised

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا