خوشهبندی با پاور بی آی
فرض کنید که شما دادههایی با ویژگی های مختلفی دارید همچنین ممکن است بعضی از دادهها شباهت نزدیکی با یکدیگر داشته باشند حال ما میتوانیم قبل از انجام تجزیهوتحلیلهای مختلف، به طبقهبندی دادهها بپردازیم. در این بخش، ما یاد خواهیم گرفت که چگونه با استفاده از Power BI دادهها را در خوشهها طبقهبندی کنیم یا درواقع همان عملیات خوشهبندی را انجام دهیم.
اول، ما به یکسری دادههای نمونه نیاز داریم که بتوانیم برای خوشهبندی استفاده کنیم.در این آموزش، ما از مجموعه دادههای محبوب IRIS از مخزن آموزش UCI استفاده میکنیم.
این مجموعه داده (dataset) شامل صدها رکورد با پنج فیلد- Sepal Length، Width Sepal، Petal Width، Petal Length و class میباشد. با توجه به عنوان فیلدها متوجه میشویم که دادهها شامل اطلاعاتی پیرامون طول و عرض گلهای مختلف میباشد. در اینجا ما مایل به استفاده از Length sepal و Width sepal و طبقهبندی دادهها در سه خوشه بر اساس ویژگیهای دادهها هستیم. برای انجام این تجزیهوتحلیل، لازم است ابتدا این دادهها را وارد کنیم. برای واردکردن دادهها مراحل زیر را انجام دهید.
در تب Home روی منوی Get Data کلیک کرده و گزینه web را انتخاب کنید. همانطور که دادههای ما در Web از مخزن UCI واقعشده است، ما دادهها را مستقیماً از Web میخوانیم.
پس از انتخاب گزینه Web، قدم بعدی این است که URL یا همان آدرس فایل مربوطه را از جایی که قصد داریم دادهها را بخوانیم، ارائه دهیم. توجه کنید که باید حتماً در انتهای این نشانی اینترنتی”data.”وجود داشته باشد.
بعد از واردکردن URL و کلیک بر روی OK، گام بعدی پیشنمایش دادهها و ارائه چند گزینه پیکربندی برای واردکردن دادهها میباشد. همانطور که در تصویر زیر مشاهده میکنید، آدرس URL مربوط به فایلی که Import کردیم در بالای صفحه، نمایش داده شده است.
در قسمت Origin Field فرمت دادههایی را که از URL خواندهشده، نشان میدهد. فیلد Delimiter درواقع علامت یا عبارت جداکننده را نشان میدهد. تقریباً تمام دادههای ذخیرهشده در مخزن UCI با کاما جداشده است.
با توجه به کادر Data Type Detection در اینجا فقط دویست ردیف ابتدایی را خوانده و نوع (type) دادههای فیلد را شناسایی میکند. علاوه بر این، همانطور که در تصویر زیر مشاهده میکنید در بخش زیرین این صفحه، تعدادی از ردیفها و ستونهای این200 رکورد مذکور نشان داده شده است.
در این مرحله است که شما باید با دقت به بررسی دادهها بپردازید تا قبل از اینکه دادهها را در Power BI، بارگذاری (load) کنید، ببینید که آیا آنها مطابق با انتظارات شما هستند یا خیر.
پس از تائید، بر روی دکمه Load کلیک کنید تا مجموعه دادههای کامل را از مخزن UCI بخوانید.
هنگامیکه دادهها Load میشوند، شما باید بتوانید فهرستی از فیلدها را همانطور که در تصویر زیر نشان دادهشده، ببینید. اگر بهدقت مشاهده کنید، در اینجا ستونها نامهای مناسبی ندارد و به این صورت نامگذاری شدهاند: Column1، Column2، Column3، Column4 و Column5.
دلیل این امر این است که دادههایی که از این آدرس URL خوانده میشوند، هیچ عنوانی برای این ستونها ندارد. برای شناسایی آسان و دقیق دادهها، باید نامهای مناسبی را برای این فیلدها در نظر بگیریم. در مخزن UCI تعاریفی از این فیلدها ارائهشده است که بر اساس آن شما میتوانید فیلدها را شناسایی کرده و آنها را نیز تغییر نام دهید.
برای تغییر نام فیلدها، کافی است فقط بر روی نام فیلدها کلیک راست کنید و سپس گزینه Rename را انتخاب کنید. فیلدهای موجود در مجموعه داده IRIS عبارتاند از: Class، Petal Length یا بهاختصار PL، Petal Width (PW)، Sepal Length (SL) و.Sepal Width (SW)
پس از تغییر نام این فیلدها، در حال حاضر قصد داریم یک نمودار scatterplot ایجاد کنیم؛ بنابراین در قاب Visualization بر روی آن کلیک کرده و یک نمودار خالی ایجاد کنید. پس از ایجاد آن، فیلد SL و SW را انتخاب کنید. ما در اینجا به میانگین SL و SW نیاز داریم. که ما باید حالت پیش فرض که عملیات sum بر روی دادهها میباشد را تغییر دهیم. علاوه بر این، اطمینان حاصل کنید که فیلد SL را در بخش جزئیات لیست فیلد اضافه کنید. هنگامیکه aggregation جدیدی را اعمال میکنید، باید تصویری را که در زیر نشان دادهشده، ببینید.
پس از ایجاد نمودار، روی سه نقطه کلیک کنید سپس همانطور که در تصویر زیر میبینید پنجره کوچکی باز میشود. به خاطر داشته باشید که در قسمت Legend نباید هیچ فیلدی به آن افزوده شود؛ که در غیر این صورت، شما قادر به پیدا کردن گزینه Automatically Find Clusters نخواهید بود. علاوه بر این، برای اینکه بتوانیم دادهها را خوشهبندی کنیم باید همگی از یک فرمت باشند.
اگر دادهها مناسب نباشند، گزینه ” Automatically find clusters” در پنجره باز شده قابل مشاهده نخواهد بود. در حالت نرمال، این گزینه منو همیشه باید قابلمشاهده باشد، مگر اینکه فرمت داده نادرست انتخاب شده باشد. که گاها وقتی کاربران این گزینه را مشاهده نمیکنند دچار سردرگمی میشوند و فکر میکنند که ممکن است این مشکل به دلیل قدیمی بودن نسخه Power BI نصب شده بر روی سیستم و عدم بهروززسانی آن رخ داده باشد.
با کلیک بر روی گزینه Automatically find clusters پنجرهای همانند تصویری که در زیر مشاهده میکنید باز میشود. اگر دادهها را تجزیهوتحلیل کنید، خواهید دید که دادهها به سه گروه تقسیم میشوند.
اگر تعداد خوشههایی را که میخواهید بسازید، خودتان مشخص نکنید، الگوریتم بهطور پیشفرض، دادهها را تجزیهوتحلیل کرده و خوشهها را بر اساس تعداد دفعات متفاوتی که از روی دادهها میخواند ایجاد میکند. که در این نمونه، این 10 خوشه را ایجاد خواهد کرد. اما از آنجایی که ما این دادهها را میشناسیم عدد سه را در کادر Number of clusters وارد میکنیم و نامی را برای آن درنظر گرفته و میبینیم که در قسمت Legend اضافه میشود.
پس از کلیک بر روی OK، فیلد جدید اضافه میشود و نمودار باید دادهها را در سه خوشهای که رنگ آنها متفاوت است نشان دهد. سعی کنید که هرکدام از نقاط مربوط به دادهها در نمودار خوشهای خود را به تنهایی بخوانید تا اینکه دقت منطق خوشهبندی را درک کنید.
بهاینترتیب، ما میتوانیم بدون هیچگونه تلاش اضافهای منطق خوشهبندی را اعمال کنیم و خوشهها را در یک scatterplot با استفاده از Power BI نشان دهیم.
درباره مبینا چزانی
دانش آموخته دانشگاه تهران، علاقهمند به کار در حوزه BI و شیفته یادگیری مطالب جدید هستم. و معتقدم هیچ گاه برای آموختن دیر نیست.
نوشته های بیشتر از مبینا چزانیمطالب زیر را حتما بخوانید
-
داده های نمونه و تمرینی برای یادگیری پاور بی آی | Power BI
442 بازدید
-
تنظیم مقدار پیش فرض اسلایسر تاریخ در Power BI
253 بازدید
-
دومین مسابقه بزرگ Power BI ایران
481 بازدید
-
نمونه پروژه داده های اقتصادی با Power BI
831 بازدید
-
نمونه پروژه قند مواد غذایی با Power BI
895 بازدید
-
اولین مسابقه طراحی داشبورد با Power BI
1.6k بازدید
با سلام من تازه با Power Bi اشنا شدم یک سوال دارم من جدول رو به همراه سر ستونهایی دارم که داخل این ستون ها مقادیری مثل False,True ,Blank وجود دارد که نمایش آن برای کاربر از خوانایی بالایی برخوردار نیست میخوام مقادیر نمایشی رو تغییر بدم (مثلا False: غیر قابل ارسال — True: ارسال شده –Blank تعیین وضعیت نشده)
بخشی از عنوان ستونهارو با New Group میشود تغییر داد اما ستونهایی که دارای دو یا سه مقدار است قابل تغییر نیست راهکار چیست؟
پیشنهاد می کنم این کار ها را با کمک گزینه Replace Values در بخش Power Query انجام دهید.