Untuk memenuhi persyaratan di atas, dalam tulisan ini kami menyajikan sebuah IoT platform analitik data besar untuk memproses dan menganalisis besar volume aliran data smart home. Ayat selanjutnya menjelaskan platform yang diusulkan.
KOMPONEN DESAIN PLATFORM
Gambar diatas menunjukkan arsitektur dari platform yang diusulkan. Terdiri dari IoT analitik data besar dengan node dan cloud komputasi fog sistem. Komponen platform mendukung operasi yang kompleks integrasi berkesinambungan, pemrosesan dan analitik multiple data smart home. Node fog memperluas layanan cloud sistem ke tepi jaringan dekat dengan lokasi fisik smart home, sehingga memungkinkan pemrosesan data lebih cepat dan aplikasi layanan yang hanya dapat dilayani dalam waktu tertentu. Sistem cloud mengambil proses pengangkatan yang berat aplikasi intensif komputasi.
Analitik operasi termasuk penyaringan dan pembersihan, pengelompokan dan agregasi di mana setiap operasi membutuhkan waktu lama tergantung pada sifat data. Berikut ini adalah detail dari platform tersebut,
• Komponen Smart home: Smart home terdiri dari sensor, perangkat, peralatan dan sistem meteran. Komponen-komponennya dari smart home secara kasar dikategorikan ke dalam tiga tingkatan yaitu cyber-fisik, konektivitas, dan kontekstual.
• Layanan Manajemen dan Integrasi IoT: Manajemen IoT layanan adalah subsistem berbasis broker yang bertanggung jawab untuk menangani permintaan layanan IoT dari banyak smart home aplikasi ke dalam sistem cloud
• Fog Computing Nodes: Node fog menyediakan sumber daya tambahan dan layanan komputasi untuk mendukung berbagai pintar aplikasi yang peka waktu di rumah.
• Cloud System: Di platform yang diusulkan, sistem cloud adalah bertanggung jawab untuk menyediakan layanan inti ke aplikasi smart home itu termasuk analisis data historis, penyimpanan diperpanjang kemampuan, dan infrastruktur manajemen smart home inti.
STUDI KASUS
Dalam studi kasus ini, kami melakukan analisis data IoT peralatan dan perangkat dari smart home di Vancouver, British Columbia, Kanada. Data ini tersedia untuk umum dari Harvard Education situs web. Dataset ini terdiri dari pengukuran interval satu menit beberapa peralatan smart home selama rentang dua tahun, April 2012 – April 2014. Kami melakukan analisis data Streaming IOT untuk mengungkap perilaku penghuni penggunaan alat seperti mengidentifikasi pola yang sering dikaitkan dengan peralatan termasuk jam hari, hari dalam seminggu, dan bulan tahun sebagai sarana memahami bagaimana penghuni menjalani rutinitas sehari-hari mereka. Untuk node fog di mana mesin analitis bertanggung jawab melakukan analisis langsung untuk memenuhi persyaratan aplikasi semacam itu sebagai manajemen konsumsi energi, iklan bertarget, aktivitas pengakuan. Idealnya, untuk studi kasus khusus ini dapat skalabel sumber daya komputasi diperlukan untuk meningkatkan kinerja dengan tambahan akuisisi data. Tes kami dilakukan pada node tunggal yang terdiri dari sistem komputer yang menjalankan CPU core i5 dengan 8GB RAM dan 1 TB perangkat penyimpanan. Pengolahan utama sumber daya dialokasikan ke bagian analisis tempat kami memproses 2- tahun data. Waktu berjalan saat ini memakan waktu beberapa menit dapat ditingkatkan dengan lebih banyak sumber daya komputasi, bagaimanapun, itu menunjukkan bahwa satu node fog mampu memproses lebih dari satu smart home.
Pembersihan dan Persiapan Data: Kumpulan data berisi jutaan catatan (contoh data mentah ditunjukkan Tabel 1) dengan a sejumlah besar data tentang peralatan. Data tentang peralatan adalah dikumpulkan setiap menit selama dua tahun (April 2012– April 2014). Pengukuran data ini termasuk: stempel waktu unix, tegangan listrik, tegangan, daya semu. Proses pembersihan data dimulai dengan mengimpor file data dalam skrip Python. Itu proses pembersihan termasuk menghilangkan kolom yang tidak perlu, konversikan Stempel waktu Unix ke tanggal yang dapat dibaca manusia, hapus nilai yang ada di bawah ambang batas daya siaga, menghapus pencilan dan duplikat baris. Seluruh proses pembersihan selesai menggunakan Python dengan ekspresi reguler (RegEx).
Frequent Pattern Mining: Untuk penambangan pola yang sering, kami adalah tertarik menganalisis kejadian ketika peralatan tertentu sedang digunakan dengan memeriksa keadaan ‘‘ AKTIF / MATI ’dan energi konsumsi. Berada dalam keadaan Aktif memungkinkan untuk kesimpulan bahwa a manusia saat ini menggunakan alat tertentu. Informasi ini dapat bermanfaat dalam aplikasi tertentu, dan sebagai hasilnya, data dan pola yang ditambang memiliki nilai untuk industri. Misalnya, oleh mengetahui kapan seorang individu cenderung memiliki televisi berubah pada dapat membantu perusahaan menargetkan iklan. Kami ingin Dapatkan pola-pola ini dalam hubungan-hubungan yang bernilai tersendiri . Secara khusus, kami mempelajari pola penggunaan alat dari seluruh rumah dan mencari untuk mengungkap asosiasi dari domain waktu. Secara formal, biarkan A menjadi a database yang terdiri dari n itemsets T1 sedemikian rupa sehingga A = (T1, T2,..., Tn). Sebuah itemset dianggap sebagai pola yang sering jika muncul dengan frekuensi tertentu dalam transaksi basis data. Pengguna dapat menentukan level threshold dari penghitungan frekuensi dari suatu itemset dalam suatu transaksi. Salah satu metode untuk menentukan frekuensi hitungan dikenal sebagai hitungan dukungan yang didefinisikan sebagai perhitungan statistik frekuensi suatu itemset dalam suatu transaksi dibawa melalui database A. Sebagai contoh, dua itemsets I (I ⊆ A) dan J (J ⊆ A) dihitung sebagai pola yang sering dalam suatu transaksi jika mereka dukungan sI dan sJ berada di atas nilai ambang batas yang dikenal sebagai minimum mendukung mntup. Dalam kasus menemukan pola yang sering, maka aturan asosiasi ditentukan. Aturan asosiasi dinyatakan sebagai {I ⇒ J} dan berasal dari dukungan - kepercayaan, di mana dukung sI⇒J sedemikian rupa sehingga s (I ⇒ J) = sI⇒J = s (I ∪ J) adalah persentase dari semua transaksi yang memiliki (I ∪ J) di A. Dukungan mewakili prakondisi bersama dari asosiasi ini dalam database sementara keyakinan adalah prasyarat yang berkontribusi pada konsekuensinya. Dalam pengertian ini, frekuensi itemset dalam suatu transaksi menunjukkan signifikansi statistik dari aturan asosiasi (artinya probabilitas P (I, J)), ditentukan oleh kepercayaan (I∪J) | | s (I) | (berarti probabilitas bersyarat P (I | J)) [46,38]. Kami sering menggunakannya algoritma pola FP-Pertumbuhan [46,38] dan perluasannya [5] dalam hal ini dataset smart home. Prosedur (1) menunjukkan langkah-langkah menangkap pola-pola yang sering dari dataset. Buah ara. 4, 5, dan 6 pertunjukan pola konsumsi energi enam peralatan di rumah terdiri dari jam sehari, hari minggu, bulan tahun. Kami mendaftar ambang batas dukungan minimum 30% pada dataset dan berbalik semua nilai yang berada di bawah ambang ke 0 dan semua yang di atas hingga 1. Ini memungkinkan kita untuk mendapatkan matriks biner untuk memeriksa apa peralatan digunakan pada waktu tertentu seperti yang ditunjukkan pada Tabel 2.
Hasil akhir dari penambangan pola sering adalah asosiasi antara peralatan yang merupakan hasil dari penggunaan simultan dari alat oleh penghuni. Gambar 7 menunjukkan contoh penggunaan per jam dan penggunaan perangkat per hari dalam seminggu. Dari Gambar 7-a itu terlihat dua peralatan yang paling banyak digunakan adalah mesin pencuci piring dantelevisi antara jam 6 sore - 10: 30 sore. Untuk ketiganya peralatan (mesin pencuci piring, pengering, dan televisi) pada saat yang sama, waktu yang paling mungkin hari ini akan terjadi antara 8–8: 30 sore. Hari-hari dalam seminggu di Fig. 7-b menunjukkan hal itu sangat sering mesin pencuci piring dan televisi sering bersama di waktu yang sama. Memeriksa setiap hari secara individual, Anda dapat melihat tertentu pola seperti Senin dan Selasa malam mesin pencuci piring dan televisi berada dalam waktu paling lama atau hari Sabtu televisi dan mesin pencuci piring ada di malam hari.
Penambangan Gugus: Analisis pola yang sering dijumpai di atas wawasan tentang bagaimana penghuni smart home memanfaatkan bersama peralatan mereka. Analisis pengelompokan memungkinkan kami menginterpretasikan waktu terkait dengan kelompok peralatan. Ini agak penting untuk mengungkap perilaku lebih dalam konsumsi energi alat waktu spesifik (misalnya jam sibuk). Untuk mencapai tujuan ini, kami mengimplementasikan algoritma pengelompokan k-mean di [38]. Dasar prinsip algoritma k-mean adalah bahwa ia mendefinisikan pusat k yang ditempatkan di posisi tertentu dari satu sama lain. Kemudian, fungsi G (z) = Σk i = 1 ΣCij = 1 (∥ai - bj∥) 2 digunakan untuk menentukan nilai kesalahan kuadrat, di mana ai - bj adalah jarak Euclidean antara a dan b, Ci mewakili jumlah titik data di dalamnya gugus. Menentukan jumlah k yang optimal sangat penting untuk didapatkan hasil yang lebih baik. Ada banyak metode untuk menentukan yang ideal angka k seperti yang dijelaskan dalam [47]. Pendekatan dalam pekerjaan ini menggunakan Koefisien siluet sebagai alat penghitungan yang optimal angka k [48]. Metode ini pada dasarnya mengukur kualitas klaster dengan mengevaluasi seberapa baik titik data diposisikan dalam sebuah cluster. Ini menghitung jarak rata-rata yj yang diberikan sebagai xj = rata-rata {dis (yj, yi)} ke semua titik data lainnya di cluster Ci dan kemudian tentukan wj = min (wj) di semua kluster kecuali Ci. Koefisien Silhouette untuk yj ditentukan sebagai ryj = (wj − xj) max (xj, wj) dan Koefisien Silhouette untuk cluster Ci dan untuk memiliki k cluster sebagai rCi = rata-rata (syj) untuk j = d1..dn dan rk = rata-rata (sCi) untuk i = 1..k masing-masing. Semakin tinggi nilai siluet rata-rata, semakin baik pengelompokan. Dengan kata lain, Silhouette rata-rata menyediakan observasi tentang berbagai nilai k ∈ 1, 2, 3. . .m, di mana m mewakili objek unik dalam kumpulan data. Untuk mencari tahu jumlah cluster optimal, proses ini terus dijalankan dan koefisien Silhouette rata-rata dihitung sampai menemukan jumlah cluster optimal yang memaksimalkan rk. Gambar 8 menunjukkan pengelompokan peralatan pada jam hari, di mana kekuatan klaster menandakan frekuensi penggunaan alat, yaitu, kekuatan yang lebih tinggi dari gugus untuk alat menunjukkan penggunaan lebih tinggi selama periode tersebut. Penggunaan lebih tinggi atau lebih rendah alat, yaitu, pola penggunaan alat bisa langsung perwakilan perilaku konsumsi energi penghuni. Seperti itu analisis dapat dilakukan pada berbagai tingkatan seperti individu rumah, kelompok rumah, komunitas atau lingkungan, atau di tingkat sistem. Ketika dilakukan pada tingkat yang lebih tinggi seperti lingkungan atau tingkat sistem, hasilnya dapat membantu profil rumah sesuai untuk perilaku konsumsi energi dan menyesuaikan respons permintaan mekanisme menjadi lebih efisien. Selanjutnya, di satu rumah, hasil dapat membantu menyesuaikan rekomendasi untuk mengurangi rumah tangga biaya energi sambil menghormati penghuni mengharapkan kenyamanan. Selain itu, layak untuk mempertimbangkan pembangkit energi terbarukan di tingkat lingkungan atau rumah untuk menyempurnakan respons permintaan program atau rekomendasi pengurangan energi.