یادگیری تقویتی (reinforcement learning ) یکی از روشهای یادگیری مبتنی بر پاداش و جریمه می باشد ، امروزه نیاز اساسی کشور ما در بهینه سازی و مصرف درست انرژی ، قابل انکار نیست و از جهتی ابزارهایی برای نظارت در ابعاد بزرگ وجود ندارد و هزینه انجام نظارت به روشهای سنتی هم خیلی بالا و عملا قابل انجام نمی باشد ، لذا روشهای هوشمند میتواند جایگزین خوبی برای این موضوع باشد ، اما روشهای نظارت یادگیر میتواند در موضوعات اجتماعی باعث ایجاد الگوهای درست و در بلند مدت ایجاد خود نظارتی کند و عامل (شهروند ) تصمیم گیری درست بر اساس سود حاصل از مصرف بهینه را بصورت مستقیم درک میکند.
در این مدل سازی عامل ، شهروندان هستند و وضعیت مصرف هر دوره میتواند (state ) در نظر گرفته شود و اقدام (action) ما میتواند تصمیم در خصوص کم کردن مصرف باشد , یا تغییر نوع مصرف کننده از نظر نوع سوخت و نوع کالای مصرف کننده و اقدامات دیگر، پاداش و جریمه هم میتواند تعریفی از بهاء انرژی و مشوق های دیگری که بر اساس سیاستهای دولت میتواند در نظر گرفته شود.
در این مدل سازی برای نظارت و یادگیری شهروندان ، در ابتدا شهروندان بر اساس الگوی مصرف مرتب شده و میتوان طرح برای مشتریان پر مصرف جامعه که معمولا کمتر از ۲۰ درصد جامعه هستند اجرایی شود ، این موضوع میتواند در فاز اول با هزینه خیلی کم و انتخاب پاداش و جریمه درست باعث نتایج جالبی باشد.
انتخاب پاداش و جریمه درست از نکات کلیدی این طرح بوده و پاشنه آشیل طرح می باشد.
بطور مثال برای افراد پر درآمد ، هزینه بیشتر گاهی جوابگو نمی باشد و قطع انرژی شاید حتی برای لحظاتی بیشتر جوابگو باشد و پاداش هم همیشه تخفیف قیمت نبوده و بعضاً پاداش های معنوی ( اعلام لیست مشترکان کم مصرف در محله و تشویق در جمع و …) میتواند نتایج بهتری باشد.
البته همه موارد فوق در کنار عزم جدی دولت ها در نظارت بر تولید کالاهایی با مصرف انرژی بهینه میتواند نتیجه بخش بوده و همین مدل میتواند بر تولید کنندگان هم اعمال شود.
امیدوارم بدانیم با مصرف درست و بهینه انرژی میتوانیم درآمد زیادی بصورت مستقیم و غیر مستقیم برای خانواده و جامعه خودمان داشته باشیم .
سید علی حسینی
دکتری هوش مصنوعی
دبیر مجمع مطالبه گران استان خراسان رضوی