基于强化学习的能源消耗优化研究

AI Dec 24, 2018

随着大众生活水平的不断提高，人们对于室内环境的要求也随之提高。现在，中央空调已被广泛应用于如今的楼宇中，在室内环境的调节上起到了至关重要的作用。室内环境的温度对人体的舒适度有着决定性的影响，据国内外学者研究发现，若室内环境质量得以改善，其室内工作人员的效率将提高 15% ~ 20%。与此同时，室内温度的控制与能源消耗也是息息相关，空调在给人们带来舒适的生活、工作环境的同时，也带来了建筑能耗大幅度上升等一系列问题。

据统计数据显示，空调的能耗占到建筑总能耗的 30%-50% 左右，而且目前呈逐年递增的趋势。因此，随着空调系统在建筑中的广泛应用，其节能问题也越来越为人们所重视。如何降低空调能耗己经成为当前建筑能耗优化的一个重要问题。

在之前的文章中我们有提到，在经历了长达半年的数据收集实验之后，我们建立了一个基于深度学习的热舒适度模型，相比于 PMV 模型 36.27% 的绝对准确度，我们的模型可以拥有 63.08% 的高精度，性能提升非常明显。基于此，既然机器学习在提高人体舒适度方面有着惊人的表现，那么类似的技术能不能用在建筑能耗优化方面呢？于是，我们注意到了强化学习。

强化学习的简要介绍

目前最热门的机器学习算法有深度学习、强化学习和迁移学习。深度学习主要解决问题的领域是分类、回归；迁移学习主要是使用在缺乏足够数据量的场景。而强化学习强调如何基于环境而行动，以取得最大化的预期利益，其所带来的推理能力是智能的一个关键特征衡量，真正的让机器有了自我学习、自我思考的能力。在对比了几种机器学习的算法之后，我们选择了强化学习作为研究的方向。

强化学习包含五个元素：首先是智能控制代理 (agent)，这是一个被抽象出来感知周围环境的单元。然后，该单元会与对应的环境 (environment) 进行互动来观察环境的状态 (state) 以及获取学习过程中的反馈，在强化学习中被称作奖励 (reward)。之后，基于观察到的状态和获取的奖励，智能控制代理 (agent) 会尝试采取各种行动 (action)来影响环境来获取最大的预期效益以学习互动策略。最后，如此循环往复，智能控制代理 (agent) 就能学会一个跟该环境互动的最佳策略。

应用在真实环境的可行性

我们最早的打算是装修一个实验室，室内的空调使用可编程接口来控制，除此之外，我们要再实现一个基于强化学习的控制器，控制器的环境 state 就是当前室内环境，控制器的动作 action 会控制空调的温度出风量除湿等等模块，控制器的反馈 reward 由用户的舒适度和空调读出的能耗按照不同比重来组成，通过使用不同的权重，在后续的学习中可以达到一个能耗和舒适度的平衡。

关于环境状态的检测，我们买了一套无线传感器网络，并且实现了相关的代码来采集环境数据；关于用户的反馈信息收集，我们之前也已经开发了乐康福 (iTCM) 智能管理系统，用户需要每隔一段时间上传一次反馈数据。这就意味着我们是可以拿到所有想要的数据的，这个方案是可行的，通过这些数据，让我们的智能控制代理可以不断的学习，理论上在经过一段时间的学习之后，建筑中人的舒适度以及能源消耗水平会达到一个最优的状态。

仿真环境的细节实现

但是装修实验室并不是那么容易的，需要经过层层审批，也要空调供应商开放私有接口给我们调用，装修方案设计的配合，以及后续一系列的合作问题。在此条件下，我们考虑使用仿真软件，来验证我们这套方案的可行性。

主流的仿真软件有 TRNSYS 和 Energy Plus，在经过一段时间的试验以后，我们决定采用 TRNSYS，理由是我们做仿真的主要目的是验证强化学习在能源优化方面的作用，具体空调暖通系统内部实现的原理，我们可以做深入了解。对于此次的研究来说，我们只需要一个空调暖通系统黑盒子，可以设置环境参数，可以读取环境参数就足够了。TRNSYS 有着一个更加友好的 UI 界面，以及提供了外部 Matlab 接口调用，支持和外部的通信，才使得集成进基于机器学习的控制器变的可行。

随后，我们建立了 TRNSYS 的仿真工程，并且找到相关领域的研究者对仿真参数进行了调整。仿真方案在带来方便快捷的优势的同时，也带来一个致命的问题：仿真环境中，人不是一个有生命的实体，而只是一个会散发热量，增加热能增益的发热器，更不要提他会有什么反馈，这就使得我们之前的研究，没办法在这次仿真当中应用，最终结果的准确度也大打折扣。在预测舒适度算法的选择上，目前我们仍然是选择了 PMV 算法。

PMV (predicted mean vote) 标准是该领域最早的规范，PMV指标代表了同一环境下绝大多数人的感觉，所以可以用来评价一个热环境舒适与否，但是人与人之间存在个体差异，因此PMV指标并不一定能够代表所有个人的感觉。尽管他已经被广泛应用，仍然有着不少的问题需要讨论：1. 当时的实验者都是欧美人，那么这个基于欧美人做出来的经验性方程来预测亚洲人，非洲人的热舒适准不准呢？2. 即便是环境不变，在一个相同热环境呆久了，人的舒适度，热感觉会变吗？针对以上问题，用一个通用的PMV公式，显然是无法解决所有问题的，但是得益于机器学习参数越多结果越准确的特性，机器学习目前看来是解决这个问题的最佳途径之一。

引入强化学习后带来的节能提升

在仿真项目创建完之后，我们着重于解决强化学习算法的集成问题，TRNSYS 开放了 Matlab 接口，可以和特定版本的 Matlab 进行通信，但是我们之前的机器学习代码都是用 Python 写的，于是我们实现了一套机制，可以让 Python 和 Matlab 通信，Matlab 作为一个数据桥梁，从而实现 Python 机器学习代码对仿真软件的控制，如下图所示。

从实验结果看，在经过 200 个 Episode 学习之后，强化学习中的 reward 已经逐渐收敛了，这意味着学习算法已经学到了一个不错的策略，此时的 reward 几乎不可能再高了，这是在舒适度和能源消耗之间找到的一个平衡。

而在能源节约方面，Baseline 我们设定的是 24 度恒温、相对湿度 60%，不同的 strategy 代表的是舒适度和能耗之间的取舍，如果牺牲一定的舒适度来换取能耗最优的话，我们在仿真环境下得出一个7%左右的能源节约量，这个能耗只是在 TRNSYS 中读出的制冷功率以及除湿功率相加的和。在实际应用中，由于空调还有其他部分在消耗电能，节能的百分比可能不会有这么高。

尽管这只是一个仿真环境的模拟实验研究，至少这个研究验证了机器学习在建筑能耗优化方面是有着正面积极的作用的。后续我们也会尽我们所能在真实环境下部署这套系统，以验证这套整体方案的性能，请期待我们后续的文章。

总的来看，我们可以明显感受到机器学习在建筑优化方面的惊人表现，机器是可以做到持续提高自己的性能表现。相信在不久的将来，机器学习不会只局限于学术界，而是进入到生活中的方方面面。

Recommended for you

Blog

继续谈谈人工智能 AI 和区块链 Blockchain 的前景

6 years ago • 7 min read

关于 Clash 科学上网的最佳实践

TL-R5408M 拆机 / 芯片设计评测

关于 TP-LINK XDR6088 那些有的没的

记一次 DDoS (刷流量) 攻击来源地梅州市五华县

基于强化学习的能源消耗优化研究

强化学习的简要介绍

应用在真实环境的可行性

仿真环境的细节实现

引入强化学习后带来的节能提升

Tags

Jie Li

Recommended for you

继续谈谈人工智能 AI 和区块链 Blockchain 的前景

关于 Clash 科学上网的最佳实践

TL-R5408M 拆机 / 芯片设计评测

关于 TP-LINK XDR6088 那些有的没的

记一次 DDoS (刷流量) 攻击 来源地梅州市 五华县

强化学习的简要介绍

应用在真实环境的可行性

仿真环境的细节实现

引入强化学习后带来的节能提升

Tags

Jie Li

Recommended for you

继续谈谈人工智能 AI 和区块链 Blockchain 的前景

记一次 DDoS (刷流量) 攻击来源地梅州市五华县