
Data Science Consulting for Electric 能源 Consumption Analysis 和 Forecasting
行业
能源
技术领域
数据科学,MS SQL Server,Python
顾客
客户是一家国际公司,为能源行业的企业提供托管的软件解决方案和咨询服务。
挑战
客户开始为电力公司开发基于云的数据分析软件产品,该产品可以促进电能消耗分析,提供准确的电能消耗预测(每小时,每天和每周),并成为负荷预测和价格确定。
由于客户需要对软件的已开发部分进行第三方审查,以定义其优缺点,并获得有关增强其分析能力和设计所需的机器学习(ML)模型的详细建议,因此他们的项目陷入了停滞。
解
ScienceSoft的团队 数据科学家 数据工程师开始分析客户对未来软件产品的业务目标和要求。之后,他们根据客户的战略和战术目标,回顾了现有的软件架构并提出了增强的架构(图1)。
图1.增强的软件体系结构。
ScienceSoft的专家继续进行了ML代码的审查 and suggested creating ML根据以下过程进行建模:
- 数据采集。
- 探索性数据分析 to investigate data for patterns 和 anomalies, test hypothesis 和 check assumptions.
- 组态 of parameters 和 hyperparameters for training models.
- 数据预处理(处理缺失值,分类值等)。
- 模型探索。
- 模型训练。
- Model evaluation 和 tuning.
- 基于新数据的模型再训练。
为了确保ML模型的高精度,咨询团队 建议客户:
- 利用探索性数据分析(EDA)的全部潜力来检查要素之间的相互关系,发现有趣的子集,并确定预测变量和目标变量之间的相关性。
- 使用纯时间序列模型,包括基于LSTM的神经网络,例如Seq2Seq模型。
- Use classical ML models like LightGBM or XGBoost for time series forecasting 和 revealing the time-dependent data nature.
- 合并其他数据 (公共假日,本地事件,日长,地理位置等)将模型预测提高到下一个精度水平。
- 利用在线机器学习来训练新数据模型。
结果
客户获得了高级软件体系结构以及有关如何创建ML模型以进行准确预测的详细建议。交付的软件将使电力公司能够获得有关电能消耗的准确的短期和中期预测,并改善负荷管理和价格确定过程。
技术领域 和 Tools
Google云端平台,Microsoft SQL Server, 熊猫,Python,Scikit学习, TensorFlow, NumPy, Jupyter.
Drop us a line, 和 our rep will contact you within 30 minutes to arrange an initial discussion.