数据中心动态

2018-10-26 09:10:01

精彩回顾

【独家干货】基于现有运营效果和潜在需求优化汽车共享出行网点选址研究:成都案例(上)


4

结果和讨论


如第3节所述,我们采用订单量最低的20%和最高的20%网格作为样本集。分位数分别为0.79和6.33,即选择日均订单量小于0.79和大于6.33的网格作为样本。总样本量为737,其中370个样本为无需求,367个需求量很大。我们随机选择500个样本(约占总样本的65%)作为训练集,剩下的作为测试集。由于人口密度和POI信息的数值尺度不同,所有变量均按其均值和标准误差进行归一化(如表4.1所示)。

表4.1 所有变量的均值和标准误差

CRS

FB

SH

DS

SR

MS

AS

TA

CH

GS

平均值

0.3

32.35

57.49

29.31

4.93

6.32

5.83

0.37

5.12

4.14

标准差

0.67

43.51

90.96

34.67

6.83

8.32

14.78

1.24

7.51

6.77

SS

BS

US

TS

AP

PL

FS

EN

POP

平均值

7.34

1.51

0.072

0.008

0.004

8.89

1.23

16.24

1882

标准差

11.35

1.4

0.26

0.09

0.06

10.09

2.23

33.81

5621.53

 

逻辑回归

逻辑回归的结果如表4.2所示。只有五类POI变量:餐饮、医疗服务、政府组织和社会团体、公交车站、停车场是显著的(5%显著性水平)。餐饮POI对需求存在的可能性产生正面影响,而医疗服务、政府组织和社会团体则产生负面影响。根据研究和调查,布设在政府组织的汽车共享出行网点常常会受到进入限制,因为只有在其中的工作人员才能进入这块区域。一旦在这些网点归还车辆,出现下一个订单总是需要很长时间。医疗服务的负面影响可归因于停车位有限并且停车需求巨大,网点可能会被社会车辆占用。公交车站的系数也是正的,这与文献中的结论相同(Chen et al., 2018; Wagner et al., 2016)。停车场对需求存在的可能性有积极的影响,这意味着空间越大越能为建立汽车共享出行网点提供机会。然而,Chen的论文(Chen et al., 2018)得出的结论是,更多的停车位只会带来更多的私人车辆,而不是共享汽车服务。

表4.2 逻辑回归结果

系数

标准差

p

Intercept

0.2569

0.1211

0.0338

FB

0.9960

0.2404

<0.001

MS

-0.3401

0.1581

0.0315

GS

-0.5480

0.1383

<0.001

BS

0.2814

0.1307

0.0313

PL

1.3981

0.2182

<0.001

 

使用LASSO的逻辑回归

使用LASSO的逻辑回归为模型引入了一个惩罚项。结果如表4.3所示。由于LASSO是一种收缩方法,非显著变量的系数将缩小为零,因此该方法没有p值,而且p值对LASSO等偏差回归也没有意义。选取模型偏差最小λ等于0.01973。七类POI变量:餐饮、休闲娱乐、政府组织和社会团体、汽车站、火车站、机场、停车场给出了非零系数。与逻辑回归结果相比,餐饮、政府组织和社会团体、公交车站、停车场具有相同的效果。医疗服务在这个模型中不再显著,相反,体育与休闲会正面影响需求存在的可能性,原因可能是访问休闲娱乐类POI的人群主要是由对共享汽车模式具有高接受度和高使用频率的年轻人组成(Martin et al., 2010a)。在这个模型中,火车站和机场也是显著的,这可以归因于它们的交通枢纽功能,有着高曝光率和大量的移动人口。

表4.3 使用LASSO的逻辑回归结果

Intercept

FB

SR

GS

BS

TS

AP

PL

系数

0.1318

0.4652

0.1587

-0.2717

0.1641

0.01721

0.0336

1.0114

 

线性判别分析

如3.3节所述,线性判别分析(LDA)假设样本来自多元高斯分布,其中均值向量对于不同类别是唯一的,并且协方差矩阵是相同的。表4.4显示了需求为0和需求为1时每个类的平均值向量。协方差矩阵如附录A所示。这两个类的先验概率为0.502,为0.498。

表4.4 需求为0和需求为1时每个类的平均值向量

CRS

FB

SH

DS

SR

MS

AS

TA

CH

GS

需求0

-0.2109

-0.4108

-0.2850

-0.3978

-0.3692

-0.2867

-0.2561

-0.1173

-0.3205

-0.0866

需求1

0.1552

0.3963

0.3203

0.4089

0.3401

0.2754

0.2615

0.0390

0.3431

0.1573

SS

BS

US

TS

AP

PL

FS

EN

POP

需求0

-0.3451

-0.2901

-0.0778

-0.0905

-0.0014

-0.4602

-0.2755

-0.2301

-0.1000

需求1

0.3720

0.2864

0.0947

0.0435

0.0622

0.5125

0.3065

0.3012

0.1076

 

二次判别分析

二次判别分析(QDA)的均值向量与LDA相同。但是,QDA假设这两个类的协方差矩阵不同。结果见附录B。

 

朴素贝叶斯

朴素贝叶斯假设每个变量是独立的,这里进一步假设在每个类中每个变量都服从高斯分布。按类分组的其他变量的平均值和标准偏差如表4.5所示。火车站在类需求等于0中是常数,因为其标准差为零。它们的分布见附录C。

表4.5 按类分组的预测变量的平均值和标准差

需求0

需求1

变量

平均值

标准差

平均值

标准差

CRS

-0.2109

0.7259

0.1552

1.1169

FB

-0.4108

0.6177

0.3963

1.1262

SH

-0.2850

0.6372

0.3203

1.2895

DS

-0.3978

0.6668

0.4089

1.1068

SR

-0.3692

0.5560

0.3401

1.0806

MS

-0.2867

0.8778

0.2754

1.0337

AS

-0.2561

0.3561

0.2615

1.3175

TA

-0.1173

0.5521

0.0390

0.6665

CH

-0.3205

0.7296

0.3431

1.1695

GS

-0.0866

0.9128

0.1573

1.1696

SS

-0.3451

0.4995

0.3720

1.2910

BS

-0.2901

0.8360

0.2864

1.0089

US

-0.0778

0.8589

0.0947

1.1439

TS

-0.0905

0.0000

0.0435

1.2157

AP

-0.0014

0.9907

0.0622

1.4038

PL

-0.4602

0.6131

0.5125

1.1715

FS

-0.2754

0.6450

0.3065

1.2305

EN

-0.2301

0.5698

0.3012

1.3990

POP

-0.1000

0.7764

0.1076

1.1253

 

比较这五个模型

我们运用AUC值和预测准确率来评判分类器的性能。AUC值是感受性曲线(ROC)下的面积,数值在0到1之间。该值越高,说明模型的分类能力越好。准确率通过正确预测的数量除以预测的总数来计算。用剩余的237个观测值来测试这些模型。表4.6列出了前五种模型的这两项指标的数值。可以看到所有模型的AUC值介于0.8和0.9之间,准确率介于0.65和0.8之间。QDA模型产生最小的AUC值和准确率,而使用LASSO的逻辑回归或纯逻辑回归效果最佳,因为它们的AUC值和准确率是最大的。LDA模型和朴素贝叶斯模型比逻辑回归稍差。因此可以选择纯逻辑回归或使用LASSO的逻辑回归作为最终模型。在这里选择的是使用LASSO的逻辑回归。

 

共享汽车网点选址优化

对于所有58724正方形网格,使用表4.1中的均值和标准误差对它们进行标准化,然后使用上述LASSO模型进行逻辑回归。图4.1显示了这些网格现有订单量和存在需求的预测值的对比。左图(a)显示了整个58724个网格的结果。可以看到大多数网格的订单量都小于10,为了清楚展示,在图(b)中绘出这些网格。将预测值大于0.5的定义为高需求而其他则定义为低需求。此外,将日均订单量低于1的视为低订单热度否则为高订单热度。因此,网格可以分为4组,如图4.1(b)所示:I:高需求热度和高订单热度;II:高需求热度和低订单热度;III:低需求热度和低订单热度; IV:低需求热度和高订单热度。对于III组网格中的网点,建议运营商经过例如调查两个订单之间的时间间隔的研究后关闭或移除它们。对于第IV组的网点,需要进一步的工作来确认这里是否省略了其他影响因素,因为低需求热度和高订单热度相互冲突。在优化共享汽车网点的位置时,本研究将主要关注I组和II组。图4.2显示了成都市高需求热度的网格。红色表示组I,蓝色表示组II。很明显,这些网格大部分集中在市中心和镇中心,这些地方也是人群和商业的聚集区。

 

图4.1需求的预测值 vs 现有订单量:(a)整个58725正方形网格。(b)订单量小于10的网格。

图4.2 成都需求热度高的网格:红色表示高订单热度的网格; 蓝色表示低订单热度的网格

 

对于I组和II组的网格,通过研究可以向运营商F和运营商H在优化共享汽车网点位置时提供建议,考虑一下三种情况:

•情况1:没有运营商F网点且至少有一个运营商H网点的网格

•情况2:没有运营商H网点且至少有一个运营商F网点的网格

•情况3:没有运营商H网点且没有运营商F网点的网格

图4.3到4.5表示了这三种情况。在情况1中,可以看到运营商H占据了市中心的大部分空间,并且大多数网格具有高订单量,这意味着在这些网格中运营商H的运营效果非常好。只有几个网格具有低订单量,运营商F可以考虑优先在这些地点布设网点。在情况2中,运营商F垄断了数百个围绕市中心的高需求网格。然而,在成都西北部,大多数网格都是低订单量,这表明运营商H有机会在其中布设网点。此外,在情况3中,会发现这两家运营商尚未进入城镇中心,而这里大多数格网拥有高需求热度。建议这两个运营商在这些地区进行调查后考虑布设网点。

图4.3 情况1:没有运营商F网点且至少有一个运营商H网点的网格

图4.4 情况2:没有运营商H网点且至少有一个运营商F网点的网格

图4.4 情况3:没有运营商H网点且没有运营商F网点的网格

 


5

结论

 

 

本研究的重点是优化成都市场的共享汽车网点。主要方法是尝试结合当前订单数据来估计潜在需求。与先前使用多元线性回归模拟需求的研究不同,本研究将问题转化为需求存在与否的二元问题。尝试五种分类模型对其进行建模并预测需求存在的概率。使用了三种数据源:来自运营商F和运营商H的日均订单量,POI信息和人口数据。从五种模型中得出如下结论:

  • 在逻辑回归中,餐饮、公交车站和停车场对需求存在的可能性有正面影响,而医疗服务、政府组织及社会团体则有负面影响。

  • 使用LASSO的逻辑回归分析表明,餐饮、休闲娱乐、汽车站、火车站、机场和停车场对需求存在的可能性产生正面影响,政府组织和社会团体具有相反的效果。该模型结果包含可能增加共享汽车服务需求的交通枢纽。

  • 线性判别分析(LDA)模型和二次判别分析(QDA)模型计算需求为0的先验概率为0.502,需求为1为0.498。然后估计多维正态分布的均值向量和协方差矩阵以计算后验概率。

  • 在朴素贝叶斯模型中,假设每个变量是独立且正态分布的,并估计其在每个类的平均值和标准差。类别需求=0中火车站的标准偏差为零,因此将其视为常数。

  • 通过AUC值和准确率比较这五个模型的效果,发现QDA模型给出了最差估计,而逻辑回归和使用LASSO的逻辑回归表现最佳。LDA比这两个模型稍差,朴素贝叶斯模型的效果略好于QDA。可以得出的结论是线性模型在本案例中效果更好。

最终选择使用LASSO的逻辑回归作为最终模型,并用于估计所有网格需求存在的概率。大于0.5的预测概率被视为高需求,否则为低需求。这些需求高的网格集中在市中心或镇中心。结合现有订单量,定义了4组网格。针对每个组给出了关于优化共享汽车网点位置的不同建议。建议运营商F和运营商H在高需求且未建立网点的网格中布设网点,并关闭或移除低需求和低订单量网格中的部分网点。还建议运营商H在成都西北部中需求量大且运营商F运营效率低的网格进行布设。

然而,本文的研究仍然存在一些局限性。

  • 首先,成都是一个竞争激烈的市场,拥有五家以上共享汽车运营商,在本文研究中仅考虑了两家。若不考虑其他运营商,这些建议可能会失效。

  • 其次,本研究基于500米×500米的正方形网格,适用于市中心,但对于其他建筑密度低的区域来说网格太小。

  • 第三,研究中没有考虑布设网点的成本这一很重要的因素,包括租用停车位、建造充电桩和购买电动车。在本研究中,高订单量和低订单量的划分仅以1为分界,然而,高成本网点需要高订单量来赎回成本。因此,这种定义应根据布点的成本不同而变化。

  • 第四,主观地根据日均订单量选择最低的20%和最高的20%网格作为样本。可以再尝试应用其他方法,例如最低的30%和最高的30%以覆盖更多的观测值。4组的定义也是主观的,可以选择诸如聚类等更客观的方法。

  • 第五,本文使用的模型都基于严格的假设。还可以应用更多的分类算法,如自举汇聚法(bagging)、提升(boosting)、随机森林(random forest)和高斯过程(Gaussian Process)。

  • 第六,订单量只考虑取车行为,未考虑还车行为。一个网点可能有较低的取车订单量,但同时又有较高的还车订单量,这称为使用不平衡。此类网点应该谨慎做决策。

  • 第七,在训练分类模型之前可以首先进行变量选择工作,因为并非所有变量都会影响结果。

 

参考文献

X. Chen, J. Cheng, J. Ye, Y. Jin, X. Li, and F. Zhang. Locating station of one-way carsharing based on spatial demand characteristics. 2018.

F. Ciari, C. Weis, and M. Balac. Evaluating the influence of carsharing stations’ location on potential membership: a swiss case study. Euro Journal on Transportation & Logistics, 5(3):345–369, 2016.

G. H. D. A. Correia and A. P. Antunes. Optimization approach to depot location and trip selection in one-way carsharing systems. Transportation Research Part E Logistics & Transportation Review, 48(1):233–247, 2012.

A. D. Febbraro, N. Sacco, and M. Saeednia. One-Way Carsharing: Solving the Relocation Problem. 2012.

T. Hastie, R. Tibshirani, J. H. Friedman, and J. Franklin. The elements of statistical learning, second edition: Data mining, inference, and prediction. Mathematical Intelligencer, 27(2):125,210–211, 2009.

G. James, D. Witten, T. Hastie, and R. Tibshirani. An Introduction to Statistical Learning. Springer New York, 2013.

D. Jorge, G. Correia, and C. Barnhart. Testing the validity of the mip approach for locating carsharing stations in one-way systems. Procedia - Social and Behavioral Sciences, 54(54):138–148, 2012.

M. Klincevicius, C. Morency, and M. Trépanier. Assessing impact of carsharing on household car ownership in montreal, quebec, canada. Transportation Research Record Journal of the Transportation Research Board, 2416(2416):48–55, 2014.

V. P. Kumar and M. Bierlaire. Optimizing locations for a vehicle sharing system. In Swiss Transport Research Conference, 2012.

W. Li, Y. Li, J. Fan, and H. Deng. Siting of carsharing stations based on spatial multicriteria evaluation: A case study of shanghai evcard. Sustainability, 9(1):152, 2017.

E. Martin, S. A. Shaheen, and J. Lidicker. Carsharing’s impact on household vehicle holdings: Results from a north american shared-use vehicle survey. Institute of Transportation Studies Working Paper, 46(2143):150–158, 2010a.

E. Martin, S. A. Shaheen, and J. Lidicker. Impact of carsharing on household vehicle holdings: Results from a north american shared-use vehicle survey. Transportation Research Record Journal of the Transportation Research Board, 2143(-1):150–158, 2010b.

A. Millard-Ball, G. Murray, J. T. Schure, C. Fox, and J. Burkhardt. Car-sharing: Where and how it succeeds. Tcrp Report Transportation Research Board of the National Academies, 2005.

S. D. Pohekar and M. Ramachandran. Application of multi-criteria decision making to sustainable energy planning—a review. Renewable & Sustainable Energy Reviews, 8(4):365–381, 2004.

S. Schmöller, S. Weikl, J. Müller, and K. Bogenberger. Empirical analysis of free-floating carsharing usage: The munich and berlin case. Transportation Research Part C, 56:34–51, 2015.

J. T. Schure, F. Napolitan, and R. Hutchinson. Cumulative impacts of carsharing and unbundled parking on vehicle ownership and mode choice. Transportation Research Record Journal of the Transportation Research Board, 2319(-1):96–104, 2012.

SEDAC. http://sedac.ciesin.columbia.edu/data/collection/gpw-v4.

S. Shaheen. Innovative mobility carsharing outlook: Carsharing market overview, analysis, and trends - summer 2014 (volume 3, issue 1). 2014.

S. Wagner, T. Brandt, and D. Neumann. In free float: Developing business analytics support for carsharing providers. Omega, 59, 2016.

S. Weikl and K. Bogenberger. Relocation strategies and algorithms for free-floating car sharing systems. Intelligent Transportation Systems Magazine IEEE, 5(4):100–111, 2013.


排版:苏阳

审核:程煜