一、聚類分析算法介紹
1、聚類分析
聚類分析是一類將數(shù)據(jù)所研究對象進(jìn)行分類美城市試驗日本風(fēng)力渦輪機技術(shù)的統(tǒng)計方法。這一類方法的共同特點是:事先不知道類別的個數(shù)與結(jié)構(gòu);據(jù)以進(jìn)行分析的數(shù)據(jù)是對象之間的相似性或相異性的數(shù)據(jù)。將這些相似(相異)性數(shù)據(jù)看成是對象之間的“距離”遠(yuǎn)近的一種度量美城市試驗日本風(fēng)力渦輪機技術(shù),將距離近的對象歸入一類美城市試驗日本風(fēng)力渦輪機技術(shù),不同類之間的對象距離較遠(yuǎn)。這就是聚類分析方法的共同思路。
聚類分析根據(jù)分類對象不同分為Q型聚類分析和R型聚類分析。Q型聚類分析是指對樣本進(jìn)行聚類,R型聚類分析是指對變量進(jìn)行聚類。本文只考慮使用Q型聚類分析,即對樣本進(jìn)行聚類。
2、選擇使用K-means算法
K-means算法是動態(tài)聚類算法中的一種,該算法效率較高,而且不容易受初始值選擇的影響。用來分析定位弱覆蓋區(qū)域,由于經(jīng)緯度分布面較廣,需要對初始質(zhì)點的數(shù)量選擇進(jìn)行慎重選擇,后續(xù)考慮通過計算對比優(yōu)化。
K-means算法:
a選擇K個點作為初始質(zhì)點;
b將每個點指派到最近的質(zhì)點,形成K個簇(聚類);
c重新計算每個簇的質(zhì)點;
d重復(fù)2-3直至質(zhì)點不發(fā)生變化。
二、弱覆蓋區(qū)域樣本數(shù)據(jù)分析篩選
在Http://42.99.18.29:9703/4D32B0CF493B74B0/提取5月1日至15日業(yè)務(wù)感知數(shù)據(jù),整理匯總并按集團(tuán)要求剔除無效數(shù)據(jù)。
三、針對不同數(shù)量的質(zhì)點對樣本數(shù)據(jù)進(jìn)行聚類分析
分析包頭數(shù)據(jù),篩選出LTE網(wǎng)絡(luò)業(yè)務(wù)感知采樣點中的RSRP低于-105dBm,并且SINR值低于-3dB的樣本點,總計篩選出97個樣本。
由于初始質(zhì)點數(shù)量的確認(rèn)目前沒有明確有效的算法,所以嘗試選擇不同質(zhì)點對比,確定一個質(zhì)點數(shù)量的選擇方案。
1、篩選97個樣本點地圖分布對比
使用包頭5月1日至15日業(yè)務(wù)感知數(shù)據(jù)分析可能存在弱覆蓋的樣本點分布情況。
主城區(qū)及土右旗分布
白云、達(dá)茂和固陽分布
2、初始質(zhì)點選擇30個
初始30個質(zhì)點做聚類分析,選取其中大于5個樣本點的6個聚類。
對比樣本點與聚類點位置基本滿足弱覆蓋區(qū)域
30個聚類的羅列,其中第三列表示該項聚類中樣本個數(shù),第四、五列分別為聚類中心點的經(jīng)緯度。選取聚類3、7、15、19、20、23樣本個數(shù)大于5個的聚類。
97個樣本在各自聚類中到中心的距離羅列。
各叢集組員
各叢集組員
個案編號
叢集
距離
個案編號
叢集
距離
1
1
0.000
41
18
.004
88
2
.011
40
18
.009
72
2
.011
69
19
.009
45
2
.021
68
19
.007
44
2
.011
66
19
.011
83
3
.015
64
19
.013
80
3
.012
63
19
.017
76
3
.011
62
19
.016
75
3
.008
31
19
.009
73
3
.023
30
19
.024
47
3
.010
14
19
.007
39
3
.017
67
20
.031
3
3
.007
65
20
.003
4
4
0.000
57
20
.006
5
5
0.000
56
20
.002
6
6
0.000
55
20
.003
93
7
.013
54
20
.003
92
7
.013
38
20
.003
91
7
.005
37
20
.008
90
7
.006
36
20
.003
8
7
.009
35
20
.003
77
7
.018
32
21
.006
7
7
.008
27
21
.006
51
7
.016
43
22
.014
46
8
0.000
33
22
.014
9
9
0.000
96
23
.009
61
10
.009
95
23
.013
20
10
.009
94
23
.018
12
10
.022
85
23
.013
10
10
.004
84
23
.008
53
11
.008
82
23
.013
52
11
.008
81
23
.010
48
12
0.000
79
23
.006
13
13
0.000
34
23
.010
59
14
0.000
22
23
.004
97
15
.018
21
23
.005
87
15
.019
24
24
.002
86
15
.020
23
24
.002
71
15
.013
25
25
.014
50
15
.011
11
25
.014
15
15
.020
60
26
.013
2
16
.008
26
26
.013
16
16
.008
42
27
0.000
19
17
.003
74
28
.003
18
17
.003
28
28
.003
17
17
.005
29
29
0.000
89
18
.010
70
30
.018
78
18
.016
49
30
.018
58
18
.010
3、初始質(zhì)點選擇50個
初始50個質(zhì)點做聚類分析,選取其中大于等于5個樣本點的3個聚類(下圖中深紅色五角星點)。對比選取50個質(zhì)點和選取30個質(zhì)點的典型聚類,注意到50個質(zhì)點的聚類更接近于合理的聚類中心。
對比樣本點與聚類點位置基本滿足弱覆蓋區(qū)域
50個聚類的羅列,其中第三列表示該項聚類中樣本個數(shù),第四、五列分別為聚類中心點的經(jīng)緯度。選取聚類14、36、37樣本個數(shù)大于等于5個的聚類。
97個樣本在各自聚類中到中心的距離羅列。
各叢集組員
各叢集組員
個案編號
叢集
距離
個案編號
叢集
距離
1
1
0.000
28
28
.003
7
2
.008
74
28
.003
8
2
1.346E-05
29
29
0.000
92
2
.003
30
30
0.000
93
2
.007
94
31
.003
3
3
.003
95
31
.003
76
3
.003
27
32
.006
4
4
0.000
32
32
.006
5
5
0.000
33
33
0.000
6
6
0.000
78
34
0.000
51
7
.007
58
35
.003
90
7
.005
89
35
.003
91
7
.004
35
36
.001
64
8
.007
36
36
.001
66
8
.006
37
36
.005
68
8
.002
38
36
.001
9
9
0.000
54
36
.001
10
10
.004
55
36
.001
20
10
.002
56
36
.001
61
10
.002
57
36
.005
11
11
0.000
65
36
.001
12
12
0.000
14
37
.006
13
13
0.000
31
37
.007
21
14
.003
62
37
.015
22
14
.004
63
37
.010
79
14
.002
69
37
.008
81
14
.004
52
38
.008
82
14
.006
53
38
.008
84
14
.000
39
39
.006
15
15
8.322E-05
80
39
.006
86
15
8.322E-05
40
40
.002
2
16
.008
41
40
.002
16
16
.008
60
41
0.000
17
17
.005
42
42
0.000
18
17
.003
43
43
0.000
19
17
.003
44
44
0.000
67
18
0.000
34
45
.005
72
19
.003
45
45
.011
88
19
.003
85
45
.005
70
20
0.000
96
45
.005
77
21
0.000
46
46
0.000
73
22
0.000
47
47
.005
59
23
0.000
75
47
.005
23
24
.002
83
47
.010
24
24
.002
48
48
0.000
25
25
0.000
49
49
0.000
26
26
0.000
50
50
.003
87
27
.007
71
50
.003
97
27
.007
97個樣本在各自聚類中到中心的距離羅列。
4、初始質(zhì)點個數(shù)的算法確定
由于弱覆蓋地理面積過大,較遠(yuǎn)的樣本點分配到一個聚類中無意義,所以選取初始質(zhì)點個數(shù)直接影響到其它樣本點是否會做為異常點參與計算。目前采用以下公式計算初始質(zhì)點:
?。╮oundup(樣本點個數(shù)/20))*10
其中,roundup為向上取整。以本例是97個樣本點為例計算,97除以20為4.85,向上取整為5,乘以10為50,所以初始質(zhì)點個數(shù)選取50個。
四、總結(jié)對比
1、對比初始質(zhì)點為30和50的聚類中心位置差距
下圖中深紅色點為初始質(zhì)點為50個的典型聚類,紅色為初始質(zhì)點為30個的典型聚類,對比可看出初始質(zhì)點為50個的典型聚類更接近樣本點聚集區(qū)域。
2、與包頭分公司溝通確認(rèn)附近覆蓋情況
上圖中編號為14的聚類與分公司溝通確認(rèn)所在位置辦公樓較多,室內(nèi)用戶較多,深度覆蓋嚴(yán)重不足;編號為36的聚類所在位置離最近基站1.5KM,周圍區(qū)域存在弱覆蓋;編號為37的聚類所在位置寫字樓,超市較多,室內(nèi)用戶較多,深度覆蓋嚴(yán)重不足。
對比后再與盟市溝通,該方案可以遠(yuǎn)程定位弱覆蓋和深度覆蓋區(qū)域,但算法精度需要進(jìn)一步優(yōu)調(diào)整。計劃后續(xù)優(yōu)化分析過程中利用參數(shù)檢驗等手段進(jìn)一步優(yōu)化該方法。
評論列表
還沒有評論,快來說點什么吧~