Vairāk

Izveidojiet kopas, izmantojot garo un lat

Izveidojiet kopas, izmantojot garo un lat


Man ir aptuveni 4000 veikalu visā valstī. Pamatojoties uz tālsatiksmes un latu attālumu un biznesa līmeni, es vēlos izveidot aptuveni 200 kopas, kas katra varētu pārvaldīt 15–25 veikalus. Es vēlos uzzināt, kā rīkoties, lai atrastu šīs 200 kopas. Vai ir iespējams to izdarīt? Ja ir kādi ieteikumi, lūdzu, iesakiet, kā rīkoties.


Izveidojiet kopas, izmantojot garas un plašas ģeogrāfiskās informācijas sistēmas

Izpētiet telpiskās analīzes un kartogrāfijas pasauli, izmantojot ģeogrāfiskās informācijas sistēmas (ĢIS). Šajā nodarbībā četru nedēļu moduļos apgūsiet nozares vadošā programmatūras rīka ArcGIS pamatus: 1. nedēļa: uzziniet, kā ĢIS no papīra kartēm kļuva par mūsdienās globāli integrētām elektroniskās programmatūras pakotnēm. Jūs instalēsit ArcGIS savā datorā un uzzināsit, kā izmantot tiešsaistes palīdzību, lai atbildētu uz tehniskiem jautājumiem. 2. nedēļa: atveriet ArcGIS un izpētiet datus, izmantojot ArcMap. Uzziniet ĢIS pamatjēdzienus, kā analizēt datus un izveidot pirmo karti. 3. nedēļa: izveidojiet savas kartes! Simbolizējiet datus un izveidojiet uzkrītošu galaproduktu. 4. nedēļa: kopīgojiet savus datus un kartes un iemācieties uzglabāt un kārtot savus datus. Apgūstiet ĢIS pamatus kā atsevišķu kursu vai kā daļu no ģeogrāfisko informācijas sistēmu (ĢIS) specializācijas. Pabeidzot specializācijas pirmo klasi, jūs iegūsit prasmes, kas nepieciešamas, lai gūtu panākumus visā programmā. Studenti, kuriem nepieciešama ArcGIS licence, saņems nekomerciālu 1 gada studenta licenci dalībai šajā kursā un specializācijā.


Saturs

Jēdzienu "klasteris" nevar precīzi definēt, un tas ir viens no iemesliem, kāpēc ir tik daudz klasteru algoritmu. [5] Pastāv kopsaucējs: datu objektu grupa. Tomēr dažādi pētnieki izmanto dažādus klasteru modeļus, un katram no šiem kopu modeļiem atkal var norādīt dažādus algoritmus. Klasteru jēdziens, kas atrodams dažādos algoritmos, ievērojami atšķiras pēc tā īpašībām. Šo "klasteru modeļu" izpratne ir būtiska, lai izprastu atšķirības starp dažādiem algoritmiem. Tipiski kopu modeļi ietver:

  • Savienojamības modelis s: piemēram, hierarhiskā klasterizācija veido modeļus, kuru pamatā ir attālums.
  • Centroid modelis s: piemēram, k-vidējais algoritms attēlo katru kopu ar vienu vidējo vektoru.
  • Izplatīšanas modelis s: kopas tiek modelētas, izmantojot statistisko sadalījumu, piemēram, daudzfaktoru normālos sadalījumus, ko izmanto cerību maksimizācijas algoritms.
  • Blīvuma modelis s: piemēram, DBSCAN un OPTICS definē kopas kā savienotus blīvus reģionus datu telpā.
  • Apakštelpas modelis: divpusējā grupēšanā (pazīstama arī kā kopklasterizācija vai divu režīmu klasterizācija) kopas tiek modelētas, izmantojot gan klasteru dalībniekus, gan atbilstošos atribūtus.
  • Grupas modelis s: daži algoritmi nesniedz izsmalcinātu rezultātu modeli un tikai sniedz informāciju par grupēšanu.
  • Uz diagrammām balstīts modelis: klikšķi, tas ir, mezglu apakškopu grafikā tā, ka katrs divi apakškopas mezgli ir savienoti ar malu, var uzskatīt par kopas prototipu. Pilnīgas savienojamības prasības atvieglojumi (var būt trūkstoša daļa malu) ir pazīstami kā kvazikliki, kā tas ir HCS klasterizācijas algoritmā.
  • Parakstītu grafiku modeļi: Katrā ceļā parakstītā grafikā ir zīme no zīmēm, kas atrodas malās. Saskaņā ar līdzsvara teorijas pieņēmumiem malas var mainīt zīmi un radīt divkāršu grafiku. Vājāka "klasterizācijas aksioma" (nevienam ciklam nav tieši vienas negatīvas malas) dod rezultātus ar vairāk nekā divām kopām vai apakšgrāfiem ar tikai pozitīvām malām. [6]
  • Neironu modelis: vispazīstamākais neuzraudzītais neironu tīkls ir pašorganizējošā karte, un šos modeļus parasti var raksturot kā līdzīgus vienam vai vairākiem iepriekš minētajiem modeļiem, un tie ietver apakštelpas modeļus, ja neironu tīkli īsteno galveno sastāvdaļu analīzes vai neatkarīgu komponentu analīzes formu.

"Klasterizācija" būtībā ir šādu kopu kopums, kas parasti satur visus datu kopas objektus. Turklāt tas var norādīt klasteru savstarpējās attiecības, piemēram, savstarpēji iegulto kopu hierarhiju. Klasterus var aptuveni atšķirt šādi:

  • Cieta grupēšana : katrs objekts pieder klasterim vai nē
  • Mīksta klasterizācija (arī:
  • izplūdušas kopas): katrs objekts zināmā mērā pieder katrai kopai (piemēram, varbūtība piederēt klasterim)

Ir iespējamas arī precīzākas atšķirības, piemēram:

  • Stingra nodalīšanas klasterizācija : katrs objekts pieder tieši vienai kopai
  • Stingra nodalīšanas klasterizācija ar novirzēm : objekti var arī nepieder nevienai kopai un tiek uzskatīti par izņēmumiem
  • Klasterizācijas pārklāšanās (arī: alternatīva klasterizācija, vairāku skatu grupēšana): objekti var piederēt vairākām grupām, kas parasti ietver cietas kopas
  • Hierarhiska klasterizācija : objekti, kas pieder bērnu kopai, pieder arī vecāku kopai
  • Apakštelpas klasterizācija: kamēr klasterizācija, kas pārklājas, unikāli definētā apakštelpā, kopas nepārklāsies

Kā minēts iepriekš, klasterizācijas algoritmus var iedalīt kategorijās, pamatojoties uz to kopu modeli. Šajā pārskatā tiks uzskaitīti tikai visredzamākie klasterizācijas algoritmu piemēri, jo, iespējams, ir vairāk nekā 100 publicētu klasterizācijas algoritmu. Ne visi saviem modeļiem nodrošina modeļus, un tāpēc tos nevar viegli klasificēt. Pārskatu par algoritmiem, kas izskaidrots Vikipēdijā, var atrast statistikas algoritmu sarakstā.

Nav objektīvi "pareiza" klasterizācijas algoritma, bet, kā tika atzīmēts, "klasterizācija ir skatītāja acīs". [5] Konkrētai problēmai vispiemērotākais klasterizācijas algoritms bieži jāizvēlas eksperimentāli, ja vien nav matemātiska iemesla dot priekšroku vienam klasteru modelim. Algoritms, kas paredzēts viena veida modelim, parasti neizdosies datu kopā, kurā ir radikāli atšķirīgs modelis. [5] Piemēram, k-vidējie nevar atrast kopas, kas nav izliektas. [5]

Uz savienojamību balstīta klasterizācija (hierarhiska klasterizācija) Rediģēt

Uz savienojamību balstīta klasterizācija, kas pazīstama arī kā hierarhiskā klasterizācija, pamatā ir pamatideja, ka objekti ir vairāk saistīti ar tuvumā esošiem objektiem, nevis ar objektiem, kas atrodas tālāk. Šie algoritmi savieno "objektus", veidojot "kopas", pamatojoties uz to attālumu. Klasteru lielā mērā var raksturot ar maksimālo attālumu, kas nepieciešams, lai savienotu kopas daļas. Dažādos attālumos veidosies dažādas kopas, kuras var attēlot, izmantojot dendrogrammu, kurā paskaidrots, no kurienes nāk vispārpieņemtais nosaukums "hierarhiskā klasterizācija": šie algoritmi nenodrošina vienu datu kopas sadalīšanu, bet nodrošina plašu hierarhiju. kopas, kas noteiktā attālumā saplūst viena ar otru. Dendrogrammā y ass iezīmē attālumu, kādā klasteri saplūst, bet objekti ir novietoti gar x asi tā, lai kopas nesajauktos.

Uz savienojamību balstīta klasterizācija ir visa metožu saime, kas atšķiras atkarībā no attāluma aprēķināšanas veida. Papildus parastajai attāluma funkciju izvēlei lietotājam jāizlemj arī par saiknes kritēriju (tā kā kopa sastāv no vairākiem objektiem, ir vairāki kandidāti, lai aprēķinātu attālumu), ko izmantot. Populāras izvēles ir pazīstamas kā vienas saites klasterizācija (objektu attālumu minimums), pilnīga saišu klasterizācija (maksimālais objektu attālums) un UPGMA vai WPGMA ("nesvērtā vai svērtā pāra grupas metode ar vidējo aritmētisko", kas pazīstama arī kā vidējā saikne) klasterizācija). Turklāt hierarhiskā klasterizācija var būt aglomeratīva (sākot ar atsevišķiem elementiem un apkopojot tos klasteros) vai dalāma (sākot ar pilnu datu kopu un sadalot to nodalījumos).

Šīs metodes neradīs unikālu datu kopas sadalīšanu, bet gan hierarhiju, no kuras lietotājam joprojām jāizvēlas atbilstošas ​​kopas. Tie nav īpaši stabili attiecībā pret novirzēm, kas vai nu parādīsies kā papildu kopas, vai pat izraisīs citu kopu apvienošanos (pazīstama kā "ķēdes parādība", jo īpaši ar vienas saites klasterizāciju). Vispārējā gadījumā sarežģītība ir O (n 3) < displaystyle < mathcal > (n^<3>)> aglomerācijas klasterizācijai un O (2 n - 1) < displaystyle < mathcal >(2^)> šķelšanai, [7] kas padara tos pārāk lēnus lielām datu kopām. Dažos īpašos gadījumos optimāli efektīvas metodes (sarežģītība O (n 2) < displaystyle < mathcal > (n^<2>)>) ir zināmi: SLINK [8] viensaitei un CLINK [9] pilnīgu saišu grupēšanai. Datu ieguves sabiedrībā šīs metodes ir atzītas par klastera analīzes teorētisko pamatu, bet bieži tiek uzskatītas par novecojušām. nepieciešams citāts ]. Tomēr tie deva iedvesmu daudzām vēlākām metodēm, piemēram, uz blīvumu balstītai klasterizācijai.

Viena saite uz Gausa datiem. 35 kopās lielākais klasteris sāk sadrumstaloties mazākās daļās, bet iepriekš tas joprojām bija savienots ar otro lielāko vienas saites efekta dēļ.

Viena saite uz blīvumu balstītām kopām. Iegūti 20 klasteri, no kuriem lielākā daļa satur atsevišķus elementus, jo saišu klasterizācijai nav jēdziena "troksnis".

Centroid balstīta klasteru rediģēšana

Centro balstītā klasterizācijā kopas attēlo centrālais vektors, kas ne vienmēr var būt datu kopas dalībnieks. Kad kopu skaits ir fiksēts uz k, k-nozīmē, ka klasterizācija sniedz oficiālu definīciju kā optimizācijas problēmu: atrodiet k klastera centrus un piešķir objektus tuvākajam klasteru centram tā, lai attālumi no kopas kvadrātā tiktu samazināti līdz minimumam.

Ir zināms, ka pati optimizācijas problēma ir NP-cieta, un tāpēc kopējā pieeja ir meklēt tikai aptuvenus risinājumus. Īpaši labi zināma aptuvenā metode ir Loida algoritms [10], ko bieži dēvē tikai par "k-nozīmē algoritms"(lai gan cits algoritms ieviesa šo nosaukumu). Tomēr tas atrod tikai vietējo optimālu un parasti tiek izpildīts vairākas reizes ar dažādām nejaušām inicializācijām. k-līdzekļi bieži ietver tādu optimizāciju kā labākā no vairākiem braucieniem izvēle, bet arī centraīdu ierobežošana tikai datu kopas dalībniekiem (k-medoids), izvēloties mediānas (k-mediķi apvienojas), sākotnējos centrus izvēloties mazāk nejauši (k-nozīmē ++) vai ļauj izplūdušo klasteru piešķiršanu (izplūdušie c-līdzekļi).

Lielākā daļa k-nozīmē algoritmi prasa kopu skaitu- k - jāprecizē iepriekš, kas tiek uzskatīts par vienu no lielākajiem šo algoritmu trūkumiem. Turklāt algoritmi dod priekšroku aptuveni līdzīga izmēra klasteriem, jo ​​tie vienmēr piešķirs objektu tuvākajam centroidam. Tas bieži noved pie nepareizi sagrieztām klasteru robežām (kas nav pārsteidzoši, jo algoritms optimizē klasteru centrus, nevis klasteru robežas).

K-mean ir vairākas interesantas teorētiskas īpašības. Pirmkārt, tas sadala datu telpu struktūrā, kas pazīstama kā Voronoi diagramma. Otrkārt, tas konceptuāli ir tuvu tuvāko kaimiņu klasifikācijai, un kā tāds ir populārs mašīnmācībā. Treškārt, to var uzskatīt par uz modeļiem balstītas klasterizācijas variāciju, un Loida algoritmu kā šī modeļa gaidāmo maksimizācijas algoritma variāciju.

k-nozīmē, ka dati tiek sadalīti Voronoi šūnās, kas pieņem vienāda lieluma kopas (šeit nav piemērotas)

k-līdzekļi nevar pārstāvēt uz blīvumu balstītas kopas

Centroid balstītas klasterizācijas problēmas, piemēram k-nozīmē un k-medoīdi ir īpaši gadījumi, kad rodas nespējīga, metriska objekta atrašanās vietas problēma, kanoniska problēma operāciju izpētē un skaitļošanas ģeometrijas kopienās. Iekārtas atrašanās vietas pamatproblēmā (kurai ir daudz variantu, kas modelē sarežģītākus iestatījumus) uzdevums ir atrast labākās noliktavas vietas, lai optimāli apkalpotu noteiktu patērētāju kopumu. Var uzskatīt, ka "noliktavas" ir klasteru centri, bet "patērētāju atrašanās vietas" - klasterizētie dati. Tas ļauj izmantot labi izstrādātos algoritmiskos risinājumus no objekta atrašanās vietas literatūras pašlaik izskatītajai centroid balstītajai klasterizācijas problēmai.

Uz izplatīšanu balstīta klasterēšana Rediģēt

Klasterizācijas modelis, kas ir visciešāk saistīts ar statistiku, ir balstīts uz izplatīšanas modeļiem. Pēc tam kopas var viegli definēt kā objektus, kas, visticamāk, pieder vienam un tam pašam sadalījumam. Ērts šīs pieejas īpašums ir tas, ka tas ļoti līdzinās mākslīgo datu kopu ģenerēšanas veidam: izlases veidā izlases veidā iegūstot objektus no izplatīšanas.

Lai gan šo metožu teorētiskais pamats ir lielisks, tās cieš no vienas galvenās problēmas, kas pazīstama kā pārmērīga uzstādīšana, ja vien modeļa sarežģītībai nav noteikti ierobežojumi. Sarežģītāks modelis parasti spēs labāk izskaidrot datus, kas apgrūtina atbilstoša modeļa sarežģītības izvēli.

Viena ievērojama metode ir pazīstama kā Gausa maisījuma modeļi (izmantojot cerību maksimizācijas algoritmu). Šeit datu kopa parasti tiek modelēta ar fiksētu (lai izvairītos no pārmērīgas uzstādīšanas) Gausa sadalījumu skaitu, kas tiek inicializēts nejauši un kuru parametri ir iteratīvi optimizēti, lai tie labāk atbilstu datu kopai. Tas tuvināsies vietējam optimālam, tāpēc vairāki braucieni var dot atšķirīgus rezultātus. Lai iegūtu stingru klasterizāciju, objekti bieži tiek piešķirti Gausa sadalījumam, kuriem tie, visticamāk, pieder mīkstajām grupām, tas nav nepieciešams.

Uz sadalījumu balstīta klasterizācija rada kompleksus modeļus klasteriem, kas var fiksēt korelāciju un atkarību starp atribūtiem. Tomēr šie algoritmi rada papildu slogu lietotājam: daudzām reālām datu kopām var nebūt precīzi definēta matemātiskā modeļa (piemēram, pieņemot, ka Gausa sadalījums ir diezgan stingrs pieņēmums par datiem).

Uz blīvumu balstītas kopas nevar modelēt, izmantojot Gausa sadalījumu

Uz blīvumu balstīta klasterizācija Rediģēt

Uz blīvumu balstītā klasterizācijā [11] klasteri tiek definēti kā apgabali ar lielāku blīvumu nekā pārējā datu kopa. Objekti retos apgabalos, kas nepieciešami, lai nodalītu kopas, parasti tiek uzskatīti par trokšņa un robežas punktiem.

Populārākā [12] blīvuma klasterizācijas metode ir DBSCAN. [13] Atšķirībā no daudzām jaunākām metodēm tam ir labi definēts klasteru modelis ar nosaukumu "blīvuma sasniedzamība". Līdzīgi klasterizācijai, kas balstīta uz saiti, tās pamatā ir savienojuma punkti noteiktos attāluma sliekšņos. Tomēr tas savieno tikai punktus, kas atbilst blīvuma kritērijam, sākotnējā variantā, kas definēts kā minimālais citu objektu skaits šajā rādiusā. Klasteris sastāv no visiem ar blīvumu saistītiem objektiem (kas atšķirībā no daudzām citām metodēm var veidot patvaļīgas formas kopu), kā arī no visiem objektiem, kas atrodas šo objektu diapazonā. Vēl viena interesanta DBSCAN īpašība ir tā, ka tā sarežģītība ir diezgan zema - datu bāzē ir nepieciešams lineārs diapazona vaicājumu skaits - un ka tā atklās būtībā vienādus rezultātus (tas ir noteicošs galvenajiem un trokšņa punktiem, bet ne robežpunktiem) katrā skrējienā, tāpēc nav nepieciešams to palaist vairākas reizes. OPTICS [14] ir DBSCAN vispārinājums, kas novērš nepieciešamību izvēlēties atbilstošu diapazona parametra ε < displaystyle varepsilon> vērtību un rada hierarhisku rezultātu, kas saistīts ar saišu klasterizāciju. DeLi-Clu, [15] Density-Link-Clustering apvieno idejas no vienas saites klasterizācijas un OPTICS, pilnībā novēršot parametru ε < displaystyle varepsilon> un piedāvājot veiktspējas uzlabojumus salīdzinājumā ar OPTICS, izmantojot R-koka indeksu.

Galvenais DBSCAN un OPTICS trūkums ir tas, ka viņi sagaida sava veida blīvuma samazināšanos, lai noteiktu klasteru robežas. Datu kopās, kurās, piemēram, pārklājas Gausa sadalījumi - mākslīgos datos bieži sastopams gadījums - šo algoritmu radītās kopu robežas bieži izskatīsies patvaļīgas, jo kopu blīvums nepārtraukti samazinās. Datu kopā, kas sastāv no Gausiešu maisījumiem, šos algoritmus gandrīz vienmēr pārspēj tādas metodes kā EM klasterizācija, kas spēj precīzi modelēt šāda veida datus.

Vidējā nobīde ir klasterizācijas pieeja, kurā katrs objekts tiek pārvietots uz blīvāko apgabalu tās tuvumā, pamatojoties uz kodola blīvuma novērtējumu. Galu galā objekti saplūst ar vietējo blīvuma maksimumu. Līdzīgi k-nozīmē klasterizācijai, šie "blīvuma piesaistītāji" var kalpot kā datu kopas pārstāvji, bet vidējā nobīde var atklāt patvaļīgas formas kopas, kas līdzīgas DBSCAN. Dārgās iteratīvās procedūras un blīvuma novērtēšanas dēļ vidējā nobīde parasti ir lēnāka nekā DBSCAN vai k-Means. Turklāt vidējās nobīdes algoritma piemērojamību daudzdimensionāliem datiem apgrūtina kodola blīvuma novērtējuma nevienmērīgā uzvedība, kā rezultātā klasteru astes tiek pārmērīgi sadrumstalotas. [15]

Uz blīvumu balstīta klasterizācija ar DBSCAN.

DBSCAN pieņem līdzīga blīvuma kopas, un tam var rasties problēmas, atdalot tuvumā esošās kopas

OPTICS ir DBSCAN variants, kas uzlabo dažādu blīvumu kopu apstrādi

Uz režģiem balstīta klasterēšana Rediģēt

Uz režģa balstīta metode tiek izmantota daudzdimensiju datu kopai. [16] Šajā tehnikā mēs izveidojam režģa struktūru, un salīdzinājums tiek veikts režģiem (pazīstams arī kā šūnas). Uz režģi balstīta tehnika ir ātra un tai ir zema skaitļošanas sarežģītība. Pastāv divu veidu uz režģiem balstītas klasterizācijas metodes: STING un CLIQUE. Uz tīklu balstītā klasterizācijas algoritma darbības ir šādas:

  1. Sadaliet datu telpu galīgā šūnu skaitā.
  2. Nejauši atlasiet šūnu “c”, kur iepriekš nevajadzētu šķērsot c.
  3. Aprēķiniet blīvumu “c”
  4. Ja “c” blīvums ir lielāks par sliekšņa blīvumu
    1. Atzīmējiet šūnu “c” kā jaunu kopu
    2. Aprēķiniet visu “c” kaimiņu blīvumu
    3. Ja blakus esošās šūnas blīvums ir lielāks par sliekšņa blīvumu, pievienojiet šūnu kopai un atkārtojiet 4.2. Un 4.3. Darbību, līdz nav neviena kaimiņa, kura blīvums būtu lielāks par sliekšņa blīvumu.

    Jaunākie notikumi Rediģēt

    Pēdējos gados ir pieliktas ievērojamas pūles, lai uzlabotu esošo algoritmu veiktspēju. [17] [18] Starp tiem ir KLARĀNS, [19] un BĒRZS. [20] Ņemot vērā neseno vajadzību apstrādāt arvien lielākas datu kopas (pazīstamas arī kā lielie dati), pieaug vēlme tirgoties ar radīto klasteru semantisko nozīmi par veiktspēju. Tā rezultātā tika izstrādātas iepriekšējas klasterizācijas metodes, piemēram, nojumes klasterizācija, kas var efektīvi apstrādāt milzīgas datu kopas, taču iegūtie "klasteri" ir tikai aptuvena datu kopas iepriekšēja sadalīšana, lai pēc tam analizētu nodalījumus ar esošām lēnākām metodēm, piemēram, k nozīmē klasterizācija.

    Liela izmēra datiem daudzas no esošajām metodēm neizdodas dimensiju lāsta dēļ, kas padara atsevišķas attāluma funkcijas problemātiskas augstdimensiju telpās. Tā rezultātā tika izveidoti jauni klasterizācijas algoritmi liela apjoma datiem, kas koncentrējas uz apakštelpas klasterizāciju (kur tiek izmantoti tikai daži atribūti, un klasteru modeļi ietver klastera attiecīgos atribūtus) un korelācijas klasterizāciju, kas arī meklē patvaļīgi pagrieztu ("korelētu") apakštelpu. kopas, kuras var modelēt, norādot to atribūtu korelāciju. [21] Šādu klasterizācijas algoritmu piemēri ir CLIQUE [22] un SUBCLU. [23]

    Idejas no blīvuma klasterizācijas metodēm (jo īpaši DBSCAN/OPTICS algoritmu saimes) ir pielāgotas apakštelpas klasterizācijai (HiSC, [24] hierarhiska apakštelpas klasterizācija un DiSH [25]) un korelācijas klasterizācijai (HiCO, [26] hierarhiskā korelācija) klasterizācija, 4C [27], izmantojot "korelācijas savienojamību", un ERiC [28], kas pēta hierarhiskas uz blīvumu balstītas korelācijas kopas).

    Ir ierosinātas vairākas dažādas klasterizācijas sistēmas, kuru pamatā ir savstarpēja informācija. Viena ir Marina Meilă informācijas variācija metrika [29] cita nodrošina hierarhisku klasterizāciju. [30] Izmantojot ģenētiskos algoritmus, var optimizēt plašu dažādu piemērotības funkciju klāstu, tostarp savstarpēju informāciju. [31] Arī ticības izplatīšanās, nesenā attīstība datorzinātnēs un statistikas fizikā, ir radījusi jaunu veidu klasterizācijas algoritmu izveidi. [32]

    Klasterizācijas rezultātu novērtēšana (vai "apstiprināšana") ir tikpat grūta kā pati klasterizācija. [33] Populāras pieejas ietver "iekšējs"novērtējums, kurā klasterizācija ir apkopota vienā kvalitātes rādītājā,"ārējs"novērtējums, kurā klasterizāciju salīdzina ar esošo" zemes patiesības "klasifikāciju,"rokasgrāmata"Cilvēka eksperta novērtējums un"netiešs"novērtējums, izvērtējot klasteru lietderību paredzētajā lietojumā. [34]

    Iekšējās novērtēšanas pasākumi cieš no problēmas, jo tie pārstāv funkcijas, kuras pašas var uzskatīt par grupēšanas mērķi. Piemēram, datu kopu varētu grupēt pēc silueta koeficienta, izņemot to, ka šim nolūkam nav zināms efektīvs algoritms. Izmantojot novērtēšanai šādu iekšēju mēru, drīzāk tiek salīdzināta optimizācijas problēmu līdzība [34], nevis obligāti klasterizācijas lietderība.

    Ārējai vērtēšanai ir līdzīgas problēmas: ja mums ir šādas "patiesās patiesības" etiķetes, tad mums nevajadzētu apvienoties un praktiskos pielietojumos mums parasti šādu etiķešu nav. No otras puses, etiķetes atspoguļo tikai vienu iespējamu datu kopas sadalīšanu, kas nenozīmē, ka nepastāv atšķirīga un varbūt pat labāka klasterizācija.

    Tāpēc neviena no šīm pieejām galu galā nevar spriest par klasteru faktisko kvalitāti, bet tas ir jānovērtē cilvēkam [34], kas ir ļoti subjektīvi. Tomēr šāda statistika var būt diezgan informatīva, nosakot sliktas kopas [35], taču nevajadzētu noraidīt subjektīvo cilvēku vērtējumu. [35]

    Iekšējais novērtējums Rediģēt

    Ja klasterizācijas rezultātu novērtē, pamatojoties uz datiem, kas tika grupēti, to sauc par iekšējo novērtēšanu. Šīs metodes parasti piešķir labāko rezultātu algoritmam, kas rada kopas ar augstu līdzību klasterī un zemu līdzību starp klasteriem. Viens trūkums, lietojot iekšējos kritērijus klasteru novērtēšanā, ir tas, ka augstie rādītāji par iekšējo mērījumu ne vienmēr nodrošina efektīvus informācijas atgūšanas lietojumus. [36] Turklāt šis novērtējums ir vērsts uz algoritmiem, kas izmanto to pašu kopu modeli. Piemēram, k-nozīmē grupēšana dabiski optimizē objektu attālumus, un uz attālumu balstīts iekšējais kritērijs, iespējams, pārvērtēs iegūto klasterizāciju.

    Tāpēc iekšējās novērtēšanas pasākumi ir vispiemērotākie, lai gūtu ieskatu situācijās, kad viens algoritms darbojas labāk nekā cits, taču tas nenozīmē, ka viens algoritms dod vairāk derīgu rezultātu nekā cits. [5] Derīgums, ko mēra pēc šāda indeksa, ir atkarīgs no apgalvojuma, ka šāda veida struktūra pastāv datu kopā. Algoritmam, kas paredzēts kāda veida modeļiem, nav nekādu izredžu, ja datu kopā ir radikāli atšķirīgs modeļu kopums vai ja novērtējums mēra radikāli atšķirīgu kritēriju. [5] Piemēram, k-vidējais klasteris var atrast tikai izliektas kopas, un daudzi novērtēšanas indeksi pieņem izliektas kopas. Datu kopā ar neizliektām kopām neizmantojiet k-nozīmē, ne arī vērtēšanas kritērijs, kas pieņem izliekumu, ir pareizs.

    Pastāv vairāk nekā ducis iekšējās novērtēšanas pasākumu, kas parasti balstās uz intuīciju, ka vienas kopas vienībām jābūt līdzīgākām nekā vienībām dažādās kopās. [37]: 115–121 Piemēram, klasterizācijas algoritmu kvalitātes novērtēšanai, pamatojoties uz iekšējo kritēriju, var izmantot šādas metodes:

    Ārējais novērtējums Rediģēt

    Ārējā novērtēšanā klasterizācijas rezultātus novērtē, pamatojoties uz datiem, kas netika izmantoti klasterizācijai, piemēram, zināmām klases etiķetēm un ārējiem etaloniem. Šādi etaloni sastāv no iepriekš klasificētu vienību kopuma, un šīs kopas bieži veido (eksperti) cilvēki. Tādējādi etalonu kopas var uzskatīt par zelta standartu novērtēšanai. [33] Šāda veida novērtēšanas metodes mēra, cik tuvu klasterizācija ir iepriekš noteiktām etalonklasēm. Tomēr nesen tika apspriests, vai tas ir piemērots reāliem datiem vai tikai sintētiskām datu kopām ar faktisku pamatotu patiesību, jo klases var saturēt iekšējo struktūru, esošie atribūti var neļaut kopas atdalīt vai klasēs var būt anomālijas. [39] Turklāt no zināšanu atklāšanas viedokļa zināmo zināšanu reproducēšana ne vienmēr var būt paredzētais rezultāts. [39] Īpašajā scenārijā par ierobežotu klasterizāciju, kur metate informācija (piemēram, klases etiķetes) tiek izmantota jau klasterizācijas procesā, informācijas aizturēšana novērtēšanas nolūkos nav triviāla. [40]

    Vairāki pasākumi tiek pielāgoti no variantiem, ko izmanto, lai novērtētu klasifikācijas uzdevumus. Tā vietā, lai skaitītu, cik reižu klase tika pareizi piešķirta vienam datu punktam (pazīstama kā patiesi pozitīvi), pāru skaitīšana metrika novērtē, vai tiek prognozēts, ka katrs datu punktu pāris, kas patiesi atrodas vienā klasterī, atrodas tajā pašā klasterī. [33]

    Tāpat kā iekšējā novērtēšanā, pastāv vairāki ārējās novērtēšanas pasākumi [37]: 125–129, piemēram:

    • Tīrība: Tīrība ir mērs tam, cik kopas satur vienu klasi. [36] Tās aprēķinu var veikt šādi: katrai kopai saskaitiet datu punktu skaitu no visbiežāk sastopamās klases minētajā klasterī. Tagad ņemiet summu par visiem klasteriem un daliet ar kopējo datu punktu skaitu. Formāli, ņemot vērā dažas kopu kopas M un dažas klašu kopas D , abas sadaļojot N datu punktus, tīrību var definēt šādi:
    • Rand indekss[41]

    Viena Rand indeksa problēma ir tāda, ka viltus pozitīvie un viltus negatīvie ir vienādi novērtēti. Tas var būt nevēlama īpašība dažiem klasterizācijas lietojumiem. F pasākums risina šīs bažas, [ nepieciešams citāts ] tāpat kā nejauši koriģētais koriģētais Rand indekss.

    • F mērs
    • Žakarda indekss
    • Kauliņu indekss
    • Fowlkes – Mallows indekss[42]
    • savstarpēja informācija ir informācijas teorētisks rādītājs tam, cik daudz informācijas tiek koplietota starp klasterizāciju un patiesības klasifikāciju, kas var atklāt nelineāru līdzību starp diviem klasteriem. Normalizēta savstarpēja informācija ir nejauši koriģētu variantu saime, kurai ir samazināta neobjektivitāte dažādiem klasteru skaitļiem. [33]
    • Apjukuma matrica

    Klasteru tendence Rediģēt

    Klasteru tendences mērīšana nozīmē izmērīt, cik lielā mērā klasteri pastāv grupējamos datos, un tos var veikt kā sākotnēju pārbaudi pirms klasterizācijas mēģinājuma. Viens veids, kā to izdarīt, ir salīdzināt datus ar nejaušiem datiem. Vidēji nejaušiem datiem nevajadzētu būt kopām.


    Vēža kopas

    Uzziniet vairāk par CDC/ATSDR un rsquos darbu, lai atjauninātu vadlīnijas potenciālo vēža kopu novērtēšanai un reaģēšanai uz tām.

    A vēža kopums tiek definēts kā lielāks vēža gadījumu skaits, nekā paredzēts, kas noteiktā laika periodā notiek cilvēku grupā noteiktā ģeogrāfiskā apgabalā. Lai uzzinātu vairāk, skatiet rakstu par vēža kopām.

    Vietējie vai valsts veselības departamenti, kā arī vēža reģistri atbild uz vēža kopu jautājumiem, un tiem ir jaunākie vietējie dati. Ja jums ir aizdomas par vēža kopumu jūsu kopienā vai darba vietā vai ja jums patīk iegūt tādu informāciju kā vēža statistika vai tendences jūsu reģionā, vispirms sazinieties ar vietējo vai valsts veselības departamentu vai valsts vēža reģistru.

    Kad cilvēki sazinās ar CDC ar bažām par iespējamu vēža kopu, CDC sniedz vispārīgu informāciju par vēža klasteriem un novirza tos uz atbilstošo vietējo vai valsts veselības departamentu vai vēža reģistru. CDC arī sniedz tehniskas konsultācijas valstīm, kā pieprasīts, un izstrādā norādījumus valsts, teritoriālajiem, vietējiem un cilšu veselības departamentiem par to, kā reaģēt uz vēža kopu problēmām.


    Pieejamība

    Studenta darba apjoms šajā 3 kredītpunktu priekšmetā ir aptuveni 130 stundas.

    • 26 stundu lekcijas (didaktiskas vai interaktīvas)
    • Praktiskās nodarbības 26 stundas
    • novērtēšana un pašmācība

    Studenta darba apjoms šajā 3 kredītpunktu priekšmetā ir aptuveni 130 stundas.

    Studenta darba apjoms šajā 3 kredītpunktu priekšmetā ir aptuveni 130 stundas.

    • 26 stundu lekcijas (didaktiskas vai interaktīvas)
    • Praktiskās nodarbības 26 stundas
    • novērtēšana un pašmācība

    Piezīme. Nepārtraukta priekšmeta kvalitātes uzlabošanas procesa dēļ var rasties nelielas izmaiņas, un, ja ir nelielas izmaiņas novērtējuma detaļās, tēmas izklāsts atspoguļo jaunāko oficiālo informāciju.


    Programmas rezultāti

    • Aprakstiet ĢIS pamatjēdzienus un terminoloģiju
    • Apspriediet ĢIS lomu uzņēmējdarbībā, valdībā, mērniecībā un dabas resursos.
    • Izveidojiet un manipulējiet ar datiem, izmantojot ArcView
    • Izskaidrojiet tālvadības principus un pielietojumu.
    • Apspriediet globālās pozicionēšanas sistēmu (GPS) pamatus, tostarp vēsturi un lietojumprogrammas.
    • Izmantojiet MS Access, lai izveidotu un manipulētu ar datiem, izmantojot tabulas, vaicājumus, veidlapas un relāciju datu bāzes.
    • Izstrādāt un uzturēt ģeogrāfiskās informācijas sistēmu.
    • Apspriediet interneta kartēšanas veidus un variācijas.

    Ģeotelpiskās informācijas zinātnes

    Mūsu bakalaura un maģistra grādi un sertifikātu programmas ģeotelpiskās informācijas zinātnēs sagatavo studentus darbam strauji augošā jomā, kas ietver tehnoloģiju izmantošanu ģeogrāfisko datu vākšanai, glabāšanai, pārvaldībai un analīzei. Studenti iegūst prasmes, izmantojot tehnoloģijas, tostarp ģeogrāfiskās informācijas sistēmas (GIS), globālo pozicionēšanas sistēmu (GPS) un attālo uz satelītu balstītu tehnoloģiju.

    Ģeotelpiskās informācijas zinātņu programma ieņēma 1. vietu valstī GIScience/skaitļošana un telpiskā analīze/statistika pēc ģeogrāfiskām perspektīvām. Nacionālā ģeotelpiskās izlūkošanas aģentūra un ASV Ģeoloģijas dienests programmu iecēla par akadēmiskās izcilības centru, vienīgo Teksasā un vienu no 17 visā valstī, un Vides zinātņu pētniecības institūts (ESRI) to nosauca par vienu no attīstības centriem. Mūsu fakultātē ir vadošie eksperti šajā jomā un novatoriski pētnieki ģeotelpiskās informācijas zinātnēs.

    Studentiem ir iespējas iegūt pieredzi, veicot praksi, veicot pētījumus un piedaloties studentu organizācijās. Programma piedāvā arī stipendijas un stipendijas, sadarbojoties ar Pioneer dabas resursiem.


    Pieejamība

    Studenta darba apjoms šajā 3 kredītpunktu priekšmetā ir aptuveni 130 stundas.

    • 26 stundu lekcijas (didaktiskas vai interaktīvas)
    • Praktiskās nodarbības 26 stundas
    • novērtēšana un pašmācība

    Studenta darba apjoms šajā 3 kredītpunktu priekšmetā ir aptuveni 130 stundas.

    Studenta darba apjoms šajā 3 kredītpunktu priekšmetā ir aptuveni 130 stundas.

    • 26 stundu lekcijas (didaktiskas vai interaktīvas)
    • Praktiskās nodarbības 26 stundas
    • novērtēšana un pašmācība

    Piezīme. Nepārtrauktā priekšmeta kvalitātes uzlabošanas procesa dēļ var rasties nelielas izmaiņas, un, ja ir nelielas izmaiņas novērtējuma detaļās, tēmas izklāsts atspoguļo jaunāko oficiālo informāciju.


    Stumbri un ilkņi

    Ziloņu ausis izstaro siltumu, lai palīdzētu šiem lielajiem dzīvniekiem atdzist, bet dažreiz Āfrikas karstums ir pārāk liels. Ziloņi mīl ūdeni un bauda dušu, iesūcot stumbros ūdeni un izsmidzinot to pa visu. Afterwards, they often spray their skin with a protective coating of dust.

    An elephant's trunk is actually a long nose used for smelling, breathing, trumpeting, drinking, and also for grabbing things—especially a potential meal. The trunk alone contains about 40,000 muscles. African elephants have two fingerlike features on the end of their trunk that they can use to grab small items. (Asian elephants have just one.)

    Both male and female African elephants have tusks, which are continuously growing teeth. Savanna elephants have curving tusks, while the tusks of forest elephants are straight. They use these tusks to dig for food and water and strip bark from trees. Males, whose tusks tend to be larger than females', also use their tusks to battle one another.

    Elephants eat roots, grasses, fruit, and bark. An adult elephant can consume up to 300 pounds of food in a single day. These hungry animals do not sleep much, roaming great distances while foraging for the large quantities of food that they require to sustain their massive bodies.

    African elephants range throughout the savannas of sub-Saharan Africa and the rainforests of Central and West Africa. The continent’s northernmost elephants are found in Mali’s Sahel Desert. The small, nomadic herd of Mali elephants migrates in a circular route through the desert in search of water.

    Because elephants eat so much, they’re increasingly coming into contact with humans. An elephant can destroy an entire season of crops in a single night. A number of conservation programs work with farmers to help them protect their crops and provide compensation when an elephant does raid them.


    Computers, Environment and Urban Systems

    Computers, Environment and Urban Systems is an interdisciplinary journal publishing cutting-edge and innovative computer-based research uz urban systems, systems of cities, and built and natural environments , that privileges the ģeotelpiskais perspective. The journal provides a stimulating presentation.

    Computers, Environment and Urban Systems is an interdisciplinary journal publishing cutting-edge and innovative computer-based research uz urban systems, systems of cities, and built and natural environments , that privileges the ģeotelpiskais perspective. The journal provides a stimulating presentation of perspectives, research developments, overviews of important new technologies and uses of major computational, information-based, and visualization innovations. Applied and theoretical contributions demonstrate the scope of computer-based analysis fostering a better understanding of urban systems, the synergistic relationships between built and natural environments, their spatial scope and their dynamics.

    Application areas include infrastructure and facilities management, physical planning and urban design, land use and transportation, business and service planning, coupled human and natural systems, urban planning, socio-economic development, emergency response and hazards, and land and resource management. Examples of methodological approaches include decision support systems, geocomputation, spatial statistical analysis, complex systems and artificial intelligence, visual analytics and geovisualization, ubiquitous computing, and space-time simulation.

    Contributions emphasizing the development and enhancement of computer-based technologies for the analysis and modeling, policy formulation, planning, and management of environmental and urban systems that enhance sustainable futures are especially sought. The journal also encourages research on the modalities through which information and other computer-based technologies mold environmental and urban systems.

    Audience:
    Urban and regional planners and policy analysts, environmental planners, economic geographers, geospatial information scientists and technologists, regional scientists and policy makers, architectural designers.


    Skatīties video: das rupey ke kurkure