Vairāk

3D kuba Postgis vaicājumā indekss netiek izmantots

3D kuba Postgis vaicājumā indekss netiek izmantots


Es testēju Postgis pēc šāda vaicājuma:

ATLASIET * NO NO daļiņām WHERE position &&& 'LINESTRING (0.08537 0.0738 0.0145,0.0953 0.0837 0.0345)';

kas atgriež aptuveni 100 000 rindas no aptuveni 100 miljonu datu kopas. Tabulas shēma ir

Tabulas "public.particles" kolonna | Tips | Pārveidotāji ---------- + ------------------ + ----------- partid | vesels skaitlis | nav nulles laiks | dubultā precizitāte nav nulles pozīcija | ģeometrija | Indeksi: "daļiņu_atslēga" PAMATKLAVA, btree (partid, "time") "daļiņas_the_geom_gist" kopsavilkums ("position") Pārbaudiet ierobežojumus: "enforce_dims_the_geom" CHECK (st_ndims ("position") = 3)

Pat ja man ir atribūta pozīcijas indekss, vaicājums vienmēr tiek izpildīts ar pilnas tabulas skenēšanu, tāpēc tas ir īpaši lēns.

Es arī mēģināju

set enable_seqscan = izslēgts;

bet tas neko nemainīja.

Izmantojot dažādus vaicājumus, piemēram,

SELECT skaits (*) NO daļiņām WHERE ST_3DDWithin (pozīcija, 'SRID = 4326; POINT (0,08537 0,0738 0,0145)', 0,01);

kas izgūst objektus dotācijas attālumā no punkta, Postgres izmanto indeksu, kāpēc tas nav citam vaicājumam?


Jūs, iespējams, izveidojāt 2d indeksu, nevis n-d indeksu, ko izmanto &&& operators.

IZVEIDOT RĀDĪT RĀDĪTĀJU daļiņas_gix PAR daļiņām, IZMANTOJOT GIST (pozīcija gist_geometry_ops_nd);

PostGIS un 3D

Ja vēlaties izmantot 3D funkcijas, jums jāinstalē versija, kas ir pieejama šajā emuārā.

Pēc PostgreSQL instalēšanas jums jāinstalē pārējās programmatūras šādā secībā:

izpildiet šīs komandas saknes direktorijā:

./konfigurēt
veidot
sudo veikt instalēšanu
sudo ldconfig
_____________________

izpildiet šīs komandas saknes direktorijā:

_____________________

./konfigurēt
veidot
sudo veikt instalēšanu
sudo ldconfig
_____________________

izpildiet šīs komandas saknes direktorijā:

./configure --with-proj --with-geos --with-pgsql
veidot
sudo veikt instalēšanu
______________________________________________

Tagad esat gatavs 3D modeļus uzglabāt PostGIS.


Telpiskā lauka opcijas¶

Papildus parastajām lauka opcijām, kas pieejamas Django modeļa laukiem, telpiskajiem laukiem ir šādas papildu iespējas. Visi nav obligāti.

Ģeometrijas lauka SRID [2] (telpiskās atsauces sistēmas identitāte) iestata uz norādīto vērtību. Noklusējums ir 4326 (pazīstams arī kā WGS84, vienības ir garuma un platuma grādos).

SRID izvēle¶

Piemērota SRID izvēle savam modelim ir svarīgs lēmums, kas izstrādātājam būtu rūpīgi jāapsver. SRID ir vesels skaitlis, kas atbilst projekcijas sistēmai, kuru izmantos, lai interpretētu datus telpiskajā datu bāzē. [3] Projekcijas sistēmas piešķir kontekstu koordinātām, kas norāda atrašanās vietu. Lai gan ģeodēzijas detaļas ir ārpus šīs dokumentācijas darbības jomas, vispārējā problēma ir tā, ka zeme ir sfēriska un zemes attēlojumi (piemēram, papīra kartes, tīmekļa kartes) nav.

Lielākajai daļai cilvēku ir zināms, kā izmantot platumu un garumu, lai atsauktos uz vietu uz zemes virsmas. Tomēr platums un garums ir leņķi, nevis attālumi. Citiem vārdiem sakot, kaut arī īsākais ceļš starp diviem plakanas virsmas punktiem ir taisna līnija, īsākais ceļš starp diviem punktiem uz izliektas virsmas (piemēram, zemes) ir loka no liela apļa. [4] Tādējādi, lai iegūtu attālumus plakanās vienībās (piemēram, kilometros un jūdzēs), nepieciešama papildu aprēķināšana. Ģeogrāfisko koordinātu sistēmas izmantošana var radīt sarežģījumus izstrādātājam vēlāk. Piemēram, SpatiaLite nav iespēju veikt attāluma aprēķinus starp ģeometrijām, izmantojot ģeogrāfiskās koordinātu sistēmas, piem. konstruējot vaicājumu, lai atrastu visus punktus 5 jūdžu attālumā no apgabala robežas, kas saglabāta kā WGS84. [5]

Zemes virsmas var izvirzīties uz divdimensiju vai Dekarta plaknes. Projicētās koordinātu sistēmas ir īpaši ērtas konkrētiem reģioniem paredzētām lietojumprogrammām, piemēram, ja jūs zināt, ka jūsu datu bāze aptvers ģeometriju tikai Ziemeļkanzasas štatā, varat apsvērt iespēju izmantot šim reģionam raksturīgu projekcijas sistēmu. Turklāt projektētās koordinātu sistēmas ir noteiktas Dekarta vienībās (piemēram, metros vai pēdās), atvieglojot attāluma aprēķinus.

Ja vēlaties veikt patvaļīgus vaicājumus, izmantojot PostGIS WGS84 bez punktu ģeometrijas, un vēlaties pienācīgu veiktspēju, iespējojiet atslēgvārdu GeometryField.geography tā, lai tā vietā tiktu izmantots ģeogrāfijas datu bāzes tips.

    : Ar Django darbināta telpisko atskaites sistēmu datu bāze. : Vietne, kas aptver dažādas Amerikas Savienotajās Valstīs izmantotās projekcijas sistēmas. Liela daļa sastopamo ASV telpisko datu būs vienā no šīm koordinātu sistēmām, nevis tādā ģeogrāfiskā koordinātu sistēmā kā WGS84.

Telpiskais_indekss ¶

Pēc noklusējuma ir True. Dotajam ģeometrijas laukam izveido telpisko indeksu.

Tas atšķiras no lauka opcijas db_index, jo telpiskie indeksi tiek veidoti citādi nekā parastie datu bāzes indeksi. Telpiski indeksi parasti tiek veidoti, izmantojot R-Tree variantu, savukārt parastajās datu bāzes indeksos parasti tiek izmantoti B-Trees.


Spatiotemporal datubāze ir datu bāze, kas pārvalda gan telpas, gan laika informāciju. Parastie piemēri ietver kustīgu objektu izsekošanu, inteliģentas transporta sistēmas, mobilos sakarus un meteoroloģijas monitoringu. Spatiotemporal vaicājums nosaka objektus, kas iekļauti reģionā noteiktā laika posmā starp divām datuma un laika instancēm, kuras tiek dēvētas par laika logu. Šī darba kontekstā mēs iepazīstinām ar SMaRT: romānu Spatiotemporāla Mysql ReTrieval ietvars, kas balstīts uz MySQL un PostgreSQL datu bāzes pārvaldības sistēmu. Turklāt mēs piedāvājam demonstrācijas lietotāja saskarni, kas īsteno visas tā iespējas, lai palīdzētu lietotājam noteikt visefektīvāko telpiskā laika vaicājuma metodi lietotāja definētajās 2D trajektorijās. Cik mums zināms, mēs pirmie pētām un salīdzinām metodes, kā risināt diapazona vaicājumus uz nelineārām kustīgu objektu trajektorijām, kas tiek attēlotas gan divdimensijā, gan vietējā dimensiju telpā. Proti, pirmo reizi tiek izmantota teorētiski efektīva divējāda pieeja nelineārām trajektorijām un iekļauta plaši pazīstamā atvērtā koda RDBMS. Ir iekļauts eksperimentāls novērtējums, kas parāda mūsu pieejas veiktspēju un efektivitāti.

Spyros Sioutas dzimis Grieķijā, 1975. gadā. 1997. gada decembrī beidzis Patras universitātes Inženieru skolas Datortehnikas un informātikas nodaļu (CEID). Viņš ir ieguvis doktora grādu. grāds tajā pašā katedrā 2002. gadā. Tagad viņš ir Jonijas universitātes datorzinātņu katedras asociētais profesors. Viņa pašreizējās pētniecības intereses ietver: algoritmisko datu pārvaldību, laika un laika datu bāzu sistēmas, izplatītās datu struktūras un P2P pārklājumus, mākoņu infrastruktūras, indeksēšanu, vaicājumu apstrādi un vaicājumu optimizāciju. Viņš ir publicējis vairāk nekā 100 referātus dažādos zinātniskos žurnālos un referētās konferencēs (cita starpā SIGMOD Record, Algorithmica, Computer Journal, Data and Knowledge Engineering, Journal of Descrete Algorithms, Distributed and Parallel Databases, Journal of Systems and Software, ESA, ICALP, ISAAC , DEXA, SAC, CIKM, PODC, ICDT / EDBT, SODA, SIGMOD utt.), Un tajā ir vairāk nekā 550 atsauču. Viņš tika izvēlēts apmeklēt Postdoc pētnieku vasaras skolā par “masīvām datu kopām” BRICS (Datorzinātnes pamatpētījums) nodaļā, Orhūsas universitātē, Dānijā, 2002. gada jūnijā. Viņš bija viespētnieks Londonas Universitātes Kings koledžā (pētījums domēns: String Algorithmics and I / O complexity), Londona, Anglija, 2005. gada aprīlis. Viņš bija arī viespētnieks MADALGO (pētījumu sfēra: “Deterministic Data Structures over P2P Networks”), Orhūsā, Dānijā, 2008. gada decembrī. Viņam ir 13 gadi darba pieredze kā izstrādātājam, programmatūras testētājam, datu bāzes administratoram un projektu vadītājam Datortehnoloģijas institūtā (7. pētniecības vienība) un DBIS laboratorijā (http://di.ionio.gr/dbislab).


Ievads

GPS ierīces ir bijušas populāras daudzus gadus, kā rezultātā tiek savākts liels trajektorijas datu kopu daudzums. Kustīga objekta (piemēram, transportlīdzekļa vai personas) trajektorijas dati satur datu punktu secību, kur katrs datu punkts ietver kustīgā objekta atrašanās vietu un laika zīmogu. Vaicājums varētu būt atrast visus cilvēkus taisnstūrveida meklēšanas apgabalā noteiktā dienā vai visus transportlīdzekļus, kas nedēļas nogalēs šķērsojuši krustojumu. Laika intervāls starp diviem secīgiem punktiem var būt vairākas sekundes, un visas datu kopas laika posms var būt tikpat ilgs kā daudzus gadus. Šīs datu kopas bieži ir ļoti lielas un aptver lielus ģeogrāfiskos apgabalus un ilgus laika periodus. Ātras izguves nodrošināšanai ir ļoti svarīgi, kā grupēt trajektorijas datus sekundārajā krātuvē un indeksēt trajektorijas. Šajā pētījumā risināmā problēma ir parādīta 1. attēlā, kur asis X un Y ir trajektorijas telpas telpiskie izmēri T ass ir laika dimensija, un q1, q2 un q3 ir tipiski vaicājuma veidi trajektorijas datos. Vaicājuma tips q1 ir noteikts noteiktā telpiskā reģionā un ilgā laika periodā, kas atbild uz tādiem jautājumiem kā, piemēram, cik transportlīdzekļu gada laikā q2 vaicājuma tips ir šķērsojis CBD, un tas ir vērsts gan uz konkrētu telpisko reģionu, gan uz noteiktu trajektorijas datu telpas laiku vaicājuma tips q3 ir momentuzņēmums par trajektorijām noteiktā laikā. Atbildot uz šiem jautājumiem, ir nepieciešams iegūt lielu datu daudzumu no diska. Šajā pētījumā tiek atrasti risinājumi vēsturisko trajektoriju datu kopu glabāšanai sekundārajā krātuvē, kas ļauj ātri iegūt datus dažādiem vaicājumu modeļiem. Šo piedāvāto trajektorijas glabāšanas un izguves pieeju var izmantot, lai indeksētu un saglabātu lielus vēsturiskus GPS datus, ko autoparka uzņēmumu transportlīdzekļi radījuši, lai efektīvi iegūtu datus no diska analīzes vai pārvaldības vajadzībām, vai lai izstrādātu efektīvu metropoles datplūsmas datu glabāšanas shēmu (liela vēsturiskā trajektorija GPS ierīču radītie dati) ātrai datu izgūšanai.

Daudzas esošās pieejas indeksē atsevišķu trajektoriju minimālās ierobežojošās kastes (MBB), izmantojot R kokam līdzīgu struktūru [6], [7], [8], [15], [22]. Tā kā trajektorijas aptver plašas ģeogrāfiskās teritorijas un ilgus laika periodus, MBB robežas tāpēc ir ļoti lielas, un MBB ir daudz pārklājas. Katrā MBB iekšienē ir noteikts maksimālais trajektoriju skaits, tāpēc, lai saglabātu garu vēsturisko trajektoriju, jāizmanto ļoti liels MBB skaits. Tas padara MBB balstītas pieejas ļoti neefektīvas, un tās nav pietiekami mērogotas. Vaicājumi par lielām trajektorijas datu kopām bieži koncentrējas uz noteiktu ģeogrāfisko reģionu un noteiktā laika intervālā, bet ne uz vienu atsevišķu trajektoriju. Konkrētā telpiskā un laika reģionā var būt simtiem tūkstošu trajektoriju, kas vaicājumu diapazonu pārklājas. Šo iemeslu dēļ ir vēlams datus sadalīt pēc vietas (telpiski un laikā), ti, segmentēt trajektorijas un grupēt apakš trajektorijas, kas telpiski un laicīgi atrodas tuvu viens otram, arī tuvu diskā, lai datu iegūšana konkrētam reģionam būtu efektīvs. TrajStore [4] piedāvāja indeksēšanas un uzglabāšanas shēmu, izmantojot kvadraciklu. TrajStore labi darbojas, atbildot uz jautājumiem noteiktā ģeogrāfiskā reģionā, bet ir mazāk efektīva, lai atbildētu uz jautājumiem noteiktā laika posmā, jo lēmums indeksēt trajektorijas caur telpisko dimensiju vispirms seko reti laika zīmoga indeksam, kurā tiek saglabāts tikai sākuma un beigu laiks zīmogi katrai lapai.

Šajā rakstā mēs piedāvājam lielu trajektoriju datu kopu indeksēšanas un glabāšanas shēmu ar nosaukumu GCOTraj (Grid Cell Ordering Trajectory indexing and storage). GCOTraj sadala trajektorijas datu telpu daudzdimensiju režģa šūnās un segmentē trajektorijas apakš trajektorijās, lai ietilptu pamatā esošajās režģa šūnās. Tajā pašā šūnā esošās apakš trajektorijas atrodas vienlaikus un tiek glabātas tajā pašā diska blokā. Režģa šūnas tiek sakārtotas ar atstarpes aizpildīšanas līknēm (SFC), piemēram, Hilberta līkni, Z līkni un pelēkā koda līkni utt. Alternatīvi, tās var sakārtot, izmantojot vaicājuma darba slodzi balstītu grafiku sakārtošanu (GBO) tehnika. Veicot labu pasūtīšanu, vaicājuma laikā būs mazāk diska meklējumu. Tā kā GCOTraj indeksē trajektorijas gan telpiskajā, gan laika dimensijā, tas spēj precīzāk mērķēt uz diska režģa šūnām, kas pārklājas ar vaicājuma diapazonu. Tas samazina lieko datu ielādi no diska. GCOTraj spēj pielāgoties diapazona vaicājumu selektivitātei gan laika, gan telpisko izmēru ziņā. Parasti vēsturisko trajektoriju datu kopu glabāšana ir ļoti statiska [12]. Tātad šī dokumenta priekšlikumi ir vērsti uz datu izguves efektivitāti no sekundārās atmiņas, nevis uz atjauninājumiem vai ievietojumiem.

Veicām apjomīgus eksperimentus, izmantojot reālo Microsoft GeoLife trajektorijas datu kopu [28] un lielāku paplašināto GeoLife datu kopas versiju. Eksperimenti liecina, ka GCOTraj pārspēj modernāko trajektoriju uzglabāšanas shēmu TrajStore ar koeficientu līdz 16,07 IO laikā, ar koeficientu līdz 12,6 diska meklējumu skaitam un ar koeficientu līdz līdz 32,6 datu apjomā, kas iegūts no diska, lai atbildētu uz to pašu vaicājumu.

Mēs veicam šādus ieguldījumus: •

Mēs izstrādājam trajektoriju GCOTraj indeksēšanas un uzglabāšanas shēmu, kas ir pielāgojama vaicājumiem, kas ir selektīvi laikā un / vai telpā. Tiek piedāvāti un pētīti trīs GCOTraj varianti, GCOTrajSP, 2D sagriezti GCOTraj un 3D GCOTraj.

Mēs izmantojam SFC vai GBO, lai pasūtītu sadalītās režģa šūnas, lai samazinātu diska meklēšanu, izgūstot datu blokus no diska.

Mēs aprakstām izmaksu novērtēšanas formulu, lai novērtētu datu bloku izgūšanas no diska efektivitāti.

Mēs veicam plašus eksperimentus, lai novērtētu GCOTraj veiktspēju salīdzinājumā ar modernāko TrajStore. Eksperimenti liecina, ka GCOTraj ievērojami pārspēj TrajStore.

Pārējais raksts ir izklāstīts šādi. 2. sadaļā ir apspriests saistīts darbs. 3. sadaļā mēs aprakstām GCOTraj un trīs tā variantus - GCOTrajSP, 2D sagrieztus GCOTraj un 3D GCOTraj. 4. sadaļā ir sniegti mūsu eksperimentālie rezultāti, salīdzinot GCOTraj ar TrajStore. 5. nodaļa pabeidz darbu un apspriež turpmāko darbu.


HyR-tree: telpiskais indekss hibrīda zibspuldzei / 3D XPoint krātuvei

Uz zibatmiņu balstītie SSD diski ir kļuvuši labi izveidoti krātuvju tirgū, aizstājot magnētiskos diskus gan uzņēmuma, gan patērētāju datorsistēmās. Šo jauno ierīču veiktspējas raksturojums ir veicinājis ievērojamu pētījumu apjomu, kura mērķis ir izstrādāt efektīvas datu piekļuves metodes. Sākotnējie darbi mēģināja samazināt dārgas izlases rakstīšanas iespējas, izmantojot reģistrēšanas un sērijveida rakstīšanas paņēmienus, savukārt jaunākie risināja vaicājumu apstrādi, izmantojot SSD augsto iekšējo paralēlismu. 3D XPoint ir jauna nemainīga atmiņas tehnoloģija, kas parādījās nesen, un kurai ir mazāks piekļuves laiks un augstāka izturība salīdzinājumā ar zibspuldzi. Tas ir pieejams gan kā bloku adresējama sekundārā atmiņa, gan kā baitu adresējama pastāvīgā galvenā atmiņa. Tomēr 3D XPoint augstās izmaksas pagaidām neļauj to pieņemt lielos mērogos. Tas padara hibrīdās atmiņas sistēmas par pietiekamu alternatīvu, izmantojot NAND flash un 3D XPoint. Šajā darbā mēs piedāvājam HyR-koku, R-koka hibrīdo variantu, kas saglabā daļu koka 3D XPoint krātuvē ar augstu veiktspēju. HyR-koks identificē atkārtotu piekļuves modeli datiem un izmanto šos modeļus, lai atrastu vissvarīgākos mezglus. Mezgla nozīmi nosaka veiktspējas pieaugums, kas izriet no tā izvietojuma 3D XPoint balstītā ierīcē. Mēs eksperimentāli novērtējām HyR-koku, izmantojot reālas ierīces un četras dažādas datu kopas. Iegūtie rezultāti rāda, ka ar mūsu priekšlikumu tiek panākts ievērojams veiktspējas pieaugums līdz pat 40% koku būvniecībā un līdz 56% diapazona vaicājumos.

Šis ir abonementa satura priekšskatījums, piekļuve caur jūsu iestādi.


Šeit ir daži Postgresql intervijas jautājumi ar viņu atbildēm:

Zemāk ir saraksts ar Labākie Postgresql intervijas jautājumi un atbildes

1) Kas ir PostgreSQL?

Postgres vai vienkārši pazīstams kā Postgresql SQL pasaulē ir viens no plaši un populāri izmantoto objektu-relāciju datu bāzu pārvaldības sistēmai, ko galvenokārt izmanto lielās tīmekļa lietojumprogrammās. Tā ir viena no atvērtā pirmkoda objektu-relāciju datu bāzu sistēmām, kas arī ir spēcīga. Tas nodrošina papildu un ievērojamu jaudu, iekļaujot četrus pamatjēdzienus tā, lai lietotājs varētu bez problēmām paplašināt sistēmu. Tas paplašina un izmanto SQL valodu, kas apvienota ar dažādām funkcijām, lai droši mērogotu un saglabātu sarežģīto datu slodzi.

2) Uzskaitiet dažas Postgresql funkcijas?

Tālāk ir norādītas dažas galvenās Postgresql iezīmes:

  1. Objekta relāciju datu bāze
  2. Atbalsta galvenās operētājsistēmas
  3. Atbalsta paplašināmību SQL un sarežģītiem SQL vaicājumiem
  4. Ligzdoti darījumi
  5. Elastīga API un datu bāzes validācija
  6. Vairāku versiju vienlaicīguma kontrole (MVCC) un procedūras valodas
  7. WAL un klienta serveris
  8. Tabulas mantojums un asinhronā replikācija

3) Uzskaitīt dažādus Postgresql datu tipus?

Pastāv jauni, dažādi datu tipi, kurus atbalsta Postgresql. Šie datu tipi ir šādi:

  • UUID
  • Ciparu veidi
  • Būla
  • Rakstzīmju veidi
  • Laika veidi
  • Ģeometriskie primitīvi
  • Patvaļīgs precizitātes cipars
  • XML
  • Masīvi utt.

Lietotāji var arī izveidot savus indeksus un tos indeksēt.

4) Uzskaitiet dažādas Postgresql priekšrocības?

Tālāk ir norādītas dažas PostgreSQL priekšrocības:

  • Stabils
  • Uzticama
  • Izvelkams
  • Viegli iemācīties
  • Atvērtais avots
  • Paredzēts liela apjoma videi
  • Pārrobežu platforma
  • Labāks atbalsts
  • Elastīgs

5) Kas ir virkņu konstantes PostgreSQL?

A virknes konstante PostgreSQL ir dažu rakstzīmju secība, kuru ierobežo atsevišķas pēdiņas (').

"Šī ir virkne nemainīga"

6) Kas ir vairāku versiju vadība PostgreSQL?

Vairāku versiju vienlaicīguma kontrole vai MVCC PostgreSQL tiek izmantots, lai izvairītos no nevajadzīgas datu bāzes bloķēšanas. Tas noņem laika aizturi, kad lietotājs var pieteikties savā datu bāzē. Šī funkcija vai laika nobīde rodas, kad kāds cits piekļūst saturam. Visi darījumi tiek reģistrēti.

7) Kādi ir PostgreSQL indeksi?

PostgreSQL indeksi ir iebūvētas funkcijas vai metodes, piemēram, GIST indeksi, jaucējgalds un B-koks (binārs koks) ko lietotājs var izmantot, lai skenētu indeksu atpakaļ. Lietotāji var arī definēt savus PostgreSQL indeksus.

8) Kas ir marķieri PostgreSQL?

Žetoni PostgreSQL ir jebkura avota koda bloki. Ir zināms, ka tie satur daudzus īpašo simbolu simbolus. Tos var uzskatīt par konstantēm, kotētiem identifikatoriem, citiem identifikatoriem un atslēgvārdiem. Žetoni, kas ir atslēgvārdi, sastāv no iepriekš noteiktām SQL komandām un nozīmēm. Identifikatori tiek izmantoti, lai attēlotu mainīgos nosaukumus, piemēram, kolonnas, tabulas utt.

9) Kas ir tabulas sadalīšana PostgreSQL?

Galdu sadalīšana PostgreSQL ir liela galda sadalīšanas process mazākos gabalos. Sadalītā tabula ir loģiska struktūra, ko izmanto, lai sadalītu lielu tabulu mazākos gabalos, kurus sauc par nodalījumiem.

10) Kā sākt datu bāzes serveri PostgreSQL?

Lai varētu piekļūt datu bāzei, jums jāspēj startēt datu bāzes serveris. Datu bāzes servera programmu sauc par Postgres. Postgres programmai jāzina, kur atrast datus, kādus tai paredzēts izmantot. Tas tiek darīts ar opciju -D. Tādējādi vienkāršākais servera palaišanas veids ir:

11) Kāda ir pgadmin izmantošana PostgreSQL?

Tas ir bezmaksas atvērtā koda GUI rīks PostgreSQL datu bāzes administrēšanas rīks Windows, Mac OS X un Linux sistēmai. To izmanto informācijas iegūšanai, izstrādei, testēšanai un datu bāzu pastāvīgai uzturēšanai.

12) Kas ir Cube Root Operator (|| /) PostgreSQL?

PostgreSQL kuba saknes operators (||/) tiek izmantots, lai iegūtu skaitļa kuba sakni.

13) Kā mēs varam mainīt kolonnu datu tipu PostgreSQL?

Izmantot mainīt kolonnas tipa paziņojumu ar ALTER TABLE komandu, lai mainītu kolonnas tipu PostgreSQL.

14) Kā Postgresql tiek atjaunināta statistika?

Tas nav tik grūti, kā šķiet. Lai atjauninātu statistiku PostgreSQL, tiek veikta īpaša funkcija, ko sauc par skaidru & lsquovacuum & rsquo zvanu. Metode, kas jādara, ir izveidot vakuumu, kurā tiek izmantota Analyze iespēja statistikas atjaunināšanai Postgresql

15) Salīdziniet “PostgreSQL” ar “NoSQL”

Izteiciens “NoSQL” aptver plašu realizāciju kolekciju, kas ir daļa no datu bāzes, kas nav saistīts ar relāciju. Tas ietver sīkas iegultas datubāzes, piemēram, TokyoCabinet, milzīgas sakopotas datu apstrādes platformas, piemēram, Hadoop, un visu, kas atrodas starp tām. Īsāk sakot, praktiski nav iespējams komentēt diapazonu, ko NoSQL veido kā tipiska klase.

Izvēle starp nerelāciju un relāciju datu bāzēm arī tiek diezgan bieži apspriesta, jo abas pastāv viena otrai blakus vairāk nekā četrdesmit gadus. Patiesībā lietotājiem jāizvēlas datu bāzes funkcijas, kopienas atbalsts un ieviešana atbilstoši viņu pašreizējām lietojumprogrammu vajadzībām. Turklāt vairāku dažādu datu bāzu izmantošana apjomīgiem projektiem vairāk kļūst par normu, nevis tendenci. Turklāt PostgreSQL lietotāji nav izņēmums.

16) Kādas būs jaunās Postgre 9.1 īpašības?

17) Izskaidrojiet PostgreSQL vēsturi.

The PostgreSQL izcelsme datēts ar 1986. gadu kā daļa no POSTGRES projekta Kalifornijas Universitātē Bērklijā un vairāk nekā 30 gadus aktīvi attīstījies galvenajā platformā. Tas darbojas visās galvenajās operētājsistēmās un kopš 2001. gada ir saderīgs ar ACID. Tam ir arī papildinājums, piemēram, PostGIS datu bāzes paplašinātājs. MAC OS noklusējuma datu bāze ir Postgresql. Mišels Stounbrakers ir Postgresql tēvs, kurš ir sācis Post Ingres projektu mūsdienu datu bāzu sistēmu atbalstam. PostgreSQL un rsquos izstrādātāji izrunā PostgreSQL kā to saīsina kā Postgres pateicoties visuresošajam SQL standarta atbalstam starp lielāko daļu relāciju datu bāzēm. PostgreSQL, sākotnēji to sauca par Postgres, UCB izveidoja datorzinātņu profesors Maikls Stounbrakers, kurš kļuva par Informix Corporation CTO.

Akmens brekers uzsāka Postgres 1986. gadā kā turpinājumu savam priekšgājējam Ingres, kas tagad pieder Computer Associates. Tādējādi nosaukums Postgres spēlē savu priekšgājēju (tāpat kā & ldquoafter Ingres & rdquo). Ingres, kas izstrādāts no 1977. līdz 1985. gadam, bija uzdevums izveidot datu bāzes sistēmu saskaņā ar klasisko RDBMS teoriju. Postgres, kas tika izstrādāts 1986.-1994. Gadā, bija projekts, kas bija paredzēts, lai atklātu jaunu pamatu datu bāzu koncepcijās, piemēram, & ldquoobject-relational & rdquo tehnoloģiju izpēte. Uzņēmuma klases datu bāze PostgreSQL lepojas ar sarežģītām funkcijām, piemēram, daudzversiju vienlaicīguma kontroli (MVCC), laika atgūšanu, tabulām, asinhrono replikāciju, ligzdotajiem darījumiem (savepunktiem), tiešsaistes / karstajām dublējumkopijām, izsmalcinātu vaicājumu plānotāju / optimizētāju un ierakstīšana uz priekšu, lai reģistrētu kļūdas.


Saskarne un datu arhitektūra vaicājumu priekšskatīšanai tīkla informācijas sistēmās.

Tīkla informācijas resursu izpēte kļūst arvien sarežģītāka, jo pieaug datu apjoms. Mēs identificējām vismaz šādas informācijas meklēšanas problēmas tīkla vidēs:

--Datu apjoms: pieejamo datu apjoms strauji pieaug. Piemēram, daži sensoru dati NASA Zemes novērošanas sistēmās pieaug ar gigabaitu ātrumu dienā. Ir grūti organizēt un indeksēt jaunu ierakstu apjomu. Tā kā daudzi lietotāji meklē īpašus ierakstus, ir nepieciešams ātri koncentrēties uz interesējošo informāciju.

--Datu daudzveidība: dati ir dažādi, piemēram, teksts, attēls, audio, video vai to kombinācijas. Daži formāti ir specifiski lietojumprogrammām, tāpēc meklēšanas un izguves rīkiem ir grūti tos identificēt un kategorizēt.

- Lēna piekļuve tīklam: lēna piekļuve tīklam ir plaši pazīstama informācijas meklēšanas problēma tīkla vidēs. Ja tīkla trafika ir augsta, pasliktinās datu pārraides ātrums. Tāpēc, ja tiek samazināts piekļuves tīklam skaits, lietotāja uzdevumu izpilde tiek paātrināta.

Šajā rakstā mēs iepazīstinām ar lietotāja saskarni, lai atbalstītu efektīvu vaicājumu formulēšanu tīkla informācijas sistēmām, izmantojot dinamiskus vaicājumus un vaicājumu priekšskatījumus.

Dinamiskie vaicājumi ir grafisko vaicājumu saskarņu paplašinājums, pamatojoties uz apkopošanas / vispārināšanas hierarhijām [Weiland and Shneiderman 1993 Shneiderman 1994]. Dinamisko vaicājumu lietotāja saskarnēs tiek piemēroti tiešas manipulācijas un netiešās darbības principi

- vaicājuma vizuāla attēlošana

- rezultātu vizuāla atspoguļošana

- ātra, inkrementāla un atgriezeniska vaicājuma vadība

- atlase, norādot, nevis rakstot, un

- tūlītēja un nepārtraukta atgriezeniskā saite

Dinamiskie vaicājumi ietver interaktīvu lietotāju vizuālo vaicājumu parametru kontroli, kas ģenerē ātru, animētu un vizuālu datu bāzes meklēšanas rezultātu parādīšanu. Kad lietotāji pielāgo slīdņus vai pogas, rezultāti tiek ātri atjaunināti (100 milisekunžu laikā).

Lietotāju entuziasms par vaicājumu priekšskatījumiem rodas no kontroles sajūtas, ko viņi iegūst pār vaicājumu. Empīriskie rezultāti ir parādījuši, ka dinamiski vaicājumi ir efektīvi iesācējiem un lietpratējiem lietotājiem, lai atrastu tendences un pamanītu izņēmumus [Ahlberg et al. 1992 Viljamsons un Šneidermans 1992 Tanins u.c. 1997].

Agrīnā dinamisko vaicājumu ieviešanā tika izmantoti salīdzinoši mazi, dažu tūkstošu ierakstu faili. Viņiem bija nepieciešams, lai dati tiktu saglabāti atmiņā, lai garantētu ātru displeja atjaunināšanu. Mēs izstrādājām algoritmus un datu struktūras, kas ļauj apstrādāt lielākus failus (līdz 100 000 ierakstu) [Tanin et al. 1996], taču lēna tīkla veiktspēja un ierobežota vietējā atmiņa ir šķērslis, mēģinot izmantot dinamiskos vaicājumus lielām izplatītām datu bāzēm.

Vaicājumu priekšskatījumi piedāvā šīs problēmas risinājumu. Mēs aprakstām vienkāršu vaicājumu priekšskatījumu piemēru - restorāna meklētāju, lai ilustrētu pamatprincipus. Tad tiek parādīts divfāžu vaicājuma formulēšanas process un sistēmas arhitektūra. Lai parādītu, kā šī pieeja ir izmantota, tiek izmantots NASA EOSDIS (Earth Observing Systems Data Information Systems) dinamiskā vaicājuma lietotāja interfeisa prototips. Tiek ziņots par ekspertu pārskatu un kontrolēta eksperimenta novērtējumiem. Visbeidzot, tiek sniegts saistīts darbs un secinājumi.

Tradicionāli informācijas meklētājiem ir divas stratēģijas, lai iegūtu datus no lielām informācijas sistēmām [Marchionini 1995]. Analītiskās stratēģijas ir atkarīgas no rūpīgas plānošanas, vaicājuma terminu atsaukšanas, iteratīvās vaicājuma formulēšanas un rezultātu pārbaudes. Pārlūkošanas stratēģijas ir atkarīgas no lietotāja atbilstošās informācijas atpazīšanas, un tāpēc tās ir heiristiskas un oportūnistiskas. Analītiskās stratēģijas prasa lietotājiem labi pārzināt lietojumprogrammas jomu un prasmīgi spriest. Pārlūkošanas stratēģijas prasa mazāk zināšanu, bet var būt sarežģītas, ja datu apjoms ir liels.

Uz atslēgvārdiem vai veidlapām balstītas saskarnes tiek plaši izmantotas, veidojot vaicājumus tīkla informācijas sistēmās. Tie bieži ģenerē vaicājumus bez nulles vai vaicājumu rezultātus, kas satur lielu skaitu rezultātu, kuri lietotājiem ir jāpārlūko. Lietotāji var ierobežot to, cik daudz vaicājumu atgriež (piemēram, 20), lai ierobežotu meklēšanas ilgumu, taču nav iespējams noteikt, cik daudz datu netika atgriezti un cik reprezentatīvi ir rezultāti visā meklēšanas telpā. Lietotāji arī bieži nespēj atrast datus, ja nevar uzminēt atbilstošus atslēgvārdus.

Vaicājumu priekšskatījumos ir apvienota pārlūkošana un vaicājumu veidošana. Kopsavilkuma dati (piemēram, ierakstu skaits katrai atribūta vērtībai) liek lietotājiem sašaurināt vaicājumu loku. Kopsavilkuma dati, kas mainās atkarībā no datu bāzes un lietojumprogrammas, sniedz pārskatu par datu bāzi no vairākām perspektīvām. Parasti tas ir par lielumu pakāpēm mazāks nekā pašā datu bāzē, un to var ātri lejupielādēt, lai lietotāja datorā lokāli vadītu dinamisko vaicājumu saskarni. Tāpēc vaicājumu priekšskatījumi atbalsta dinamisku vaicājuma lietotāja saskarni, kurā kopsavilkuma vizuālais attēlojums tiek atjaunināts reāllaikā, reaģējot uz lietotāju izvēli. Lietotāji var ātri samazināt ierakstu skaitu līdz pārvaldāmam lielumam.

Vaicājumu priekšskatījumi ļauj lietotājiem veikt sarežģītākus meklējumus, izmantojot vizuālās stratēģijas, un tiem ir daudz priekšrocību:

- samazināt tīkla aktivitāti un pārlūkošanas piepūli, novēršot nevēlamu ierakstu izguvi

- vizuāli attēlot datu bāzes statistisko informāciju, lai tā būtu vieglāk saprotama un izpētīta

--atbalsta dinamiskos vaicājumus, kas palīdz lietotājiem atklāt datu bāzes modeļus un izņēmumus

- piemērots iesācējiem, neregulāriem vai biežiem lietotājiem

3. VIENKĀRŠS PĒTNIECĪBAS PĀRSKATĪŠANAS PIEMĒRS: RESTORĀNA ATKLĀTĀJS

Restorāna meklētājs (1. (a) un 1. (b) attēls) ilustrē vizuālās mijiedarbības jēdzienu ar kopsavilkuma datiem, dinamisko vaicājumu priekšskatījumu būtību. Restorāna meklētājs ir paredzēts, lai palīdzētu lietotājiem noteikt restorānus, kas atbilst noteiktiem kritērijiem. Lietotāji vispirms norāda vajadzīgo restorānu kritērijus, piemēram, ēdiena veidu vai cenu diapazonu. Tas samazina izvēlēto restorānu skaitu līdz labāk pārvaldāmam lielumam (1. attēls (b)). Pēc tam pieprasījums tiek iesniegts tīklā, kas iegūst vairāk datu par izvēlētajiem restorāniem. Pēc tam lietotāji var turpināt uzlabot savus vaicājumus, izmantojot papildu, precīzākus kritērijus.

[1. attēls IELĀDES IZLAIDĪTS]

Apsveriet 10 000 restorānu datu bāzi Atlantijas okeāna vidienē. Restorāna meklētāja lietotāja interfeiss nodrošina slīdņus un pogas, lai izvēlētos vēlamos ēdienus, izmaksu diapazonu, stundu diapazonu, ģeogrāfiskos reģionus, vērtējumu un pieņemamās maksājumu kartes. Veicot atlasi, ekrāna apakšdaļā redzamā rezultātu josla mainās proporcionāli izvēlēto restorānu skaitam, kas apmierina lietotāju izvēli (iespējams, tūkstošiem restorānu). Nulles vaicājumi tiek novērsti: lietotāji var ātri redzēt, vai pēc pusnakts ir atvērti kādi ķīniešu restorāni, un viņi ātri sapratīs, ka Vašingtonā nav neviena lēta franču restorāna. Datu bāzes sadalījumi ir redzami: lietotāji var atklāt, ka ķīniešu restorānu ir vairāk nekā itāļu restorānu, bet vairāk itāļu restorānu ir atvērti pēc pusnakts. Vaicājuma priekšskatījumā no tīkla tiek lejupielādēti tikai kopsavilkuma dati, nodrošinot reāllaika mijiedarbību un novēršot tīkla aizkavēšanos, līdz tiek identificēta noderīga datu apakškopa. Tad no tīkla tiks lejupielādēta sīkāka informācija par šo apakškopu (piemēram, ģeogrāfiskā atrašanās vieta, kas norādīta vietējā tālummaiņas kartē, dati par autostāvvietas pieejamību, vietu skaitu vai piekļuvi invalīdiem), lai lietotāji varētu precizēt vaicājumu. Visbeidzot, lietotāji var noklikšķināt uz atsevišķiem restorāniem un pārskatīt izvēlnes un norādes, lai veiktu galīgo izvēli.

4. GALVENAIS PIEMĒRS UN PROTOTIPS: EOSDIS GADĪJUMS

Mēs izmantojam NASA Zemes novērošanas sistēmas datu informācijas sistēmu (EOSDIS), lai ilustrētu mūsu divfāžu vaicājumu priekšskatījuma pieeju.

Dažādi lietotāji (zinātnieki, skolotāji, studenti utt.) Zemes zinātnes datus var iegūt no simtiem tūkstošu datu kopu. Datu kopas, kuru nosaukumi ir datu kopas ar autoritatīviem metadatiem, satur attēlus, mērījumus vai apstrādātus datus no deviņiem datu centriem visā valstī. Standard EOSDIS metadata include spatial coverage, time coverage, type of data, sensor type, campaign name, level of processing, etc. Classic form fill-in interfaces for EOSDIS (Figure 2) permit searches of the already large holdings, but zero-hit queries are a problem and it is difficult to estimate how much data are available on a given topic and what to do to increase or reduce the result set.

[Figure 2 ILLUSTRATION OMITTED]

An early version of our two-phase approach was implemented in Visual Basic [Doan et al, 1996]. Then a more complete prototype was implemented in Tcl/Tk (available in video [Plaisant et al. 1997a]), and more recently a working Java implementation was prepared on the World Wide Web (WWW). The interface consists of two phases: query preview and query refinement.

In the query preview (Figure 3), users select rough ranges for three attributes: geographical location (a world map with 12 regions is shown at the top of the screen), parameters (a menu list of parameters such as vegetation, land classification, or precipitation), and temporal coverage (in the lower right). The spatial coverage of datasets is generalized into continents and oceans. The temporal coverage is defined by discrete years.

[Figure 3 ILLUSTRATION OMITTED]

The number of datasets for each parameter, region, and year is shown on preview bars. The length of the preview bars is proportional to the number of the datasets containing data corresponding to the attribute value. At a glance users can see that the datasets seem to cover all areas of the globe, but there is more data on North America than South America. Users can also see that parameters and years are covered relatively uniformly in this hypothetical EOSDIS dataset collection. The result preview bar, at the bottom of the interface, displays the total number of datasets.

Only rough queries are possible since the spatial coverage of datasets is generalized into continents and oceans, while the temporal coverage is defined by discrete years.

A query is formulated by selecting attribute values. As each value is selected, the preview bars in the other attribute groups adjust to reflect the number of datasets available. For example, users might be interested only in datasets that contain data for North America, which are selected by clicking on the North America checkbox (left of the map) or by clicking on the image of North America on the map. All the preview bars change in a fraction of a second (see Figure 3(b)) to reflect the distribution of datasets for North America only. The result preview bar at the bottom changes size to indicate the number of datasets for North America (660 in this example).

Users continue to define a query by selecting from other attribute value groups. In this example, users pick the two largest attribute values for North America, "Vegetation," and "Land Classification" (see Figures 3(b) and 3(c)). The preview bars in the spatial and year attribute value groups adjust to reflect the new query.

The OR operation is used within attribute value groups, the AND operation between attribute value groups [Weiland and Shneiderman 1993]. Those AND/OR operations are made visible by the behavior of the bars which become smaller when an attribute value is specified for the first time (e.g., picking the first year) while becoming longer when additional values are added for a given attribute (e.g., when more years are added). This conjunction of disjunctions design handles many queries conveniently and allows rapid exploration that reduces the need for some more complex boolean queries [Weiland and Shneiderman 1993 Young and Shneiderman 1993].

Users further reduce the number of selected datasets by choosing specific years, in the example 1986, 1987, and 1988, three years which have data as shown on the preview bar (Figure 3(d)). These selections change the number of datasets in the other attribute value groups, and the preview bars are updated.

When the "Submit" button is pressed the rough query is submitted to the EOSDIS search engine, and the metadata of the datasets that satisfy the query are downloaded for the query refinement phase. In the example the query preview phase narrowed the search to 66 datasets.

4.4 EOSDIS Query Refinement

The query refinement interface supports dynamic queries over the metadata, i.e., over all the attributes of the datasets. These include the detailed spatial extent and temporal interval, parameters measured in the dataset, the sensor used to generate the dataset, the platform on which the sensor resides, the project with which the platform is associated, the data archive center where the data are stored, and the data-processing level which indicates raw sensor data (level 0) to highly processed data (level 4).

A temporal overview of the datasets is given in the top left (Figure 4(a)). Each dataset is now individually represented by a selectable line. Controls are provided to select values for the common attributes: the data archive center, project, platform, sensor, and data-processing level. Beside those common attributes additional attributes can be included in the metadata, but since the number of attributes may be large, menu access needs to be provided for those less common attributes. At the bottom of the screen a table lists all the datasets and gives exact values for the attributes.

[Figure 4 ILLUSTRATION OMITTED]

In the refinement phase of the query, users can select precise values for the attributes. The map, already zoomed to the area selected in the query preview, should be zoomable to allow precise selection. The time line of the overview, already narrowed to the years selected in the query preview, can be rescaled to specify narrower periods of interest.

In this second dynamic query interface the result of the query is immediately visualized on the overview. As attribute values are selected the number of lines on the overview changes to reflect the query in a few milliseconds, since there is no access to the network.

All controls are tightly coupled to do the following:

--Describe selected datasets: When users click on a dataset of the timeline overview, the corresponding attribute values are highlighted on all controls, e.g., the sensor is highlighted, the spatial coverage shown on the map, the row of the dataset table is highlighted and scrolled to the front if needed (Figure 4(b)).

--Indicate valid values: Once some attribute values have been selected, controls can reflect the now invalid values by graying them out (e.g., selecting a platform will most likely eliminate some of the sensors which will become grayed out). This can be achieved by analyzing the metadata of the datasets.

In Figure 4(c) the number of datasets was reduced by selecting the processing levels 2 and 3, two archive centers, and three projects. More details about a dataset such as descriptive information and sample data can be retrieved on demand from the network before the decision to download a full dataset is made. The Java implementation also illustrates the benefit of the World Wide Web by allowing interface objects to act as links to relevant WWW information sources. For example, each platform name is linked to a NASA page describing that platform.

The architecture supporting the two-phase query formulation consists of three layers: interface, local storage, and network (Figure 5).

[Figure 5 ILLUSTRATION OMITTED]

At the interface layer, users formulate and refine queries as described above. The query preview and query refinement interfaces provide a visual representation of the preview statistics, selected datasets, and query parameters.

The local storage layer maintains the data used to drive the dynamic query interfaces of the interface layer. These data consist of a volume preview table (summary data that indicate the number of datasets for each attribute value and intersections) for the query preview and dataset metadata for the query refinement. When users initiate a query preview session, the volume preview table is downloaded from the network databases.

The network layer is where the network activities take place. These network activities include updating the volume preview tables, providing the metadata for datasets selected from a query preview, and retrieving the details of a dataset selected in the query refinement.

The size and dimensionality of the volume preview table is a function of the number of preview attributes and the number of discrete preview values for each attribute. Consider a Restaurant Finder with three preview attributes: cuisine type, rating, and accepted credit cards. Imagine five types of cuisine, four ratings, and two acceptable credit cards. In the simplifying case where each restaurant's attribute can only take a single value the volume preview table would be a five-by-four-by-two table, with a total of 40 combinations. But in our example of the Restaurant Finder, allowable credit cards may be grouped. The cells of the volume preview table must be independent so that there must be cells for each possible combination of credit cards. Two credit cards create four possible combinations (including neither being acceptable), so the volume preview table has five-by-four-by-four or 80 combinations. Each cell in the table (i.e., each attribute value combination) holds an integer representing the number of restaurants in the database for that particular combination. In Table I, corresponding to the "three-star rated" restaurants, the cell for the 3-star Indian restaurants that accept Visa and MasterCard holds the value 98. Such tables are used to update widgets in the query preview interface.

Table I. A Slice of the Volume Preview Table for an Example Restaurant Finder. This 2D table results from specifying one of three preview attributes. In this case, the third attribute, rating, has been specified. This table is used to update preview bars in the query preview interface.

N preview attributes, yield an N-dimensional volume preview table. The total size of the table is many orders of magnitude smaller than the size of the database, or the size of the datasets' metadata. Furthermore, the volume preview table does not change size as the database grows. Even if the database has billions of records, the size of the volume preview table allows it to be loaded into local high-speed storage to support dynamic queries in the query preview phase.

5.2 Controlling the Size of the Table

Nevertheless, the number of attributes and the number of the possible values needs to be carefully chosen if the objects being searched (e.g., restaurants or datasets) can take any combinations of values for their attributes. In the simple case of the Restaurant Finder, each restaurant could have a combination of credit cards. The interface widget only had two buttons for credit cards, but the volume preview table needed four rows to represent the combinations. In the case of EOSDIS a given dataset can contain measurements of several parameters, covering several areas over several years. In the worst case (i.e., if all combinations are possible) the size of the preview table could become [2.sup.12] x [2.sup.12] x [2.sup.10] (for 12 areas, 12 parameters, and 10 time periods) which would lead to megabytes of data, much too large to load over the network and use in the preview.

A first solution is to ignore in some way the possible combinations and count twice the datasets that have two parameters, once in each cell for each parameter it contains. This will result in correct individual preview bars (e.g., the preview bar for 1990 really gives the total number of datasets that have any data for that year) but inflate total result preview bar since some datasets are counted multiple times. This might be acceptable if combinations are a small proportion of the data, which is likely to be common because of the high granularity of the selections in the query preview.

A second, more accurate solution to the problem is to analyze the number of combinations, either by looking at the type of attribute (e.g., year combinations are typically year ranges, reducing the number of combinations to 55 instead of 1024 for 10 values), or the distribution of the data itself (e.g., EOSDIS parameters are grouped into only a limited number of compatible combinations).

The first solution has the advantage of keeping the size of the volume preview very small (e.g., 12 x 12 x 10 integers for our EOSDIS prototype, i.e., much smaller than the world map graphic) the second gives a more accurate preview but requires more time and space. In our early prototype we chose to simply duplicate datasets because we did not have access to large amounts of real EOSDIS metadata. The attributes were arbitrarily selected. In our operational prototype for the Global Master Change Directory, we used a hybrid solution where the list of record IDs is kept with the counts, so that all duplicates can be removed to calculate the totals accurately, but this does not scale up very far. Recently, we have begun to deal with the challenge of scaling up the software architecture to accommodate much larger and more varied data collections. In particular, we have implemented several techniques that deal with multivalued attribute data [Plaisant et al. 1999].

To summarize, volume preview tables can become large if combinations are to be previewed accurately or if large numbers of previewing attributes or attribute values are chosen. But the query preview technique can always be tailored by reducing the number of attributes or attribute values in the query preview. The size of the preview table can also be adapted to the users' work environment (network speed, workstation type) or preferences.

5.3 Updating the Volume Preview Table

Since the data of the networked information system changes regularly, volume preview tables have to be updated. Our approach depends on the data providers being willing and able to produce and publish volume preview tables on a regular basis (weekly, daily, or hourly, depending on the application), or on third-party businesses running series of queries to build the tables. Since the preview is only meant to enter rough queries it may be acceptable to use slightly out-of-date volume preview tables. The query preview needs to make clear that the preview bar sizes are an approximation of the real volume and give the "age" of the information used. When the rough query is submitted, the (up-to-date) databases are queried and will return up-to-date data for the query refinement. At this point the number of datasets returned might be slightly different than predicted by the query preview. This might be a problem when the query preview predicts zero hits while a new dataset that would answer the query has just been added to EOSDIS. This risk has to be evaluated and adequate scheduling of the updates enforced. The Cubetree implementation of data-cubes [Roussopolos et al. 1997] seems a promising data structure, as it has efficient query updating.

5.4 Limiting the Download of Metadata

Most users and data center staff will want to limit preview requests to those whose result set is small. The submit button can be disabled when the result set size is above a recommended level (75 in our early prototype).

6. LIMITATIONS OF THE CURRENT EOSDIS PROTOTYPE

The present implementation of the query refinement interface has several limitations. The implementation of the query refinement overview will not scale up well when more than 100 datasets are returned from the query preview. The timeline of intervals will get too tall and occupy too much screen space if intervals are not allowed to overlap. Better methods of handling large numbers of intervals are needed. Possible directions include zooming, optimizing the line packing to make use of screen space, or using line thickness to indicate overlaps. The quantitative and qualitative overview of the large number of datasets is needed to monitor their filtering, but the ability to select individual lines is important when numbers have decreased enough to require browsing of individual datasets.

In our EOSDIS prototype the zooming and panning of the overview have no filtering effect, but we have implemented other examples which demonstrate the benefit of the technique (e.g., for the Library of Congress historical special collections browsing [Plaisant et al. 1997b]). Similarly the filtering by geographical location has not been developed yet in the query refinement. Zooming and selecting rectangular areas is easy, but more sophisticated selection mechanisms used in geographical information systems are probably necessary.

The query preview allows users to specify the most common boolean queries (OR within attributes and AND between attributes). This is appropriate, since the query preview is only meant to be a rough query, but more precise control over the boolean combinations needs to be provided in the query refinement. Our current prototype does not offer such capability. Menu options can be provided to change the "behavior" of widgets, or graphical tools can be provided to allow boolean combination of the widgets [Young and Shneiderman 1993].

7. EVALUATION AND USER FEEDBACK

The prototype dynamic query preview interface was presented to subjects as part of a Prototyping Workshop organized by Hughes Applied Information Systems (HAIS) in Landover, MD [Poston 1996]. A dozen NASA earth scientists who use EOSDIS to extract data for their research participated in the evaluation and reviewed several querying interfaces during the day.

The hands-on review of our prototype lasted about an hour and a hall Groups were formed with two or three evaluators and an observer/note-taker in each group. They received no training but were given five directions or starting points to explore the prototype. For example, one direction was to "Examine the relationship between the map at the top and the data shown on the bottom half of the window. Try selecting a geographic region and various attributes. How are the data displayed." Evaluators were encouraged to "think aloud" during the session, and their comments and suggestions were recorded.

The 12 professionals reacted positively to the new concepts in the query preview and query refinement interfaces. They agreed that the visual feedback provided in the query preview interface allows users to understand the distribution of datasets. A group of evaluators recommended that it would be an effective tool for subjects who did not know what data were available. Others remarked that some users would not even need to go to the refinement phase, as they would realize immediately that no data were available for them. The query preview interface was said to "allow users to select data, see relationships among data, and explore available resources."

Subjects said that they appreciated the time interval overview concept and liked to be able to select or deselect and see the changes in the overview. Subjects felt that the prototype "led the user" and that it was "an intuitive way to search data." Some users suggested that the map regions and selectable attributes be customizable so that users could interact with information in which they are interested (different specialties may require different query preview attributes). At the time of the test the prototype was set to perform an AND operation within an attribute. This meant that clicking on 1991 just after a click on 1990 would result in all the bars being shorter (since it had restricted to the datasets which had data about 1990 AND 1991). After some confusion, all groups of evaluators were able to figure out that an AND was being performed by seeing the bars grow or shrink. But it was clear that they had expected the interface to perform an OR within an attribute (i.e., retrieving all datasets having data from 1990 or 1991). This was an important change made to the prototype following the evaluation. This anecdote confirms that the visual feedback helped users understand the operations performed by the system.

After the evaluation, subjects were given a questionnaire and rated the interface positively. For a complete list of subject comments and questionnaire results, see Poston ]1996].

Twelve computer science students searched a database of films with a form fill-in interface. They were given only 10 minutes of training in the use of the interfaces. The experimental treatments in this counterbalanced within-subjects design were presence or absence of a query preview [Tanin et al. 1997]. The tasks simulated a complex browsing situation such as "Find a PG-13 musical which was produced between 1991 and 1995, if no such film is available, find a war film from the same years with the same rating, if not, try a musical or a war film from 1970-91, and as the last possibility, try a comedy from 1970-95."

The query preview treatment showed whether or not there were any films satisfying the requirements, allowing subjects to rapidly explore alternatives. In the experiment, there were no lengthy network delays, so the time differences would be much larger if there were delays. Subjects using the query preview took an average of only 36.2 seconds while others took 57.5 seconds (p [is less than] 0.05) for tasks in which the query preview attributes were partially relevant. Stronger results, 24.4 seconds versus 51.2 seconds (p [is less than] 0.05), were obtained when the tasks closely matched the query preview attributes. This dramatic doubling of speed for query previews is a strong indication of its benefits, which will be even greater in the case of network delays. For tasks in which there was no match with the query preview attributes, there was only a 10% slowdown in performance.

Subjective satisfaction was statistically significantly higher for the query preview users, who rated the query preview interfaces higher on five questions: helpful? faster? enlightening? enjoyable? use it again? Subjects also made useful suggested improvements such as rapid ways to reset the query preview.

The two examples we described illustrate a query formulation process for a networked information system consisting of two phases: query preview and query refinement.

In the query preview phase, users form a rough query by selecting rough values over a small number of attributes. The scope of the query is large, but the resolution is limited (see Figure 7). Summary data are maintained for each of the query preview attributes and intersections. The total number of items selected by the user's query is visualized on a result preview bar (at the bottom of the screen for both the EOSDIS and restaurant finder examples). Preview sizes can also be rendered on maps or charts, as illustrated in the EOSDIS prototype. These renderings must change within a fraction of a second in response to user input.

[Figure 7 ILLUSTRATION OMITTED]

Selecting appropriate attribute values or categories rapidly reduces the data volume to a manageable size. Zero-hit queries are eliminated, since users can spot them without issuing a query. Once users are satisfied with the formulated query, it is submitted over the network to the database. More details about individual records are then retrieved to refine the query.

In the query refinement phase, users construct detailed queries over all database attributes, which are applied only to those records selected in the query preview. The scope of the query is smaller, but the resolution is finer. The interface provides access to all database attributes and their full range of values.

A characteristic of the query refinement phase is the rendering of each record in a graphical overview. The overview is closely related to the widgets used to refine a query, and reflects the query. By selecting appropriate values of relevant attributes, users continue to reduce the data volume and explore the correlation among the attributes through the visual feedback. Complete details can then be obtained at any time by accessing the database across the network for individual records.

An early proposal for volume previews in a database search is described in Heppe et al. [1985]. The "Dining out in Carlton" example was provided to illustrate a search technique (for a specific restaurant) based on the volume preview of the number of the available restaurants. However, query previews were not exploited to support dynamic queries and querying in networked information systems.

Retrieval by reformulation is a method that supports incremental query formation by building on query results [Williams 1984]. Each time a user specifies a query, the system responds with query reformulation cues that give users an indication of how the repository is structured and what terms are used to index objects. Users can then incrementally improve a query by critiquing the results of previous queries. Rabbit [Williams 1984] and Helgon [Fisher and Nieper-Lemke 1989] are examples of retrieval systems based on the retrieval-by-reformulation paradigm, which is also the basis of the two-phase query formulation approach.

Harvest [Bowman et al. 1994] was designed and implemented to solve problems common to Internet users. It provides an integrated set of customizable tools for gathering information from diverse repositories, building topic-specific indexes, and searching. Harvest could be used to maintain and update the metadata servers where users can extract information and store it locally in order to support dynamic queries in both the query preview and query refinement phases.

However, Harvest, just like other WWW browsers, still applies the traditional querying technique based on keywords. In order to express a complex query, a more visual query interface may be effective. Marmotta is a form-based tool used within WWW clients to query networked databases [Capobianco et al. 1995]. The ease of use of form-based interfaces is preserved (users need not know the structure of the database). Within Marmotta, icons are used to present the domain of interest and the retrieval requests in a structured form-based interface. Icons are used in Marmotta to formulate a query. The system then translates the query into a syntactically correct format that can be handled by an HTTP server. In order to cope with the increasing data volume, for example in libraries containing millions of documents, it is common to formulate queries on a library catalog. A prototype interface using a ranked output information retrieval system (INQUERY) for a library catalog containing about 300,000 documents has been implemented [Veerasamy and Navathe 1995]. The interface supports a visualization scheme that illustrates how the query results are related to the query words. Visualizing the results of the query keeps users more informed on how the system computed the ranking of documents. Another technique, Tilebars, visualizes term distribution information in each document to supplement result lists in full-text retrieval systems [Hearst 1995].

Butterfly was developed for simultaneously exploring multiple DIALOG bibliographic databases across the Internet using 3D interactive animation techniques [Mackinlay et al. 1995]. The key technique used by Butterfly is to create a virtual environment that grows under user control as asynchronous query processes link bibliographic records to form citation graphs. Asynchronous query processes reduce the overhead associated with accessing networked databases, and automatically formulated link-generating queries reduce the number of queries that must be formulated by users. The Butterfly system provides a visually appealing display. However, it was not designed to support the formulation of complex queries.

10. CONCLUSIONS AND PROJECT UPDATE

In this article, the concepts of query previews and refinement are presented, and two prototypes are described. The evaluation results from a NASA Prototyping Workshop and a controlled experiment confirm the benefits of the query previews. We suggest strategies to control the size of the volume preview table.

An operational query preview system has been implemented for NASA's Global Master Change Directory [Greene et al. 1997]. Consensus has been rapidly reached on attributes and values selection, and performance is satisfactory. Our experience confirmed the importance of metadata accuracy and completeness. The query preview interfaces make visible any problems or holes in the metadata that are not noticeable with classic form fill-in interfaces. This could be seen as a problem, but we think that it will have a long-term beneficial effect on the quality of the metadata, as data providers will be compelled to produce more complete metadata. Our experience with the Global Master Change Directory demonstrates that the concepts are feasible in a large operational system, such as the EOSDIS directory environment.

This interface was included in 1997 within the operational GCMD where it is offered as an alternative experimental service (http://gcmd.nasa.gov). NASA is monitoring its use. As the number of Java-capable workstations grows and as the capabilities of browsers stabilize, usage is likely to increase. A second implementation using binary query previews (i.e., showing availability of data, but not counts [Plaisant et al. 1999]) is now publicly available for the Global Land Cover Facility (http://glcf.umiacs. umd.edu), a member of the NASA Earth Science Information Partnership (ESIP) Federation.

Table II. A Comparison Table of the Two Phases of the Query Formulation Process

We thank Teresa Cronnell for her graphic design of the Restaurant Finder prototype.

AHLBERG, C., WILLIAMSON, C., AND SHNEIDERMAN, B. 1992. Dynamic queries for information exploration: an implementation and evaluation. In Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI '92, Monterey, CA, May 3-7), P. Bauersfeld, J. Bennett, and G. Lynch, Eds. ACM Press, New York, NY, 619-626.

BOWMAN, C. M., DANZIG, P. B., HARDY, D. R., MANBER, U., AND SCHWARTZ, M. F. 1994. The Harvest information discovery and access system. In Proceedings of the 2nd International Conference on World Wide Web. 763-771.

CAPOBIANCO, F., MOSCONI, M., AND PAGNIN, L. 1995. Progressive HTTP-based querying of remote databases within the Marmotta iconic VQS. In Proceedings of the IEEE Workshop on Visualization. IEEE Press, Piscataway, NJ, 122-125.

DOAN, K., PLAISANT, C., AND SHNEIDERMAN, B. 1996. Query previews in networked information systems. In Proceedings of the Forum on Advances in Digital Libraries. IEEE Computer Society Press, Los Alamitos, CA, 120-129.

DOAN, K., PLAISANT, C., SHNEIDERMAN, B., AND BRUNS, T. 1997. Query previews in networked information systems: A case study with NASA environment data. SIGMOD Rec. 26, 1 (Mar.), 75--81.

FISCHER, AND NIEPER-LEMKE, H. 1989. HELGON: Extending the retrieval by reformulation paradigm. In Proceedings of the ACM Conference on Human-Computer Interaction (CHI '89, Austin, TX, Apr. 30-May 4), K. Bice and C. Lewis, Eds. ACM, New York, NY, 333-352.

GREENE, S., TANIN, E., PLAISANT, C., SHNEIDERMAN, B., OLSEN, L., MAJOR, G., AND JOHNS, S. 1997. The end of zero-hit queries: Query previews for NASA's global change master directory. Tech. Rep. CS-TR-3855. Department of Computer Science, University of Maryland, College Park, MD. To appear in the Int. J. of Digital Libraries (1999).

HEARST, M. 1995. Tilebars: Visualization of term distribution information in full text information access. In Proceedings of the ACM Conference on Human-Computer Interaction (CHI '95, Denver, CO). ACM, New York, NY, 59-66.

HEPPE, D. L., EDMONDSON, W. H., AND SPENCE, R. 1985. Helping both the novice and advanced user in menu-driven information retrieval systems. In Proceedings of the British Computer Society Conference on Human-Computer Interaction (HCI '85). British Computer Society, Swinton, UK, 92-101.

MACKINLAY, J. D., RAO, R., AND CARD, S. K. 1995. An organic user interface for searching citation links. In Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI '95, Denver, CO, May 7-11), I. R. Katz, R. Mack, L. Marks, M. B. Rosson, and J. Nielsen, Eds. ACM Press/Addison-Wesley Publ. Co., New York, NY, 67-73.

MARCHIONINI, G. 1995. Information Seeking in Electronic Environments. Cambridge Series on Human-Computer Interaction. Cambridge University Press, New York, NY.

PLAISANT, C., BRUNS, T., DOAN, K., AND SHNEIDERMAN, B. 1997a. Query Previews in Networked Information Systems: The case of EOSDIS. In CHI '97 Technical Video Program. ACM Press, New York, NY.

PLAISANT, C., MARCHIONINI, G., BRUNS, T., KOMLODI, A., AND CAMPBELL, L. 1997b. Bringing treasures to the surface: iterative design for the Library of Congress National Digital Library Program. In conference proceedings on Human factors in computing systems (CHI '97, Atlanta, Georgia, Mar. 22-27, 1997), S. Pemberton, Ed. ACM Press, New York, NY, 518-525.

PLAISANT, C., VENKATRAMAN, M., NGAMKAJORNWIWAT, K., BARTH, R., HARBERTS, B., AND FENG, W. 1999. Refining query preview techniques for data with multivalued attributes. In Proceedings of the IEEE Forum on Research and Technology Advances in Digital Libraries (ADL '99). IEEE Computer Society Press, Los Alamitos, CA, 50-59.

POSTON, J. 1996. Prototype workshop 2 (PW2) results report. Tech. Rep. 167-TP-001-001. ECS Development Team, Hughes Applied Information Systems, Landover, MD.

ROUSSOPOLOS, N., KOTIDI, Y., AND ROUSSOPOLOS, M. 1997. Cubetree: Organization of and bulk incremental updates on data cube. In Proceedings of the ACM Conference on Management of Data (SIGMOD '97). ACM, New York, NY.

SHNEIDERMAN, B. 1994. Dynamic queries for visual information seeking. IEEE Softw. 11, 6, 70-77.

TANIN, E., BEIGEL, R., AND SHNEIDERMAN, B. 1996. Incremental data structures and algorithms for dynamic query interfaces. SIGMOD Rec. 25, 4, 21-24.

TANIN, E., LOTEM, A., HADDADIN, I., SHNEIDERMAN, S., SLAUGHTER, L., AND PLAISANT, C. 1997. Evaluation of query previews: User preference and performance. Tech. Rep. CS-TR-3879. Department of Computer Science, University of Maryland, College Park, MD.

VEERASAMY, A. AND NAVATHE, S. 1995. Querying, navigating and visualizing a digital library catalog. In Proceedings of the 2nd International Conference on the Theory and Practice of Digital Libraries. http://www.csdl.tamu.edu/DL95/

WEILAND, W. J. AND SCHNEIDERMAN, B. 1993. A graphical query interface based on aggregation/generalization hierarchies. Inf. Syst. 18, 4 (June 1993), 215-232.

WILLIAMS, M. D. 1984. What makes RABBIT run?. Int. J. Man-Mach. Stud. 21, 5 (Nov. 1984), 333-335.

WILLIAMSON, C. AND SHNEIDERMAN, B. 1992. The dynamic HomeFinder: Evaluating dynamic queries in a real-estate information exploration system. In Proceedings of the 15th Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR '92, Copenhagen, Denmark, June 21-24), N. Belkin, P. Ingwersen, A. M. Pejtersen, and E. Fox, Eds. ACM Press, New York, NY, 338-346.

YOUNG, D. AND SHNEIDERMAN, B. 1993. A graphical filter/flow representation of Boolean queries: A prototype implementation and evaluation. J. Am. Soc. Inf. Sci. 44, 6 (July 1993), 327-339.

Received: May 1997 revised: December 1997 and May 1998 accepted: August 1998

This work is supported in part by NASA (NAG 52895 and NAGW 2777) and by the NSF grants NSF EEC 94-02384 and NSF IRI 96-15534.

Authors' addresses: Catherine Plaisant and B. Shneiderman, Human-Computer Interaction Laboratory, University of Maryland Institute for Advanced Computer Studies, College Park, MD 20742 email: [email protected] [email protected] http://www.cs.umd.edu/projects/ hcil K. Doan, Raytheon Corporation, 4500 Forbes Boulevard, Lanham, MD 20706 email: [email protected] T. Bruns, Delorme Mapping, P. O. Box 298, Lower Main Street, Freeport, ME 04032 email: [email protected]

Permission to make digital/hard copy of part or all of this work for personal or classroom use is granted without fee provided that the copies are not made or distributed for profit or commercial advantage, the copyright notice, the title of the publication, and its date appear, and notice is given that copying is by permission of the ACM, Inc. To copy otherwise, to republish, to post on servers, or to redistribute to lists, requires prior specific permission and/or a fee.

[C] 1999 ACM 1046-8188/99/0700-0320 $5.00

CATHERINE PLAISANT, BEN SHNEIDERMAN, KHOA DOAN, and TOM BRUNS

Human-Computer Interaction Laboratory University of Maryland Institute for Advanced Computer Studies3


Abstrakts

Following decades of research, the potential of automated rule-checking applications for building models to boost the productivity in the AECO industry has yet to fully materialize. Most efforts have been dedicated to dealing with the complexities associated with formalizing rules related to building designs for computability. To make automated rule checking applications successful, data availability and accessibility are critical components that must be addressed. Unfortunately, to-date they have not received the same level of attention. To lay a solid foundation for a robust environment of automated BIM-based rule-checking systems, this paper proposes a novel approach of transforming building data into a simplified schema (BIMRLSS) as a means of addressing this critical issue. The paper also describes an implementation of the proposed approach on a traditional database management system, which offers the primary advantage of facilitating high-performance queries and supporting a wide range of query types in real-time. More importantly, this approach not only allows alphanumeric data queries, but also enables queries on the geometry by using various spatial operators. Allowing complex spatial-based queries provides a means to significantly simplify the traditional programmatic approach to BIM-based rule-checking. This data-focused approach allows us to lower a significant barrier that currently prevents BIM-based rule-checking systems from reaching their full potential, making the checking process easier and more robust. To highlight the implications and practical benefits of the proposed method, this paper also demonstrates several application scenarios by utilizing a wide range of queries.