Google BigQuery és Google Data Studio jelentések készítése

Blog Google BigQuery

Tartalom: (olvasási idő: 15-20 perc)

  • Bevezetés
  • Daktela – automatikus szinkronizálás
  • Google BigQuery
  • Kvóták és korlátok
  • Google Data Studio
  • Data Studio – adatforrások
  • Data Studio – jelentések
  • Dimenziók, mérések, grafikonok

Ahogy korábbi blogbejegyzésünkben már írtunk róla, a Daktela jelentési eszközök széles skáláját kínálja. A dolgok egyszerűsítése érdekében a Daktelát úgy képzelheti el, hogy a jelentéskészítő és elemző eszközöknek két ága van:

  1. Statisztikák és elemzések elérhetők a Daktela webalkalmazásban
  2. Google megoldásaink

Bár a Daktela egy összetett webes alkalmazás, és robusztus elemző eszközöket tartalmaz, ugyanakkor, bizonyos esetekben hasznos lehet külső szolgáltatást választani. Érdemes megfontolni a használatát abban az esetben, ha:

  • nagy mennyiségű adattal bír
  • több PBX-et használ
  • táblázatokat kell összekötni
  • speciális jelentési adatok szűrését szeretne beállítani
  • PBX alközpont terhelése kritikus
  • gyorsabb betöltési időt igényel

A modern és szupererős Google eszközök ideális megoldások ezekre a célokra. Ebben a cikkünkben ezeket a megoldásokat vizsgáljuk meg.

Általánosságban elmondható, hogy az említett megoldás egy ETL (extract, transform, load) folyamatot és egy BI portfóliót ad ki a következő szolgáltatások kombinációjából. Adattárolás (Google BigQuery), a jelentéskészítő eszköz (Google Data Studio), a társult szolgáltatások (Google Cloud Platform – biztonság, kezelés, karbantartás, monitorozás) valamint az adatfolyamok (Daktela). 

image-4

Egyértelmű előnye, hogy a megoldás webböngészővel is elérhető. Nincs szükség dedikált szoftverre; minden elérhető bármely számítógépről megfelelő jogosultságokkal rendelkező Google fiókkal. A rendszer működőképessége csak az internetkapcsolat sebességétől függ.

Daktela – automatikus szinkronizálás

A bigquery.daktela.com webhelyen olyan időszakos feladatok vannak beállítva, amelyek átalakítják a PBX alközpontok adatait, és rendszeres időközönként betöltik a BigQuery (BQ) rendszerbe. Ezeket az ún. futtató szkripteket Java nyelven írják.

A szinkronizálási intervallum 120 perc és 24 óra közé esik. Az adatok rendszeres időközönként 2 óránként betöltődnek, és minden nap végén éjfélkor egy újabb konszolidációs csomag kerül betöltésre az adatok integritásának biztosítása érdekében. Egyes PBX alközpont(ok) esetében lehetőség van a 2 órás intervallum 1 órára történő csökkentésére is.

Elszigetelt esetekben a BQ-ban látszólag ismétlődő bejegyzések jöhetnek létre. A futtató szkript ezeket az ismétlődéseket keresi, figyeli a kimenő adatokat, és értesítéseket küld a monitorozó szoftvernek. A napi szinkronizálás során a másolatok automatikusan eltávolításra kerülnek. Ez azt jelenti, hogy nem kell semmit tennie a jelentési adatok naprakészen tartása érdekében.

Mivel a BQ-hoz kapcsolódó összes projekt futtatási szkriptje a bigquery.daktela.com szerveren fut, az ütemezésük különböző időpontokban fut le, így nem kell aggódni, hogy összeakadnak, és ennek köszönhetően a rendszererőforrásokat hatékonyan használja fel a rendszer. Ez is hozzájárul a viszonylag rövid feldolgozási időhöz. A szinkronizálási lépés (egy óránkénti vagy napi csomag betöltése minden projektpéldányhoz) percek vagy tíz percek kérdése – általában 10-30 perc, szélsőséges esetekben viszont akár 60-90 perc. Amennyiben hibákat kell keresnünk, a szinkronizálás manuálisan is elindítható.

Minden szkript szövegesen naplózott.

A bigquery.daktela.com szerverhez való hozzáférés SSH-kulccsal biztosított. A szervert teljes egészében a Daktela rendszergazdái kezelik, akik a felhasználói hozzáférést is kezelik.

Google BigQuery

A BigQuery egy teljesen felügyelt, szerver nélküli adattárház (DWH – data warehouse), amely rendkívül nagy mennyiségű adat (petabájtos nagyságrendben: 1PB ≈ 1024 TB ≈ 1 millió GB) skálázható elemzését teszi lehetővé. Ez egy platform mint szolgáltatás (PaaS), amely támogatja az ANSI SQL használatával történő lekérdezést.

A Google olyan társult funkciókat is biztosít, mint például a gépi tanulás, a földrajzi helymeghatározó eszközök, az analitikai és statisztikai eszközök, valamint a felhasználói hozzáférés és jogkezelés.

A BigQuery architektúrát teljes egészében a Google felügyeli, ami azt jelenti, hogy a felhasználóknak nem kell aggódniuk olyan dolgok miatt, mint a skálázhatóság, a számítási energiaelosztás, a biztonsági mentés, a karbantartás stb. A megoldás egyedülálló, mert úgy tervezték meg, hogy másodpercek alatt lekérhető legyen a több terabájtnyi adat, apetabytok pedig percek alatt.

Ez lehetővé teszi a jelentések betöltését, valamint az adatok interaktív szűrését és rendezését mindent valós időben.

A BigQuery nem csupán egy adatbázis, hanem egy “non-relational” online analitikus feldolgozó adatbázisrendszer, amely olvasásra és elemzésre van optimalizálva. Lehetőség van adatok beszúrására és a BQ külső adatforrásokhoz való csatlakoztatására is.

Főbb jellemzői a skálázhatóság, a megbízhatóság, a rendelkezésre állás, valamint az alacsony üzemeltetési költség, az önjavítási lehetőség és a decentralizált architektúra is. A BQ DWH alternatívái pl. Amazon Redshift és Microsoft Azure SQL.

A BQ-ban lévő adatok adatkészletekbe vannak rendezve (hasonlóan az adatbázisokhoz), amelyek táblázatokból, nézetekből és egyéb entitásokból, például gépi tanulási modellekből állnak. A hozzáférési, szerkesztési, törlési stb. jogok a teljes adatkészletre vagy az annak részét képező egyes táblákra vonatkozóan beállíthatók.

A Google Cloud platformot a felhasználói fiókok kezelésére használják, és a felhasználóknak aktív Google-fiókkal kell rendelkezniük a BQ használatához. Az összes hozzáférést a Daktela rendszergazdák kezelik és ellenőrzik.

További információt a Google Cloud hivatalos oldalán talál.

Kvóták és korlátok

A Google korlátozza a maximális rendszerterhelést azáltal, hogy korlátokat és kvótákat állít fel egy adott időszakra (pl. lekérdezések száma, az átvitt adatok mérete stb.). A BQ nagy adatmennyiséggel rendelkező nagy projektekhez készült, nagy adathalmazok szemszögéből nézve, ugyanakkor még a legnagyobb és a legösszetett Daktela PBX alközpont egy kicsi és egyszerű adatkészlet.

Tudjon meg többet a kvótákról és korlátokról a hivatalos Google oldalon.

Google Data Studio

A Google Data Studio (DS) a Microsoft Power BI-hoz vagy a Tableau-hoz hasonló adatvizualizációs és jelentéskészítő eszköz. A DS egy felhasználóbarát webalkalmazás, ahol táblázatok és grafikonok hozzáadásával készíthetünk jelentéseket, és ezeket szöveges és vizuális elemekkel egészíthetünk ki.

A Data Studio a következőkre használható:

  • Egyedi jelentések készítése, szerkesztése
  • Felhasználók által hozzáférhető jelentések kezelése
  • Jelentések megtekintése
  • Adatforrások létrehozása, szerkesztése és kezelése
  • A jelentésekhez és adatforrásokhoz való hozzáférés kezelése

A jelentések a következő elemekből állnak:

  • Adatforrás
  • Tartalom
  • Hozzáférés a beállításokhoz

Több jelentés is használhatja ugyanazt az adatforrást, egy jelentés ugyanakkor több különböző adatforrást is.

image-2

A hozzáférési jogokat a Google-környezetben minden szolgáltatáshoz külön-külön biztosítjuk:

  • A BigQuery hozzáférések és jogok mindegyikhez beállíthatók:
    • Projekt (belső Daktela hozzáférések)
  • A Data Studio hozzáférések és jogosultságok mindegyikhez beállíthatók:
    • Megosztott adatforrás

A felhasználó mind a BQ-ban, mind a DS-ben csak azokat az entitásokat látja, amelyekhez hozzáférési joga van. Addig nem tudnak tájékozódni más felhasználók entitásairól (adatkészletek, táblák, adatforrások, jelentések), amíg meg nem próbálják elérni őket egy URL-en keresztül.

Data Studio – adatforrások

Az adatforrás kifejezés együttesen a következőkre utal:

  • Adatforrás kapcsolatának beállítása
  • A fogadott adatok átalakítása, formázása
  • Adatszinkronizálási gyakoriság
  • Hozzáférési jogok

Ezek az elemek egy Google DS entitást alkotnak, amellyel a felhasználó dolgozhat. Az entitás nem adatforrás, hanem adatmodell vagy séma. Úgy is felfoghatja, mint egy csatlakozót az adatforráshoz, általában egy DWH-hoz.

A Google Data Studio az adatforráshoz való kapcsolódást felhasználva csatlakozhat különböző adattárház (DWH) típusokhoz, a Google natívoktól (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud stb.) a gyakran használtakig (Microsoft SQL Szerver), MySQL, PostgreSQL, CSV-fájlok stb.), valamint harmadik féltől származó konnektorokhoz is. A konnektorok teljes listája elérhető a Google webhelyén.

Adatforrás csatlakoztatásával új entitás jön létre, amely meghatározza:

  • Csatlakozást a BigQuery-hez vagy egy adatforráshoz
  • Lekérdezett táblát vagy SQL specifikációt
  • Dimenziók formázását
  • Összesített mutatókat
  • Paramétereket – jellemzően az adatok időtartamát
  • Hozzáférést – mely felhasználók szerkeszthetik az adatforrást és/vagy módosíthatják annak meghatározását
  • Adatszinkronizálási gyakoriságot („adat-frissesség”) – jellemzően 1 óra, 1 perc és 12 óra között
  • Adatforrás megosztását – az aktuális jelentésre korlátozódik, vagy több jelentésben is engedélyezett

Vannak más módok is a jelentésben szereplő adatok szűkítésére, nem közvetlenül az adatforrásban. Használhat „vezérlőket” és „rejtett szűrőket” is, amelyeket alább ismertetünk. Lehetőség van az egyes adatforrások összekapcsolására is („data blending”), olyan összetett adatgyűjtést biztosítva, amelyet egyébként a megfelelő SQL-tudás nélküli felhasználók számára nehéz lenne megvalósítani.

A jelentésből származó minden adatkérést SQL lekérdezésre alakítunk át. Eredményét ideiglenesen menti a rendszer (gyorsítótárazza) az „adatfrisségben” beállított ideig, szinte azonnali válaszidőt és alacsony lekérdezési költségeket biztosítva.

A jelentés tulajdonosa automatikusan a jelentésben létrehozott adatforrás tulajdonosává válik. Lehetőség van saját jelentései megosztott adatforrásainak hozzáadására más, az Ön tulajdonában lévő jelentésekhez. Más felhasználók tulajdonában lévő adatforrások használatához és szerkesztéséhez kérnie kell a tulajdonos engedélyét, és azt meg kell adnia.

Amennyiben eltávolít egy beágyazott adatforrást a jelentésből, az törlődik. Viszont, amikor eltávolít egy megosztott adatforrást a jelentésből, az nem törlődik.

Data Studio – jelentések

Az adatforrás beállítása után grafikonok hozzáadásával jelentést készíthet, ahol kiválaszthat dimenziót és/vagy mutatókat az adatforrásból. Az elrendezés lehető legvilágosabbá tétele érdekében több jelentésoldalt is, valamint további elemeket, például szöveget és képeket is hozzáadhat.

Mezők

A mező egy adatoszlop, amelynek két típusa létezik: dimenziók és mutatók. A dimenziók a mérni kívánt kategóriákat vagy entitásokat tartalmaznak. A mutatók számokkal írják le a dimenziókat.

Az adatforrásból automatikusan betöltött mezőkön kívül saját mezőt is létrehozhat:

  • A méretek kombinálása új dimenzió létrehozásához
  • A mutatók kombinálása egymással vagy egy dimenzióval új mérőszám létrehozásához
Dimenziók

A dimenzió egy információ vagy adat kategóriája, pontosabban adattömb. Például. a webhely forgalmának mérésekor néhány dimenzió lehet a Böngésző, Weboldal, Nyelv stb. Amennyiben az adatbázis- vagy táblázatalapú adatforrást használ, akkor abban az esetben a dimenzió a táblázat egy oszlopát jelöli.

A DS-ben módosíthatja az egyes dimenziók címét, adattípusát (szöveg, szám, dátum stb.) és leírását.

A DS-ben módosíthatja az egyes dimenziók címét, adattípusát (szöveg, szám, dátum stb.) és leírását.

Mérések

A metrika egy adathalmazra alkalmazott összesített számítás vagy művelet, pl. bejegyzések száma, összeg, maximum, minimum, átlag stb. Ez analóg egy adott SQL lekérdezés összesítő függvényével.

A dimenziókat és a mutatókat a grafikonokban és táblázatokban kombinálhatja.

Grafikonok

A következők állnak rendelkezésre:

  • Táblázatok (normál és pivot)
  • Grafikonok
  • Eredménymutatók – egyetlen mérőszámmal rendelkező elemek
Szűrők

A DS-ben végzett szűrést a rendszer a háttérben az adatforrás SQL szerkesztéseként értelmezi. Következésképpen ugyanazokat az adatokat fogja kapni, akár alkalmaz szűrőt, amikor adat érkezik DS-be (az SQL lekérdezés definíciója) – a jelentés elem szintjén (grafikon vagy tábla rejtett szűrője)-, vagy amennyiben a jelentést megtekintő személy alkalmazza a szűrőt (felhasználói szűrő = vezérlő-elem). A szűrők mindig SQL-lekérdezésekké lesznek lefordítva a BQ-ban.

A szűrők megfelelő alkalmazásával azonban gyorsabb betöltési időt érhet el. Javasoljuk, hogy definiáljon egy adott SQL-lekérdezést a teljes adatforráshoz, és így csak a releváns adatokat kapja meg, ahelyett, hogy a teljes táblát kérné és szűrné a jelentés szintjén. Ezzel időt takaríthat meg a rendelkezésre álló összetevők betöltése és kezelése, valamint a jelentés szerkesztési folyamat során.

Egyéb elemek

Egyéb elemek, amelyeket hozzáadhat a jelentésekhez:

  • Linkek
  • Képek
  • Külső tartalom – beágyazott URL
  • Paraméterek (időtartam, látogató e-mail címe, saját paraméterek)

Mivel a jelentések egy adott URL-címen találhatók, ezért lehetősége van a jelentések beágyazására online dokumentumaiba, weboldalaiba stb.

Data Studio – hozzáférések

Két különböző típusú hozzáférés létezik:

  1. Megtekintés
  2. Szerkesztés

A megtekintési hozzáféréssel rendelkező felhasználók nem módosíthatják a jelentés elrendezését vagy beállításait. Csak interakcióba léphetnek a jelentéssel, és általában PDF-be exportálhatják, kinyomtathatják vagy másolatot készíthetnek (amelyet aztán szerkeszthetnek, azaz megtudhatják, hogyan készült).

A szerkesztési hozzáféréssel rendelkező felhasználók szerkeszthetik a jelentés tartalmát és módosíthatják annak beállításait. A jelentés tulajdonosa kezelhet más hozzáférési tulajdonságokat, például megakadályozhatja, hogy más felhasználók további felhasználókat vegyenek fel.

A hozzáférést link segítségével is engedélyezheti. Ez a fentiekre változtatna:

  1. Linkmegosztás kikapcsolva – csak a megadott felhasználók férhetnek hozzá
  2. Linkmegosztás bekapcsolva – a megadott felhasználók hozzáféréssel rendelkeznek, valamint:
    • 2.1. A link birtokában a csoport bármely tagja megtekintheti (pl. csak a szervezeted felhasználói)
    • 2.2. A link birtokában a csoport bármely tagja szerkesztheti
    • 2.3. A link birtokában bárki megtekintheti
    • 2.4. A link birtokában bárki szerkesztheti
    • 2.5. Az interneten bárki megtalálhatja és megtekintheti a jelentést (hivatkozás nélkül is)
    • 2.6. Az interneten bárki megtalálhatja és szerkesztheti a jelentést (hivatkozás nélkül is)

Amennyiben azt szeretné, hogy ne kelljen különböző hozzáférési szinteket beállítania a jelentéseihez, állítsa be 2.3-ra vagy 2.5-re, ugyanakkor ezt nem javasoljuk abban az esetben, ha a jelentések érzékeny információkat tartalmaznak. Konkrét jelentése forgalmat nem lehet megtekinteni – a Google Analytics csak anonimizált információkat jelenít meg.

A forrásadatokhoz való hozzáférést fent ismertettük.

A jelentés aktuális és interaktív verziójának eléréséhez a felhasználónak ismernie kell a következők egyikét:

  1. URL-t, valamint
  2. a jelentés pontos címét és tulajdonosát. A PDF-jelentés opcionálisan tartalmazhat hivatkozást a jelentés online vagy beágyazott változatára.

Ha a felhasználó ismeri a jelentés URL-címét, és hozzáfér a jelentéshez, a böngésző megjeleníti azt. Amennyiben nem rendelkeznek hozzáféréssel, megnyílik egy párbeszédpanel, amely tájékoztatja őket, hogy hozzáférést kell kérniük a tulajdonostól. A felhasználó kiválaszthatja, hogy milyen típusú hozzáférést szeretne kérni. A tulajdonos értesítést kap, és miután hozzáférést biztosít, a felhasználó megnyithatja a jelentést. Ha a felhasználó nem ismeri a jelentés URL-címét, más módon kell kapcsolatba lépnie a jelentés tulajdonosával. A tulajdonosnak ezután manuálisan kell megkeresnie a jelentést, és hozzáférést kell biztosítania a felhasználó számára.

A PDF-ben lévő eportok jelszóval védhetők, de megoszthatók, mint bármely más fájltípus. A jogosulatlan megosztás megelőzése érdekében a jelentés tulajdonosa megakadályozhatja, hogy más felhasználók exportálják a jelentést PDF-be. Ezzel a Nyomtatás és másolás funkciót is kikapcsolja.

Végül használhatja a megosztott jelentésmegosztást is a rendszeresen elküldött automatikusan generált e-mailekkel, amelyek a következőket tartalmazza:

  • hivatkozás a jelentés legfrissebb változatára
  • jelentés előnézete (általában az első néhány oldal)
  • melléklet a jelentés PDF másolatával, a jelentés elküldésének napjától származó adatokkal

A címzettek továbbíthatják az e-mailt másoknak. Ha valamelyik felhasználó nem fér hozzá a jelentéshez, a jelentés URL-jének megnyitásakor hozzáférést kérhet. Továbbra is meg tudják majd nyitni a PDF-jelentést. Ez a módszer azonban hasznos lehet, ha a jelentést a szervezetén kívüli személyeknek kell továbbítania.

Amennyiben call center megoldást keres, vagy többet szeretne megtudni arról, hogy a Daktela hogyan támogatja vállalkozását abban, hogy a lehető legjobban használja ki a Google BigQuery és Google Data Studio jelentéseket kérjük, vegye fel velünk a kapcsolatot.

Elérhetőségeink:

Értékesítés: +36 18 001 585
Technikai támogatás: +36 18 001 584
Email: daktela@daktela.hu

Ajánlatkérés

    Név: *

    Cég: *

    Email: *

    Telefonszám: *

    A * -val jelőlt mezők kitöltése kötelező.

    Ezt a weboldalt a reCAPTCHA Google Privacy Policy és Terms of Service védi.