Incontra le nostre Regine dei dati

Trasformare i Big Data non strutturati in informazioni fruibili è il nostro scopo. Incontriamo il team che raccoglie i big data da fonti in tutto il mondo e li rende facilmente accessibili per i nostri clienti.

Il nostro team dati è composto da sette Data Specialist ed è guidato da Kirill Inkine. È la nostra squadra più diversificata in termini di nazionalità e località. Farzana ed Katja, entrambe residenti in Finlandia, si sono unite alla squadra nel 2019.

– Vengo dal Pakistan e mi sono trasferita in Finlandia perché è un ottimo posto per studiare Data Science ci dice Farzana. – Volevo anche esplorare l'Europa, ma poi è arrivata la pandemia, quindi non ho potuto viaggiare – eppure, sorride.

Farzana ha due Master. Il primo in Informatica. Ha lavorato presso l'ospedale più importante del Pakistan quando è maturato il suo interesse per il Data Science

– La mia tesi di laurea magistrale è in Natural Language Processing (PNL). Sto esplorando come utilizzare la PNL per riassumere grandi quantità di testo, estraendo i punti salienti importanti. Pensa al tempo risparmiato per gli studenti, e se la ride Farzana.

Katja viene dalla Russia. Come Farzana, gli studi l'hanno portata in Finlandia.

 – Il mio master è in realtà in Business and Finance, con un minor in Data Science, dice Katja. – Mi sono interessata ai metodi statistici e con passione mi sono unita al team di dati di Legentic. I miei colleghi sono davvero in gamba e da loro ho imparato molto.

Raccogliere, strutturare e arricchire i dati

Il nostro team di dati è responsabile della raccolta dei dati pubblici, della struttura e dell'arricchimento e infine della fornitura dei dati ai nostri clienti.

– Creiamo crawler che raccolgono dati pubblici. Questi devono essere realizzati su misura per ogni sito specifico, spiega Farzana. – E costantemente aggiornati, perché le fonti web continuano a cambiare i loro siti, facendo avanzare le tecnologie. È come giocare al "gatto col topo".

– Quando costruiamo un crawler definiamo le diverse fonti di dati: nome, numero di telefono, quale testo estrarre ecc. E poi etichettiamo o tagghiamo i dati, in modo che siano facilmente accessibili quando il cliente esegue una ricerca.

– Arricchiamo i dati in vari modi. I nostri crawler attraversano diverse pagine e combinano i dati in modo intelligente, spiega Katja. – Usiamo l'intelligenza artificiale nel riconoscimento delle immagini e per migliorare le immagini con una cattiva risoluzione. Questo è molto utile per distinguere la targa di un'auto, ad esempio.

Ricerche intelligenti

Farzana ci racconta  che la PNL è in uso oggi nel database di Legentic.

– Usiamo un parser di PNL, spiega. – Quando eseguiamo la scansione dei dati dai siti Web, inseriamo il testo in etichette speciali. In questo modo il database può restituire un hit contenente ad esempio “surrounding” quando il cliente esegue una ricerca sulla parola “surround”.

Al momento abbiamo 400 crawler, che estraggono dati da 540 domini. Con la tecnologia in costante progresso, non siamo mai fermi non di certo riposiamo sugli allori.