Rencontrez nos Data Queens

Notre proposition de valeur consiste à transformer le Big Data non structuré en informations exploitables. Rencontrez l'équipe qui collecte les big data à partir de sources du monde entier, et les rend facilement accessibles à nos clients.

Notre Data team est composée de sept spécialistes dirigés par Kirill Inkine. Il s'agit de notre équipe la plus diversifiée en termes de nationalités et de localisation. Farzana et Katja, toutes deux situées en Finlande, ont rejoint l'équipe en 2019. 

- Je viens du Pakistan et j'ai déménagé en Finlande parce que c'est un endroit idéal pour étudier la science des données, partage Farzana. - Je voulais aussi explorer l'Europe, mais la pandémie a frappé, alors je n'ai pas - encore - pu voyager, sourit-elle.

Farzana est titulaire d'un double master. Le premier était en informatique. Elle travaillait dans l' un des plus grands hôpitaux pakistanais lorsque son intérêt pour la science des données s'est éveillé. 

- Ma thèse de master porte sur le traitement du langage naturel (NLP). J'étudie comment utiliser le NLP pour résumer de grandes quantités de texte, en extrayant les points importants. Pensez au temps gagné pour les étudiants, plaisante Farzana.  

Katja est originaire de Russie. Comme Farzana, les études l'ont amenée en Finlande. 

 - Mon master est en fait en commerce et finance, avec une mineure en science des données, explique Katja. - Je me suis intéressée aux méthodes statistiques et j'ai été heureuse de rejoindre l'équipe chargée des données chez Legentic. Mes collègues sont très serviables et j'ai beaucoup appris. 

Collecte, structuration et enrichissement des données

Notre équipe chargée des données est responsable de la collecte des données publiques, de leur structuration et de leur enrichissement, et enfin de la transmission des données à nos clients. 

- Nous élaborons des crawlers qui collectent les données publiques. Ceux-ci doivent être adaptés pour chaque site spécifique, explique Farzana. - Et constamment mis à jour, car les sources web ne cessent de modifier leurs sites, de faire évoluer les technologies. C'est comme jouer au "chat et à la souris". 

- Lorsque nous concevons un crawler, nous définissons les différentes sources de données - nom, numéro de téléphone, texte à extraire, etc. Ensuite, nous étiquetons les données afin qu'elles soient facilement accessibles lorsque le client effectue une recherche. 

- Nous enrichissons les données de différentes manières. Nos crawlers parcourent plusieurs pages et combinent les données de manière intelligente, explique Katja. - Nous utilisons l'IA dans la reconnaissance d'images et pour améliorer les images de mauvaise résolution. C'est très utile pour pouvoir distinguer une plaque d'immatriculation de voiture, par exemple. 

Des recherches intelligentes

Farzana explique que le NLP est utilisé dans la base de données de Legentic aujourd'hui.

- Nous utilisons un analyseur syntaxique NLP, explique-t-elle. - Lorsque nous explorons les données des sites Web, nous plaçons le texte dans des étiquettes spéciales. Ainsi, la base de données peut renvoyer un résultat contenant par exemple "surrounding" lorsque le client effectue une recherche sur le mot "surround". 

Nous disposons actuellement de 400 crawlers, qui collectent les données de 540 domaines. La technologie évoluant constamment, nous sommes loin de pouvoir nous reposer sur nos lauriers.