Kennis
In 2021 beschikken detailhandelsondernemingen over steeds meer data. Ze verzamelen informatie over hun bedrijfsprocessen, klanten en producten, waarbij vrijwel elk aspect van moderne bedrijfsvoering grote hoeveelheden aan data genereert. Deze data kan vervolgens worden ingezet om weloverwogen beslissingen te nemen en strategische keuzes te maken. Bovendien kan deze data bijdragen aan het optimaliseren van het verkoopproces of het verbeteren van de klantenservice. Kortom, data zijn cruciaal voor bedrijven die zich willen aanpassen aan een voortdurend veranderend digitaal tijdperk.
Echter, alleen de aanwezigheid en kwantiteit van data garandeert nog geen data-gedreven waardecreatie; de kwaliteit van deze data is even belangrijk. Onvolledige of slechte data leiden alleen maar tot inconsistenties en ongefundeerde beslissingen. In deze blog wordt dieper ingegaan op hoe data-extractie en -verrijking de kwaliteit van data – en daarmee hun bruikbaarheid – kunnen verbeteren.
Product Named Entity Recognition, vaak afgekort als P-NER, is een techniek voor het extraheren van informatie uit grote, ongestructureerde tekstbestanden. P-NER kan gegevens indelen in vooraf gedefinieerde categorieën. Een voorbeeld om P-NER toe te lichten, betreft producten met meerdere eigenschappen, zoals een televisie met merk, afmetingen, gewicht en resolutie. Deze eigenschappen worden vervolgens gecategoriseerd onder de passende vooraf vastgestelde categorieën. Dit proces vergt echter nog steeds traditionele machine learning en een aanzienlijke menselijke input, wat niet ideaal is. Deep learning zou hier uitkomst kunnen bieden op twee manieren die hieronder worden uitgelegd.
Hybrid Bidirectional Long Short-Term Memory, ofwel BI-LSTM, is een toepassing van P-NER die is opgebouwd uit drie lagen: inputrepresentatie, contextdecoder en tagdecoder. De eerste laag helpt het model om gegevens te begrijpen en correct te interpreteren, terwijl de tweede laag afbeeldingen verwerkt door de input te ‘ontvouwen’ tot verschillende structuren en eigenschappen. De derde laag voert een vergelijkbare functie uit, maar voor tekstuele input.
BERT (Bidirectional Encoder Representations from Transformers) is een taalmodel dat teksten begrijpt en contextualiseert door verbanden tussen woorden te leggen, waarmee aan bepaalde woorden waarde wordt toegekend. In het kader van kenmerkenextractie kan deze waarde bijvoorbeeld inhouden dat een woord als een eigenschap wordt herkend. In de zin; “De auto is gespoten in een blauwe tint die je doet denken aan de Azuur.” kunnen ‘gespoten’, ‘azuur’, en ‘tint’ allemaal informatie verschaffen over het woord ‘blauwe’. Aan de hand van trainingsdata kan BERT deze woorden aan elkaar koppelen en zo de kleur ‘blauw’ identificeren als een eigenschap. Dit eenvoudige voorbeeld toont aan hoe een taalmodel als BERT kan worden ingezet om productkenmerken uit ongestructureerde teksten te extraheren. Hoe meer trainingsdata BERT beschikbaar heeft, des te nauwkeuriger de kenmerkenextractie zal zijn.
Zoals eerder besproken, is het van belang dat gegevens van hoge kwaliteit aan ten grondslag liggen aan de extractie van productkenmerken, om te kunnen spreken van data-gedreven waardecreatie. Gegevens kunnen handmatig worden verrijkt, maar dit is een tijdrovend karwei dat ook onderhevig is aan menselijke fouten. Om dit te vermijden, moet verwerkte data gecontroleerd worden op inconsistenties en andere fouten, wat weer een intensieve taak is. Hierdoor komt het hele proces van handmatige gegevensverrijking in een neerwaartse spiraal van inefficiëntie op het gebied van tijd, middelen en kosten terecht.
PowerEnrich combineert data-extractie en gegevensverrijking om een integrale benadering van data-gedreven waardecreatie op een autonome en eenvoudige manier te realiseren. Met PowerEnrich kunnen gegevens worden geëxtraheerd uit vier verschillende bronnen: afbeeldingen, tekst, PDF’s en webpagina’s. Door slim gebruik te maken van AI, kan de PowerEnrich-software gegevens herkennen en begrijpen, ongeacht variaties in afkortingen, spelling of uitdrukkingen.
Kortom, PowerEnrich helpt bedrijven om hun productdata en -eigenschappen sneller en efficiënter te verwerken. Bovendien stelt het bedrijven in staat om door gegevensverrijking gedetailleerdere en uitgebreidere productbeschrijvingen te creëren, wat resulteert in betere vindbaarheid van producten, een stijging van de omzet en een verbeterde klantbeleving.
Benieuwd hoe PowerEnrich uw bedrijf kan ondersteunen? Neem contact met ons op om de mogelijkheden te verkennen.
Door Lieske Trommelen