Squadra logo
  • Diensten 
  • Over ons 
  • Kennis 
  • Cases 
  • Carrières 
  • Contact  

  •  Taal
    • English
    • Nederlands

  •   Zoeken op deze site
  •  
  1.   Kennis
  1. Home
  2. Kennis
  3. SEO-optimalisatie met Transformer Modellen

Kennis

SEO-optimalisatie met Transformer Modellen

Verbeter productbeschrijvingen met innovatieve SEO-technieken door gebruik te maken van transformer modellen zoals BERT en GPT-3 voor betere zoekmachineposities en leesbaarheid.
29 november 2021 • 10 min leestijd
AI   Onderzoek  
AI   Onderzoek  
SEO-optimalisatie met Transformer Modellen
Deel artikel:
Squadra
Link gekopieerd naar clipboard

De opkomst van transformatormodellen zoals BERT (Devlin et al., 2018) en GPT-3 (Floridi & Chiriatti, 2020) heeft de wereld van Natural Language Processing (NLP) ingrijpend veranderd. Deze modellen vertonen nu een niveau van menselijke intelligentie in taken zoals tekstgeneratie en parafrasering. Vorig onderzoek heeft aangetoond dat het krachtige GPT-3-model in staat is om productteksten te genereren, rekening houdend met subjectieve informatie zoals schrijfstijl en kledingstijl. Het probleem is echter dat het onduidelijk is hoe goed deze teksten zijn qua kwaliteit en informativiteit.

In dit artikel wordt besproken hoe productbeschrijvingen geoptimaliseerd kunnen worden om een betere Search Engine Optimization (SEO) score te behalen voor populaire zoektermen. Deze zoektermen kunnen bijvoorbeeld keyword density, leesbaarheid, en het aantal woorden omvatten. Een interessante complicatie is dat Google haar zoekopdrachten heeft geoptimaliseerd om gebruik te maken van Transformer-modellen (Vaswani et al., 2017), wat naar verluidt ongeveer 10% van de wereldwijde rankings heeft veranderd.

BERT wordt nu in één op de tien zoekopdrachten toegepast om de inhoud van webpagina’s beter te begrijpen. Als de zoekmachine moeite heeft met het begrijpen van een tekst, zullen de lezers dat waarschijnlijk ook hebben. In deze blog worden de belangrijkste elementen van de SEO-score belicht en hoe een subset van deze elementen geoptimaliseerd kan worden met behulp van een specifiek SEO-model.

Samenstelling van de SEO-score  

De SEO-score zoals gedefinieerd in dit artikel is opgebouwd uit zeven deelcomponenten, die elk een andere waarde hebben. De uiteindelijke score is een gewogen gemiddelde van deze individuele onderdelen. Verschillende SEO-tools, zoals Yoast en SEMrush, maken gebruik van enkele van deze scores.

Zoekwoorddichtheid  

De zoekwoorddichtheid verwijst naar de frequentie van een bepaald zoekwoord binnen een tekst. Een ideale dichtheid ligt rond de 1-2% ( blog.alexa.com  ). Dit zorgt ervoor dat er geen overmatig gebruik van zoekwoorden plaatsvindt. Zoekwoorden om op te letten kunnen de productcategorie, merk of zoekwoorden gegenereerd via de Google Ads API  zijn. De score wordt gedefinieerd als een ratio die een hoge score geeft voor een lage dichtheid en een lage score voor een hoge dichtheid.

Query-tekstscores  

Om te begrijpen hoe goed een tekst zich verhoudt tot de ranking van Google, worden de top 10 zoekwoorden voor een bepaalde categorie of merk gegenereerd met de Google Keyword Planner en doorgestuurd naar Sentence-BERT (Reimers & Gurevych, 2019), die vervolgens de cosine-similarity score berekent tussen de queries en de tekst.

Woordenaantal  

Het ideale aantal woorden in een tekst verschilt per sector en voorkeur. Blogposts bevatten doorgaans meer woorden, terwijl productbeschrijvingen vaak beknopter zijn. Het belangrijkste is dat Google begrijpt waar een pagina over gaat; daarom kunnen teksten kort zijn, zolang ze de nodige informatie bevatten. Dit woordenaantal is een aanvulling en moet niet als het belangrijkste kenmerk worden beschouwd.

Zinlengte  

Zinnen met minder dan drie woorden worden niet als valide beschouwend, terwijl te lange zinnen de leesbaarheid negatief beïnvloeden. Slechts 25% van de zinnen mag meer dan 25 woorden bevatten ( medium.com  ). Dit helpt de leesbaarheid van een tekst te verbeteren; een groter aandeel lange zinnen resulteert doorgaans in een lagere score.

Actieve versus Passieve Stem  

Voor optimale leesbaarheid dient passieve formuleringen in zinnen te worden vermeden. Actieve formuleringen maken een tekst begrijpelijker. Hoewel Google in staat is om de betekenis van zinnen in actieve of passieve formuleringen te begrijpen (Warstadt & Bowman, 2019), heeft actief schrijven een positieve invloed op de leesbaarheid en daarmee de SEO-score ( developers.google.com  ).

De verhouding passieve zinnen in een tekst moet onder de 10% zijn; hogere verhoudingen verlagen de score. Voor het onderscheiden van actieve en passieve formuleringen in het Nederlands hebben we BERTje (de Vries et al., 2019) gefinetuned voor dit classificatieprobleem ( huggingface.co  ). Deze classifier is getraind op 780 actieve en 700 passieve zinnen. Een code voor het detecteren van passieve zinnen in het Engels is hier te vinden.

Gebruik van Overgangswoorden  

Het inzetten van overgangswoorden tussen zinnen bevordert de leesbaarheid en verbetert de flow van de tekst. Deze score wordt berekend op basis van de verhouding van zinnen met overgangswoorden, waarbij idealiter 30% van de zinnen er een zou moeten bevatten.

Leesbaarheidsscore  

Om de leesbaarheid van een tekst objectief te meten, kan de Flesch-leesgemakscore worden gebruikt, die een score tussen 0 en 100 kan geven. Een ideale score voor productbeschrijvingen ligt tussen 60-80. Daarom moet deze score als zodanig worden geëvalueerd, zodat scores van 50 en 90 gelijke straffen krijgen.

Data  

Drie datasets zijn gebruikt om SEO-scores voor een verzameling teksten te berekenen en een subset van deze teksten te optimaliseren met een SEO-model. Twee van deze datasets zijn afkomstig van Squadra Machine Learning Company en zijn directe outputs van hun dienst Powertext.ai.De  ; de derde dataset is verzameld via Promptcloud en bevat Engelstalige productbeschrijvingen van Victoria’s Secret. De totale hoeveelheid data bestaat uit 10.500 Engelse teksten en 718 Nederlandse teksten.

Dataset Omschrijving
Schoenen Deze dataset bevat 500 Engelse en 500 Nederlandse productbeschrijvingen van schoenen. Deze teksten zijn gegenereerd met Powertext.ai.
Wasmachines Deze dataset bevat 218 Nederlandse productbeschrijvingen van wasmachines, ook gegenereerd met Powertext.ai.
Victoria’s Secret Deze dataset omvat 535.600 Engelstalige productbeschrijvingen van ondergoed en badmode verdeeld over 9 websites. Uit deze totale hoeveelheid zijn willekeurig 10.000 Engelse teksten geselecteerd voor SEO-scoreberekeningen.

SEO-scores  

Voor alle teksten in de datasets zijn de SEO-scores berekend. Hieruit zijn het minimum, gemiddelde en maximum afgeleid. Naast de algemene SEO-score wordt ook het gemiddelde van de individuele scores weergegeven. Om de scoring deterministisch te maken, zijn vooraf bepaalde zoekwoorden meegegeven aan het programma. Deze zoekwoorden zijn hieronder vastgelegd.

Dataset Trefwoorden
Schoenen (Engels) shoe, schoenen, lopen
Schoenen (Nederlands) schoen, schoenen, lopen
Wasmachines wasmachine, wassen, kleding
Victoria Secret BH, string, body, panty, sexy

De volgende SEO-scores zijn vastgesteld voor de datasets:

Dataset Min Mean Max
Shoes (English) 0.520 0.692 0.820
Shoes (Dutch) 0.600 0.776 0.870
Washing machines 0.630 0.790 0.910
Victoria’s Secret 0.270 0.591 0.820

De gemiddelden van de afzonderlijke scores worden hieronder weergegeven; let op dat het “aantal woorden” is weggelaten. Dit is omdat de totale lengte van productbeschrijvingen in de datasets varieert, zodat het onlogisch zou zijn om op basis van een algemeen minimum- en maximumaantal woorden te scoren. De scores in de tabel zijn gedefinieerd als “score (gewicht)”.

Dataset Keyword density (2) Query-Text (3) Sentence length (1) Passive vs Active (2) Transition words (2) Readability (3)
Shoes (English) 0.694 0.251 1.000 0.723 0.820 0.821
Shoes (Dutch) 0.693 0.443 0.994 0.637 0.968 0.980
Washing machines 0.772 0.509 0.732 0.922 0.952 0.838
Victoria’s Secret 0.927 0.082 0.628 0.976 0.287 0.709

SEO-model  

Het volledig optimaliseren van een tekst om een hogere SEO-score te realiseren, is een uitdagende opgave. Een mogelijkheid is het implementeren van een Generative Adversarial Network (GAN) dat nieuwe teksten genereert met de SEO-score als verliesfunctie. Een andere optie is het toepassen van een parafraseringsmodel en de SEO-score te gebruiken om te beoordelen of de nieuwe tekst verbeterd is. In onze aanpak zijn we ons gaan richten op leesbaarheidsconcepten zoals: actieve versus passieve zinnen, gebruik van overgangswoorden, en de leesbaarheidsscore.

Om deze scores te optimaliseren, hebben we GPT-3 gefinetuned ( beta.openai.com  ) op basis van 100 inputs en outputs, gericht op het verbeteren van de leesbaarheid van teksten. Een “betere” tekst wordt geaccepteerd indien de som van de drie scores en de algehele SEO-score zijn gestegen, en als de nieuwe tekst niet te veel afwijkt van de oude tekst. Deze gelijkenis tussen oude en nieuwe tekst wordt berekend met behulp van Sentence-BERT. Hieronder worden enkele voorbeelden weergegeven die voortkomen uit het SEO-model, afkomstig van de datasets van Victoria’s Secret en Wasmachines.

Een natuurlijk sexy ongevoerde vorm, met een lagere snit die perfect is voor onthullende halslijnen. Ontworpen om te verdwijnen onder curve-hugging styles. Lift & Voering ongevoerd; kanten keuzes zijn ongevoerd met een foam sling voor een lichte lift. Beugel cups; verstelbare bandjes kunnen worden omgevormd naar een kruisrug en klikken vast voor een veilige grip. Sluiting op de rug met dubbele rij haak- en oogsluitingen; maten 34DD, 36DD-36DD en 38D-38DDD hebben driedubbele rijen sluitingen voor een veilige, comfortabele pasvorm met 4 instellingen voor een perfecte fit. Details & Stof: Dubbel gevoerde zijkanten voor de gladste vorm, geïmporteerd nylon/spandex.
Een natuurlijk sexy ongevoerde vorm, met een lagere snit die perfect is voor onthullende halslijnen. De bh is ontworpen om te verdwijnen onder curve-hugging styles, met lift en voering die ongevoerd zijn en een foam sling hebben voor lichte lift. De beha heeft een beugelcup, verstelbare bandjes en haakjes die kunnen worden omgevormd tot kruisrug en vastgeklikt kunnen worden voor een stevige grip. De rugsluiting heeft dubbele rijen haak- en oogsluitingen, terwijl de maten 34DD, 36DD-36DD & 38D-38DD driedubbele rijen sluitingen hebben voor een perfecte pasvorm.
Een echte garderobe essential met zachte, no-show cups en een comfortabele pasvorm! Inclusief afneembare bandjes. Meeste druk, gestructureerde beugelcups. Inclusief bandjes voor haak- en oogsluiting, gemaakt van geïmporteerd polyamide/spandex.
Deze echte garderobe essential heeft zachte, no-show cups en een comfortabele fit. Hij bevat afneembare bandjes zodat je hem overal kunt dragen. De beha is vervaardigd uit ademend materiaal zoals polyamide en spandex, zodat je hem overal kunt dragen!
De digitale inverter motor zorgt voor een geluidsniveau van slechts 51 dB, wat echt stil is. Ook het droogresultaat van de AEG wasmachine L7WB86GW is van topkwaliteit dankzij de centrifuge die een maximaal toerental van 1600 RPM bereikt. Bij het wassen produceert deze 51 dB, en tijdens het centrifugeren maximaal 76 dB. Met een laadvermogen van 8 kg is het ruim te noemen, en met zijn 16 voorgeprogrammeerde wascycli kun je echt op maat wassen.
De digitale inverter motor zorgt voor een geluidsniveau van slechts 51 dB, wat echt stil is. Ook de droogresultaten van de AEG wasmachine L7WB86GW zijn van hoge kwaliteit dankzij de centrifuge die tot 1600 RPM kan draaien. Bij het wassen produceert deze 51 dB, bij het centrifugeren maximaal 76 dB. Met een laadvermogen van 8 kg is het ruim genoeg voor welk wasgoed dan ook, en met 16 voorgeprogrammeerde wascycli kun je volledig op maat wassen.

Conclusie  

In deze blog hebben we de basisprincipes van SEO uiteengezet en hoe teksten kunnen worden beoordeeld aan de hand van deze principes. We hebben de effectiviteit van het SEO-model aangetoond en hoe het mogelijk is om zinnen te herschrijven om hogere leesbaarheid- en SEO-scores te behalen. Een uitdaging van het SEO-model is echter dat het niet in alle gevallen in staat is de leesbaarheid te verbeteren. Dit is te wijten aan de willekeurigheid van GPT-3, die niet gemakkelijk te reguleren is.

In de toekomst kan dit model worden versterkt door een Encoder-Decoder-model toe te voegen dat passieve zinnen naar actieve zinnen omzet. Dit Encoder-Decoder-model is nog niet volledig ontwikkeld door een gebrek aan data. Over het algemeen bieden de SEO-scores waardevolle inzichten in verbeterpunten, terwijl het SEO-model al sterke prestaties laat zien bij het optimaliseren van teksten.

Referenties  

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

Floridi, L., & Chiriatti, M. (2020). GPT-3: Its nature, scope, limits, and consequences. Minds and Machines,30 (4), 681-694.

Reimers, N., & Gurevych, I. (2019). Sentence-bert: Sentence embeddings using siamese bert-networks. arXiv preprint arXiv:1908.10084.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).

de Vries, W., van Cranenburgh, A., Bisazza, A., Caselli, T., van Noord, G., & Nissim, M. (2019). Bertje: A dutch bert model. arXiv preprint arXiv:1912.09582.

Warstadt, A., & Bowman, S. R. (2019). Linguistic analysis of pretrained sentence encoders with acceptability judgments. arXiv preprint arXiv:1901.03438.

 De Mogelijkheden van Machine Learning: Vier Categorieën, Veel Potentieel
Product Information Management Is Zoveel Meer Dan een Systeem 
Deel artikel:
Squadra
Link gekopieerd naar clipboard
Wil je meer weten over dit onderwerp?
Guus van de Mond
Guus van de Mond
Laat je gegevens achter en dan neem ik contact met je op.
Contact  
Contact  
Guus van de Mond
Guus van de Mond
Wil je meer weten over dit onderwerp?
Laat je gegevens achter en dan neem ik contact met je op.
Contact  
Contact  
Diensten
Data Foundation 
Analytics 
Artificial Intelligence 
Digital Commerce 
Digital Leadership 
Digital Transformation 
Over ons
Kantoren 
Kernwaarden 
MVO beleid 
Partners 
Links
Kennis 
Cases 
Carrières 
Privacy 
Cookies 
Blijf op de hoogte
Squadra
   
Copyright © 2025 Squadra. Alle rechten voorbehouden.
Squadra
Code gekopieerd naar clipboard