SEO

BERT’e derin bir dalış: BERT nasıl doğal dil anlayışı içine roket attı

Editörün Notu: Yüksek seviyedeki SSS bölümümüze bu derin dalış arkadaşı 30 dakikalık bir okumadır, bu yüzden rahat olun! BERT'in evriminin temelini ve nüanslarını, algoritmanın makineler için insan dilini anlama becerisini nasıl geliştirdiğini ve SEO ve her gün yaptığımız işler için ne anlama geldiğini öğreneceksiniz.

Eğer Twitter SEO’ya göz kulak olsaydınız Geçtiğimiz hafta boyunca, Susam Sokağı'ndan Bert (ve bazen Ernie) karakterini içeren gif ve görüntü sayısında bir artış olduğunu muhtemelen fark etmişsinizdir.

Bunun nedeni, Google’ın geçen hafta yaklaşan bir algoritmik güncellemenin yayınlanacağını açıklamasıydı. arama sonuçlarındaki sorguların% 10'unu etkilemek ve ayrıca bulundukları ülkelerdeki öne çıkan snippet sonuçlarını etkilemek; bu önemsiz değildir.

Güncelleme, Google BERT (Bu nedenle Susam Sokağı bağlantısı – ve gif'ler) olarak adlandırıldı.

Google, BERT’i, neredeyse 5 yıl önce RankBrain’i piyasaya sürmesinden bu yana arama sistemindeki en büyük değişiklik olarak nitelendirdi. ve muhtemelen aramadaki en büyük değişikliklerden biriydi.

BERT’in gelişinin ve onun gelecekteki etkisinin haberi, SEO topluluğunun, BERT’in ne yaptığı ve endüstri için ne anlama geldiği konusunda kafa karışıklığı yarattı. Genel olarak.

Bu düşünceyle, BERT’in ne olduğunu, BERT’in arka planını, BERT’in ihtiyacını ve çözmeyi amaçladığı zorlukları, şu anki durumu (yani SEO için ne anlama geldiğini) ve olayların nerede olabileceğine bir göz atalım.


Bu kılavuzdaki alt bölümlere hızlı bağlantılar

BERT backstory | Arama motorları dili nasıl öğrenir | Dil öğrenme yöntemleri ile ilgili sorunlar | BERT arama motoru dili anlayışını nasıl geliştirir | BERT SEO için ne anlama geliyor?


BERT nedir?

BERT, akademik bir araştırma makalesi olarak piyasaya sürülmesinden bu yana makine öğrenim dünyasını fırtınaya çıkaran, teknolojik açıdan çığır açan bir doğal dil işleme modeli / çerçevesidir. Araştırma makalesinde BERT: Dil Anlayışına Yönelik Derin Yönlü Trafoların Ön Eğitimi verilmiştir (Devlin vd, 2018).

Makalenin yayınlanmasının ardından Google AI Araştırma ekibi, BERT'i açık kaynak katkı olarak açıkladı.

Bir yıl sonra, Google, üretim aramasında Google BERT algoritmik bir güncellemesini duyurdu. Google, BERT'in algoritmik güncellemesini BERT araştırma belgesine bağladı ve BERT’in içerik ve sorgularda bağlamsal dil anlama konusundaki önemini vurguladı ve bu nedenle özellikle konuşma aramasında niyeti vurguladı.

Peki, BERT gerçekte ne?

Çok çeşitli doğal dil işleme görevlerinde en son teknoloji sonuçları veren, önceden eğitilmiş, derin öğrenen bir doğal dil çerçevesi olarak. Araştırma aşamalarında ve üretim arama sistemlerine eklenmeden önce, BERT 11 farklı doğal dil işleme görevinde son teknoloji ürünü sonuçlar elde etti. Bu doğal dil işleme görevleri, diğerlerinin yanı sıra, varlık analizi, adlandırılmış varlık belirleme, metin gerektirme (sonraki cümle tahmini), anlamsal rol etiketleme, metin sınıflandırma ve özdeşlik çözümünü içerir. BERT aynı zamanda bağlam içinde, polisemöz kelimeler olarak bilinen çoklu anlamdaki kelimelerin netleştirilmesinde de yardımcı olur.

BERT, birçok makalede model olarak adlandırılır, ancak, makine öğrenmesine temel teşkil ettiğinden, daha çok bir çerçevedir. uygulayıcılar birçok farklı görevi yerine getirmek için kendi ince ayarlanmış BERT benzeri versiyonlarını inşa ettiler ve bu Google’ın da nasıl uygulayacağına benziyor.

BERT aslen İngilizce Wikipedia ve Brown Corpus’un tamamı hakkında önceden eğitildi ve soru ve cümle çiftlerini cevaplama gibi aşağı yönlü doğal dil işleme görevlerinde ince ayar yapılmıştır. Bu yüzden, bir kereye mahsus algoritmik bir değişim değil, cümle ve cümlelerde dilsel nüansları anlama ve belirsizleştirmeye yardım eden, sürekli olarak kendini iyi ayarlayan ve geliştirmek için ayarlayan temel bir katmandır.

BERT backstory

BERT'in getirdiği değerin farkına varmaya başlamak için önceki gelişmelere bir göz atmamız gerekiyor.

Doğal dil mücadelesi

Kelimelerin yapı ve anlam ile birlikte uyumunu anlama dilbilim ile ilgili bir çalışma alanıdır. . Doğal dil anlayışı (NLU) veya NLP, aksi bilindiği gibi, 60 yıldan daha uzun bir süre önce, orijinal Turing Test belgesine ve AI'yı ve muhtemelen daha önce neyin meydana getirdiğinin tanımlarına dayanır.

dilin belirsiz doğası ile ilgili (sözlük belirsizliği). İngilizce dilinde neredeyse her kelimenin birden çok anlamı vardır.

Arama motorları, kullanıcılar tarafından yazılı ve sözlü sorgularda ifade edilen bilgi gereksinimlerini karşılamaya niyetli olarak yorumlamaya çalıştıkça, bu zorlukların doğal olarak sürekli artan bir içerik ağına yayılması.

Sözcüksel belirsizlik

Dilbilimde belirsizlik, kelime seviyesinden ziyade cümledir. Çok anlamlı anlamları olan kelimeler belirsiz cümleler ve cümlelerin anlaşılması giderek zorlaşıyor.

Cambridge Üniversitesi'nden eski Stephen Clark'a ve şimdi Deepmind'deki tam zamanlı bir araştırma bilimcisine göre:

“Belirsizlik en büyük darboğaz Hesaplamalı bilgi edinme, tüm doğal dil işlemenin katil problemidir. ”

Aşağıdaki örnekte, WordNet'ten (İngilizce kelimeleri synsets (eş anlamlı kümeler halinde gruplandıran sözlüksel bir veritabanı) alınmış),“ bass ”kelimesini görüyoruz. birçoğunun müzik ve tonla, bazılarının da balıkla ilgili olduğu birçok anlamı vardır.

Ayrıca, müzik bağlamında “bas” kelimesi hem bir isim-konuşmanın parçası hem de bir sıfatın bir parçası olabilir. daha da kafa karıştırıcıdır.

İsim

  • S: (n) bas (müzik aralığının en düşük kısmı)
  • S: (n) bas S ]bas parçası (çok sesli müziğin en düşük kısmı)
  • S: (n) bas basso (en düşük sesli yetişkin bir erkek şarkıcı)
  • S: (n) levrek, bas (tuzlu su balığının yağsız eti) Serranidae familyasından)
  • S: (n) tatlı su levreği, bas (yağsız etli çeşitli Kuzey Amerika tatlı su balıklarından herhangi biri (özellikle Micropterus cinsinden))
  • S: (n) bas bas sesi, basso (en düşük yetişkin erkek şarkı sesi)
  • S: (n) bas (müzik aletleri ailesinin en düşük aralığına sahip olan üye) [19659032] S: (n) bas (sayısız yenilebilir deniz ve tatlı su sivri uçlu balıktan herhangi birinin teknik olmayan adı)

Sıfat S: (adj) bas S derin (düşük bir vokal veya enstrümantal aralığa sahip olmak veya belirtmek) “derin bir ses”; “Bir bas sesi, bir bariton sesinden daha düşüktür”; “Bir bas klarnet”

Polysemy ve homonyim

Çok anlamlı kelimelerin polisemous veya homonymous olduğu kabul edilir.

Polysemy

Polysemous kelimeler iki veya daha fazla anlama sahip, aynı kökene sahip kelimelerdir ve son derece ince ve nüanslı. Örneğin “çok amaçlı bir kelime” olan “get”, “tedarik etmek”, “elde etmek” veya “anlamak” anlamına gelebilir. 'Çalıştırmak' adlı diğer bir fiil, çok eşittir ve 606 farklı anlamı olan Oxford İngilizce Sözlüğü'ndeki en büyük giriştir.

Homonymy

Homonyms, birden fazla anlamı olan diğer ana kelime türüdür, ancak homonimler, polemerik sözcüklerden daha az nüanslıdır. anlamları genellikle çok farklı olduğu için. Örneğin, bir eşcinsel olan “gül”, “yükselmek” anlamına gelebilir veya bir çiçek olabilir. Bu iki kelimeli anlamların hiçbir önemi yoktur.

Homograflar ve homofonlar

Homograf türleri de daha ayrıntılı olabilir. “Rose” ve “Bass” (önceki örnekten) homograf olarak kabul edilir, çünkü aynı hecelenir ve farklı anlamlara gelirler, oysa homofonlar farklı hecelenir, fakat aynı şekilde ses çıkarır. İngilizce, özellikle ev telefonları için sorunludur. Burada 400'den fazla İngiliz homophone örneğinin bir listesini bulabilirsiniz, ancak sadece birkaç homophone örneği şunlardır:

  • Taslak, taslak
  • İkili, düello
  • Yapılmış, hizmetçi
  • Çünkü, dört
  • ] İkide de
  • Orada,
  • Nerede, aşınmak,

Oldu,

Bunlar,

Birleşince konuşulan cümle düzeyinde bir kelimede, kelimeler kendileri homofon olmasalar bile birden belirsiz ifadeler haline gelebilirdi.

Örneğin, ayrı kelimelere ayrılırken “dört mum” ve “çatal kulpları” ifadelerinin kafa karıştırıcı nitelikleri yoktur ve homofon değildir, ancak bir araya geldiklerinde neredeyse aynı gibi ses çıkarırlar.

tamamen farklı anlamlara sahipken, birbirleriyle aynı anlama sahip olmak. İnsanlar bile, her şeyden önce mükemmel olmadıklarından, bu tür ifadelerin anlamlarını karıştırırlar. Bu nedenle, birçok komedi şovu “kelimeler üzerinde oynama” ve dilsel nüanslar içeriyor. Bu konuşulan nüanslar, karşılıklı konuşmalarda özellikle sorunlu olma potansiyeline sahiptir.

Eş anlamlılık farklıdır

Eş anlamlı sözcükler birbirleriyle aynı (veya çok benzer) anlamına geldiği için açıklamak gerekirse, eş anlamlılıklar çok polislik ve homoniden farklıdır, ancak

Eş anlamlı kelimelerin bir örneği, “küçük” ile eş anlamlı olarak “küçük”, “küçük” ve “mini” sıfatları olabilir.

Çekirdek Çözünürlük

“onlar” gibi zamirler. “O”, “onlar”, “O”, doğal dil anlayışında ve hatta üçüncü şahıs zamirlerinde zahmetli bir meydan okuma olabilir; paragraflar. Zamirlerin ortaya koyduğu dil zorluğuna çekirdek özünürlük çözünürlüğü denir, özellikle özdeş özünürlük çözünürlüğünün nüansları anapforik veya katoforik bir özünürlüktür.

hakkında, ya da hakkında yazılmış, ancak burada zorluk daha da açıklanmaktadır.

Anaphora ve katafora çözünürlüğü

Anaphora çözünürlüğü, daha önce bir metindeki zamir veya isim cümleleri gibi öğelerin sözlerini bağlama çabasıdır. insanlar, yerler, şeyler gibi). Anaphora kararından daha az yaygın olan Cataphora kararı, “bir şey” (kişi, yer, bir şey) daha sonra bir cümle veya cümle ile ifade edilmeden önce, zamir veya isim cümlesi olarak adlandırıldığını anlama zorluğudur. [19659003] İşte bir anaphoric çözünürlük örneği:

“John, Mary'ye yardım etti. Nazikti. ”

“ O ”nun“ John ”a geri dönme zamiri (anaphora) olduğu yer.

Ve bir tane daha:

Araba parçalanıyor, ama hala çalışıyor.

aynı zamanda anaphora da içeren bir katafora örneğidir:

“Mary anahtarlarını kaybettiğini fark ettiğinde NYU'daydı.”

Yukarıdaki örnekte ilk “o”, katafora çünkü Mary ile ilgili. henüz cümle içinde bahsedilmedi. İkinci “o”, “o” nun cümle içerisinde daha önce sözü edilen Meryem ile de ilgili olduğu için bir anaphoradır.

Çok-cümle kararı

İnsanlara, yerlere ve eşyalara atıfta bulunan kelime öbekleri ve cümleler (19659011). varlıklar) zamirler olarak, bu referansların ayrılması giderek daha karmaşık hale gelir. Bu özellikle, metnin yanı sıra artan cümle sayısının yanı sıra birden fazla varlığın eklenmeye karar vermesi durumunda ortaya çıkar.

İşte Corference'ın çekirdek özünürlük çözünürlüğü ve anaphora açıklamalarından bir örnek:

Fransa etrafında iki gezi

b) Her ikisi de harikaydı.

İnsanlar ve belirsizlik

Her ikisi de harikaydılar.

Birden fazla cümle ve paragraf okurken ya da ileride konuşmayı dinlerken neyin “ne” ya da “onlar” ın neyi kastettiğini anlıyoruz, çünkü dikkatin konu odağının kim olduğunu takip edebiliyoruz.

Örneğin, bir cümle “mevduat” veya “çek / çek” ve “nakit” gibi ilgili kelimeleri içerdiğinde, bunların hepsi “nehir” yerine finansal bir kurum olarak “banka” ile ilgilidir.

İçinde sıralı kelimelerle, kelimelerin ve cümlelerin söylendiği veya yazıldığı bağlamın farkındayız; ve bize mantıklı geliyor. Bu nedenle, belirsizlik ve nüansla nispeten kolay bir şekilde başa çıkabiliyoruz.

Makineler ve belirsizlik

Makineler “banka” (nehir) ve “bankayı” (finans kurumu) ayırt etmek için gereken bağlamsal kelime bağlantılarını otomatik olarak anlamıyor. Daha azına rağmen, “olsun” ve “koşmak” gibi farklı anlamlara sahip çok sayıda çoklu kelime var. Makineler, cümlelerde de kolayca konuşulanların izini kaybediyor, bu yüzden özdeşlik çözümlemesi de çok büyük bir zorluk.

konuşma arama (ve homophones) gibi bir kelime, karışıma girer, hepsi birlikte daha da zorlaşır, özellikle birlikte cümleler ve ifadeler eklemeye başladığınızda,

Arama motorları dili nasıl öğrenir

Peki nasıl dilbilimci ve kelimelerin, cümlelerin ve cümlelerin doğal dildeki anlamsız anlamlarını anlamalarını sağlayan arama motoru araştırmacıları

“Google, yalnızca cümlenin anlamını anlamak yerine, cümlenizin anlamını anlasa iyi olmaz mıydı? ”, Google’ın Eric Schmidt’in Mart 2009’da, şirketin ilk semantik tekliflerini sunduğunu duyurmasından hemen önce geri döndü” dedi.

Bu, ilk adımlardan birinin “iplerden eşyalara” uzaklaştığını ve belki de Google tarafından varlık odaklı arama uygulamasının ortaya çıkışı.

Eric Schmidt’in yayınında belirtilen ürünlerden biri, arama sonuçları sayfalarında gösterilen "ilgili şeyler" idi. “Açısal momentum”, “özel görelilik”, “büyük patlama” ve “kuantum mekaniği” ile ilgili öğelerden bir örnek verilmiştir

Bu öğeler, birbirleriyle doğal dilde yaşayan eşzamanlı öğeler olarak kabul edilebilir. 'ilişkinliğe'. Bağlantılar göreceli olarak gevşek ancak web sayfası içeriğinde birlikte var olmalarını bekliyor olabilirsiniz.

Peki, arama motorları bu “ilgili şeyleri” birlikte nasıl eşleştirirler?

Birlikte Yaşama ve Dağıtım Benzerliği

hesaplamalı dilbilim, eşzamanlılık, benzer anlamları veya ilgili kelimeleri içeren kelimelerin doğal dilde birbirine yakın yaşama eğiliminde olduğu fikrini doğrular. Başka bir deyişle, genel olarak metnin paragraflarında veya paragraflarında veya metin gövdelerinde (bazen şirket olarak adlandırılır) çok yakın olma eğilimindedirler.

Kelime ilişkilerini ve birlikte çalışmayı inceleyen bu alana Firthian Dilbilimi adı verilir ve kökleri genellikle 1950’li dilbilimci John Firth’la bağlantıya geçerek, ünlü bir şekilde şöyle dedi:

“Sakladığı şirketten bir kelime bileceksin.”

(Firth, JR 1957)

Benzerlik ve benzerlik

metindeki yakın alanlarda birlikte yaşayan sözcükler ve kavramlar ya benzer ya da ilişkilidir

Benzer “şey türleri” kelimelerinin anlamsal benzerliğe sahip olduğu düşünülmektedir. Bu, bir “şey” türü olan kavramlar olan “isA” kavramları arasındaki mesafenin ölçülmesine dayanır. Örneğin, bir araç ve bir otobüs, her ikisi de araç türü oldukları için anlamsal benzerliğe sahiptir. Hem otomobil hem de otobüs bu boşluğu aşağıdaki gibi bir cümleyle doldurabilir:

“A ____ bir araç”, çünkü hem otomobiller hem de otobüsler araç.

Benzerlik anlamsal benzerlikten farklı. İlişkililik 'dağıtımsal benzerlik' olarak kabul edilir, çünkü isA'lar ile ilgili kelimeler, işletmenin ne olduğuna dair net ipuçları verebilir.

Örneğin, bir araba bir otobüse benziyor, çünkü her ikisi de bir araç, ancak bir araba kavramlarla ilgili. "yol" ve "sürüş"

Yol ve sürüş ile ilgili bir sayfa arasında veya yakınlarda oturan bir sayfada (bağlantılı veya bölüm – kategori veya alt kategori içinde) belirtilen bir sayfa bulmayı bekleyebilirsiniz.

Bu, doğal dil için bir iskele oluştururken benzerlik ve benzerlik kavramlarına dair çok güzel bir video

İnsanlar, bu birlikte oluşumu doğal olarak algı anlayışının bir parçası olarak anlıyor ve daha önce bahsedilen örnekte kullanılmış. “banka” (nehir) ve “banka” (finans kurumu) etrafında

Bir finans kurumu olarak bir banka konusunun etrafındaki içerik muhtemelen nehirler veya balıkçılıktan ziyade finans konusu ile ilgili kelimeleri içerecektir. fi hakkında bir sayfaya bağlandı

Bu nedenle, “bankanın” şirketi “finans”, “nakit”, “çek” vb.

Bilgi grafikleri ve depolar

Her semantik arama ve varlıktan söz edildiğinde muhtemelen hemen arama yapmayı düşünüyoruz motor bilgisi grafikleri ve yapılandırılmış veriler, ancak doğal dil anlayışı yapılandırılmış veriler değildir

Ancak, yapılandırılmış veriler, arama motorları için doğal dil anlayışını kolaylaştırır, çünkü bir kelimenin 'firması', konulara ilişkin bir işaret verdiğinden, dağıtım benzerliği yoluyla netleştirme İçerikte.

Varlıklar ve ilişkileri arasındaki ilişkilerin bir bilgi grafiğiyle eşleştirilip benzersiz kavram kimlikleriyle bağları güçlüdür (örneğin; şema ve yapılandırılmış veri)

Ayrıca, bazı dilbilgisi bölümlerinin, doğal dil işleme sonucunda, varlık belirlemesi biçiminde (aynı ismin iki veya daha fazla varlığından hangisine ait olduğuna karar verilmesi) mümkün kılınması varlık tanıma otomatik olarak belirsiz olmadığı için,

Bir metin parçasında “Mozart” kelimesinin yer alması, besteci, “Mozart” kafesi, “Mozart” sokağı ve “Mozart” anlamına gelebilir. birbiriyle aynı isimde ump on kişi ve yer var.

Ağın büyük bölümü hiç yapılandırılmamış. Bütün ağı göz önüne alırken, anlamsal başlıklar, madde imli ve numaralı listeler gibi yarı yapılandırılmış veriler ve tablo halinde veriler bile çok küçük bir kısmını oluşturur. Cümlelerde, cümlelerde ve paragraflarda gevşek belirsiz metinlerin çok fazla boşluğu vardır.

Doğal dil işlemesi, cümle, cümleler ve paragraflardaki gevşek yapılandırılmamış metni “bilinen” şeylerin tümü arasında anlamakla ilgilidir ( kişiler). Varlıklar arasındaki sıcak karışıklıkta bir “boşluk doldurma” biçimi. Benzerlik ve ilişkililik ve dağıtım benzerliği bu konuda yardımcı olur.

İlişkililik zayıf veya güçlü olabilir

Varlıkların düğümleri ve kenarları ve ilişkileri arasındaki veri bağlantıları güçlü olsa da, benzerliğin tartışmasız olarak zayıf olduğu ve ilişkilerin zayıf olduğu . İlişkililik bile belirsiz olarak kabul edilebilir.

Elmalar ve armutlar arasında “isA” şeyleri ile olan benzerlik bağlantısı “soyma”, “yemek”, “çekirdeğin” benzerlik bağlantısından daha güçlüdür çünkü bu kolayca başka bir meyve olabilir.

Bir elma, burada sadece “soy”, “yemek” ve “çekirdek” kelimelerini görerek gerçekten açık bir “şey” olarak tanımlanmamıştır. Bununla birlikte, ilişki, daraltmak için ipuçları sağlar. içeriğe yakın olan “şeylerin” türlerini aşağıla.

Hesaplamalı dilbilimi

Doğal dil araştırmasının çok “boşluk doldurma”, hesaplamalı dilbilim olarak kabul edilebilir; matematik, fizik ve dili, özellikle doğrusal cebir ve vektörleri ve güç yasalarını birleştiren bir alan.

Doğal dil ve dağıtım frekansları genel olarak çok sayıda açıklanamayan fenomene sahiptir (örneğin, Zipf Gizem) ve Kelimelerin “tuhaflığı” ve dilin kullanımı

Bununla birlikte, genel olarak, dilin çoğu, kelimelerin bir arada yaşadığı yerdeki matematiksel hesaplamalar ile çözülebilir (bu, tuttukları şirket) ve bu, arama motorlarının nasıl büyük bir bölümünü oluşturur. doğal dil zorluklarını çözmeye başlıyor (BERT güncellemesi dahil).

Kelime yerleştirmeleri ve birlikte ortaya çıkma vektörleri

Basitçe söylemek gerekirse, kelime yerleştirmeleri matematiksel bir alanda tanımlamak ve kümelemek için matematiksel bir yoldur; birbirlerine yakın gerçek metin koleksiyonunda, aksi halde metin korpusu olarak da bilinir. Örneğin, “Savaş ve Barış” kitabı, Vikipedi gibi büyük bir metin kurumunun bir örneğidir.

Sözcük eklemeleri, genellikle bir metin metninde bulundukları zaman birbirine yakın yaşayan sözcüklerin yalnızca matematiksel temsilleridir. gerçek sayıları kullanarak vektörlere (matematiksel uzaylara) eşlenir

Bu kelime gömmeleri, basitçe şirketlerine eşlenen ve eş-oluşum vektör uzaylarında saklanan kelimelerle birlikte-oluşma, ilişki ve dağılım benzerliği kavramlarını alır. 'Sayılar' vektörü daha sonra, insanların birbirine yakın yaşayan kelimelere dayanarak dili nasıl kullandıklarını öğretmek için çok çeşitli doğal dil anlama görevlerinde bilgisayarlı dilbilimciler tarafından kullanılır.

WordSim353 Dataset örnekleri

Biliyoruz Bu birlikte ortaya çıkma vektörleri ve kelime yerleştirmeleriyle benzerlik ve ilişkiye yaklaşan yaklaşımlar, kelimenin anlamını öğrenmek için Google’ın konuşmacı arama araştırma ekibinin üyeleri tarafından yapılan araştırmanın bir parçası olmuştur.

Örneğin, “Dağılım ve WordNet kullanarak benzerlik ve ilişki araştırması Dağılımsal benzerliği anlamak için Wordsim353 Veri Kümesini kullanan “temelli yaklaşımlar”.

Veri setlerindeki bu benzerlik ve ilişki türü, metin gövdelerinde matematiksel alanlara (vektörler) eşlenen “kelime gömme” yi oluşturmak için kullanılır.

Sıklıkla birlikte bir f f olarak indirilebilir olan Wordsim353 Dataset'in içeriğinde sıkça ortaya çıkan kelimelerin çok küçük bir örneği: daha fazla araştırma için ormat. İnsan sınıflayıcılar tarafından sağlanan, sağ sütundaki puan, sol ve orta sütundaki iki kelimenin ne kadar benzer olduğuna dayanmaktadır.

para nakit 9.15
kıyı kıyı 9.1
para nakit 9.08
para para 9.04
futbol futbol 9.03
büyücü sihirbaz [19659137] 9.02

Word2Vec

Yarı denetimli ve denetlenmeyen makine öğrenmesi yaklaşımları şimdi de turbo şarjlı hesaplama dilbilimine sahip olan bu doğal dil öğrenme sürecinin bir parçası.

Sinir ağları, yaşayan kelimeleri anlamak için eğitildi. birbirine yakınlık ve benzerlik ölçütleri kazanmak ve kelime yerleştirmek için yan yana.

Bunlar daha sonra insanlara dili nasıl anladıklarını öğretmek için daha spesifik doğal dil anlama görevlerinde kullanılırlar.

Metinleri girdi olarak kullanarak vektörleri ve çıktı olarak vektörleri kullanarak bu matematiksel birlikte-oluşum vektör uzaylarını oluşturmak için popüler bir araç Google’ın Word2Vec'idir. Word2Vec'in çıktısı, birçok farklı doğal dil işleme görevinde kullanılabilecek bir vektör dosyası oluşturabilir.

İki ana Word2Vec makinesi öğrenme yöntemi, Skip gram ve Sürekli Sözcük Torbasıdır.

Skip gram model, hedef kelime (hedef) etrafındaki kelimeleri (bağlam) öngörürken, Sürekli Kelimeler Çantası modeli hedef kelimeyi hedefin etrafındaki sözcüklerden (bağlam) tahmin eder.

Bu denetimsiz öğrenme modelleri, hareket eden kelime çiftleri ile beslenir. Bir hedef kelimenin etrafında birkaç kelimeyle “bağlam penceresi”. Hedef kelimenin belirli sayıda çevreleyen kelimeden oluşan “bağlam penceresinin” merkezinde olması gerekmez, fakat bağlam penceresinin sol veya sağ tarafında olabilir.

Dikkat edilmesi gereken önemli bir nokta. bağlam pencereleri tek yönlü hareket ediyor. Yani pencere, kelimeler arasında yalnızca bir yönde, soldan sağa veya sağdan sola doğru hareket eder.

Konuşma bölümü etiketlemesi

İnsan dilini sinir ağlarına öğretmek için tasarlanan bilgisayarlı dilbilimin bir diğer önemli kısmı, farklı konuşma bölümlerine eğitim belgeleri. Konuşmanın bu kısımları isimlerin, sıfatların, fiillerin ve zamirlerin beğenilerini içerir.

Dilbilimciler, konuşmanın pek çok parçasını giderek daha iyi tanımlanacak şekilde genişletti, konuşmanın ortak kısımlarının ötesine geçtiler. isimler, fiiller ve sıfatlar olarak, Konuşmanın bu genişletilmiş bölümleri arasında VBP (Fiil, 3. tekil olmayan şahıs hediyesi), VBZ (Fiil, 3. tekil şahıs hediyesi) ve PRP $ (İyelik zamiri) yer almaktadır.

konuşmanın bir parçası biçiminde, kelimenin farklı anlamdaki taneciklerine sahip bir dizi etiketleyici kullanılarak konuşmanın parçaları olarak etiketlenebilir, örneğin, Penn Treebank Tagger 36 farklı konuşma etiketine sahiptir ve CLAWS7 konuşma etiketleyicisinin bir kısmı vardır. Örneğin, 146 farklı konuşma etiketinin bir kısmı.

Google Pygmalion, örneğin, Google’ın konuşmacı arama ve yardımcısı üzerinde çalışan dilbilimciler ekibi olan konuşmacıların özellikli snippet'lerde cevap oluşturma için sinir ağı ağlarının bir parçası olarak kullanıldığını söyledi. ve sen bu nedenle, belirli bir cümlenin konuşma bölümlerini anlamak, makinelerin insan dilinin nasıl çalıştığını, özellikle konuşarak arama ve konuşma bağlamında nasıl çalıştığını anlamaya başlamasını sağlar.

Aşağıdaki “Konuşma Bölümü” etiketleyicisinden bakınız, cümle:

“Arama Motoru Ülkesi çevrimiçi bir arama endüstrisi haber yayınıdır.”

Bu, “İsim / isim / isim / isim / fiil / determinör / sıfat” olarak etiketlendi. / noun / noun / noun / noun ”konuşmanın farklı bölümleri olarak vurgulandığında.

Dil öğrenme yöntemleriyle ilgili sorunlar

Tüm ilerlemelere rağmen, arama motorları ve hesaplamalı dilbilimciler Word2Vec ve denetimsiz ve yarı denetimli yaklaşımlar yapmışlardır. Google Pygmalion, ölçeklendirilmiş insan dili anlayışını engelleyen birtakım eksikliklere sahiptir.

Bunların, konuşma aramalarındaki ilerlemeyi kesinlikle nasıl engellediğini görmek kolaydır.

Pygmalion, uluslararasılaştırma için ölçeklendirilemez

Konuşma bölümleri etiketli ek açıklamalarla etiketleme eğitimi veri kümeleri, herhangi bir kuruluş için hem zaman alıcı hem de pahalı olabilir. Ayrıca, insanlar mükemmel değildir ve hata ve anlaşmazlıklara yer vardır. Belirli bir kelimenin belirli bir bağlamda ait olduğu konuşmanın parçası, dilbilimcileri kendi aralarında saatlerce tartışmaya devam edebilir.

Google’ın Google Asistan’da çalışan dilbilimciler ekibi (Google Pygmalion), 2016’da, 2016’da yaklaşık 100 Ph’dan oluştu. .D. dilbilimciler. Wired Magazine’le yaptığı röportajda, Google Ürün Müdürü David Orr, şirketin hala doktora ekibine nasıl ihtiyaç duyduğunu açıkladı. Sinir ağlarının insan dilinin nasıl çalıştığını anlamalarına yardım eden şekillerde (buna 'altın' veri olarak atıfta bulunarak) etiketleyen dilbilimciler.

Orr Pygmalion'dan bahsetti:

“Ekip 20 ila 30 dil arasında yer alıyor . Ancak umut, Google gibi şirketlerin nihayetinde “denetlenmeyen öğrenme” olarak adlandırılan daha otomatik bir AI biçimine geçebilmeleridir. ”

2019’a kadar, Pygmalion ekibi dünyanın dört bir yanındaki 200 dilbilimciden oluşan bir orduydu. daimi ve acente personeli, ancak manuel etiketleme çalışmasının zahmetli ve azgın doğası nedeniyle zorlukları yoktu ve uzun saatler dahil edildi.

Aynı makalede, derin bir öğrenim şirketinin kurucusu Chris Nicholson Skymind, Google Pygmalion gibi projelerin ölçeklendirilemeyen doğası hakkında, özellikle uluslararası bir bakış açısıyla yorumladı; çünkü konuşma etiketlemesinin bir kısmının, gerçekten çok dilli olmak için dünyanın bütün dillerinde bulunan dilbilimciler tarafından yapılması gerekiyor.

konuşma araştırması

Pygmalion'da yer alan manuel etiketleme, hesaplamalı dilbilimin aktarılabilir doğal fenomenlerini dikkate almamaktadır. Örneğin, bir dağıtım sıklığı güç yasası olan Zipfs Yasası, herhangi bir dilde bir kelimenin dağılma sıklığının, rütbesinin üzerinde bir oranla orantılı olduğunu ve bunun henüz çevrilmemiş diller için de geçerli olduğunu söylemektedir.

RNN'lerdeki 'bağlam pencerelerinin' (Tekrarlayan Yapay Sinir Ağları)

Skip-gram ve Sürekli Sözcük Torbası gibi eğitim modelleri, Hedef sözcüğü içeren bağlam penceresini ve etrafındaki bağlam sözcüklerini tek yönlü olarak kullanmaktadır. sola ve sağa sadece bir yöne gider. Hedef kelimeden sonra gelen kelimeler henüz görülmedi, bu yüzden cümlenin tüm içeriği, bazı bağlamsal kalıpların kaçırılma riskini taşıyan en son kelimeye kadar eksik kaldı.

trafo mimarisi hakkında konuşurken Google AI blogunda Jacob Uszkoreit tarafından yönlendirilmiş hareketli pencereler.

"Banka" kelimesinin cümle içinde en muhtemel anlamı ve uygun temsiline karar verilmesi: “Cümle içinde bankaya geldim. … ”cümlenin“… yol ”veya“… nehir ”ile bitip bitmediğini bilmeyi gerektirir.

Metin uyumu eksik

Tek yönlü eğitim yaklaşımları metin uyumunun varlığını önler.

Ludwig Wittgenstein, 1953'te ünlü bir filozof şöyle dedi:

“Bir kelimenin anlamı, dilde kullanımıdır.”

(Wittgenstein, 1953)

Genellikle minik kelimeler ve kelimelerin bir arada tutulma şekilleri 'hangi brin g Dilde sağduyu. Bu "yapıştırıcı" genel olarak "metin uyumu" olarak adlandırılır. Varlıkların ve çevrelerindeki farklı konuşma bölümlerinin birleşimi, bir cümleyi yapıya ve anlama sahip kılan belirli bir düzende birlikte formüle edilmiştir. Bir kelimenin bir cümle veya cümlenin içine oturduğu sıra da bu bağlamda eklenir.

Bu çevreleyen kelimelerin doğru sırayla bu bağlamsal tutkusu olmadan, kelimenin kendisinin hiçbir anlamı yoktur.

aynı kelime bir cümlenin veya cümlenin birlikte varolan cümle veya cümle üyelerindeki bağımlılıklar nedeniyle geliştiği, onunla bağlamı değiştirdiği için de değişebilir.

“Kova” kelimesini ele alalım. Şimdi insanlar olarak suyla doldurulabilen bir kovayı “şey” olarak otomatik olarak görselleştirebiliriz, ancak her yerde nüanslar vardır.

Ne if the word bucket word were in the sentence “He kicked the bucket,” or “I have yet to cross that off my bucket list?”  Suddenly the word takes on a whole new meaning. Without the text-cohesion of the accompanying and often tiny words around “bucket” we cannot know whether bucket refers to a water-carrying implement or a list of life goals.

Word embeddings are context-free

The word embedding model provided by the likes of Word2Vec knows the words somehow live together but does not understand in what context they should be used. True context is only possible when all of the words in a sentence are taken into consideration. For example, Word2Vec does not know when river (bank) is the right context, or bank (deposit). Whilst later models such as ELMo trained on both the left side and right side of a target word, these were carried out separately rather than looking at all of the words (to the left and the right) simultaneously, and still did not provide true context.

Polysemy and homonymy handled incorrectly

Word embeddings like Word2Vec do not handle polysemy and homonyms correctly. As a single word with multiple meanings is mapped to just one single vector. Therefore there is a need to disambiguate further. We know there are many words with the same meaning (for example, ‘run’ with 606 different meanings), so this was a shortcoming. As illustrated earlier polysemy is particularly problematic since polysemous words have the same root origins and are extremely nuanced.

Coreference resolution still problematic

Search engines were still struggling with the challenging problem of anaphora and cataphora resolution, which was particularly problematic for conversational search and assistant which may have back and forth multi-turn questions and answers.

Being able to track which entities are being referred to is critical for these types of spoken queries.

Shortage of training data

Modern deep learning-based NLP models learn best when they are trained on huge amounts of annotated training examples, and a lack of training data was a common problem holding back the research field overall.

So, how does BERT help improve search engine language understanding?

With these short-comings above in mind, how has BERT helped search engines (and other researchers) to understand language?

What makes BERT so special?

There are several elements that make BERT so special for search and beyond (the World – yes, it is that big as a research foundation for natural language processing). Several of the special features can be found in BERT’s paper title – BERT: Bi-directional Encoder Representations from Transformers.

B – Bi-Directional

E – Encoder

R – Representations

T – Transformers

But there are other exciting developments BERT brings to the field of natural language understanding too.

These include:

  1. Pre-training from unlabelled text
  2. Bi-directional contextual models
  3. The use of a transformer architecture
  4. Masked language modeling
  5. Focused attention
  6. Textual entailment (next sentence prediction)
  7. Disambiguation through context open-sourced

Pre-training from unlabeled text

The ‘magic’ of BERT is its implementation of bi-directional training on an unlabelled corpus of text since for many years in the field of natural language understanding, text c ollections had been manually tagged up by teams of linguists assigning various parts of speech to each word.

BERT was the first natural language framework/architecture to be pre-trained using unsupervised learning on pure plain text (2.5 billion words+ from English Wikipedia) rather than labeled corpora.

Prior models had required manual labeling and the building of distributed representations of words (word embeddings and word vectors), or needed part of speech taggers to identify the different types of words present in a body of text. These past approaches are similar to the tagging we mentioned earlier by Google Pygmalion.

BERT learns language from understanding text cohesion from this large body of content in plain text and is then educated further by fine-tuning on smaller, more specific natural language tasks. BERT also self-learns over time too.

Bi-directional contextual models

BERT is the first deeply bi-directional natural language model, but what does this mean?

Bi-directional and uni-directional modeling

True contextual understanding comes from being able to see all the words in a sentence at the same time and understand how all of the words impact the context of the other words in the sentence too.

The part of speech a particular word belongs to can literally change as the sentence develops.

For example, although unlikely to be a query, if we take a spoken sentence which might well appear in natural conversation (albeit rarely):

“I like how you like that he likes that.”

as the sentence develops the part of speech which the word “like” relates to as the context builds around each mention of the word changes so that the word “like,” although textually is the same word, contextually is different parts of s peech dependent upon its place in the sentence or phrase.

Past natural language training models were trained in a uni-directional manner. Word’s meaning in a context window moved along from either left to right or right to left with a given number of words around the target word (the word’s context or “it’s company”). This meant words not yet seen in context cannot be taken into consideration in a sentence and they might actually change the meaning of other words in natural language. Uni-directional moving context windows, therefore, have the potential to miss some important changing contexts.

For example, in the sentence:

“Dawn, how are you?”

The word “are” might be the target word and the left context of “are” is “Dawn, how.”  The right context of the word is “you.”

BERT is able to look at both sides of a target word and the whole sentence simultaneously in the way that humans look at the whole context of a sentence rather than looking at only a part of it. The whole sentence, both left and right of a target word can be considered in the context simultaneously.

Transformers / Transformer architecture

Most tasks in natural language understanding are built on probability predictions. What is the likelihood that this sentence relates to the next sentence, or what is the likelihood that this word is part of that sentence? BERT’s architecture and masked language modeling prediction systems are partly designed to identify ambiguous words that change the meanings of sentences and phrases and identify the correct one. Learnings are carried forward increasingly by BERT’s systems.

The Transformer uses fixation on words in the context of all of the other words in sentences or phrases without which the sentence could be ambiguous.

This fixated attention comes from a paper called ‘Attention is all you need’ (Vaswani et al, 2017), published a year earlier than the BERT research paper, with the transformer application then built into the BERT research.

Essentially, BERT is able to look at all the context in text-cohesion by focusing attention on a given word in a sentence whilst also identifying all of the context of the other words in relation to the word. This is achieved simultaneously using transformers combined with bi-directional pre-training.

This helps with a number of long-standing linguistic challenges for natural language understanding, including coreference resolution. This is because entities can be focused on in a sentence as a target word and their pronouns or the noun-phrases referencing them resolved back to the entity or entities in the sentence or phrase.

In this way the concepts and context of who, or what, a particular sentence is relating to specifically, is not lost along the way.

Furthermore, the focused attention also helps with the disambiguation of polysemous words and homonyms by utilizing a probability prediction / weight based on the whole context of the word in context with all of the other words in the sentence. The other words are given a weighted attention score to indicate how much each adds to the context of the target word as a representation of “meaning.” Words in a sentence about the “bank” which add strong disambiguating context such as “deposit” would be given more weight in a sentence about the “bank” (financial institute) to resolve the representational context to that of a financial institute.

The encoder representations part of the BERT name is part of the transformer architecture. The encoder is the sentence input translated to representations of words meaning and the decoder is the processed text output in a contextualized form.

In the image below we can see that ‘it’ is strongly being connected with “the” and “animal” to resolve back the reference to “the animal” as “it” as a resolution of anaphora.

This fixation also helps with the changing “part of speech” a word’s order in a sentence could have since we know that the same word can be different parts of speech depending upon its context.

The example provided by Google below illustrates the importance of different parts of speech and word category disambiguation. Whilst a tiny word, the word ‘to’ here changes the meaning of the query altogether once it is taken into consideration in the full context of the phrase or sentence.

Masked Language Modelling (MLM Training)

Also known as “the Cloze Procedure,” which has been around for a very long time. The BERT architecture analyzes sentences with some words randomly masked out and attempts to correctly predict what the “hidden” word is.

The purpose of this is to prevent target words in the training process passing through the BERT transformer architecture from inadvertently seeing themselves during bi-directional training when all of the words are looked at together for combined context. Ie. it avoids a type of erroneous infinite loop in natural language machine learning, which would skew word’s meaning.

Textual entailment (next sentence prediction)

One of the major innovations of BERT is that it is supposed to be able to predict what you’re going to say next, or as the New York Times phrased it in Oct 2018, “Finally, a machine that can finish your sentences.”

BERT is trained to predict from pairs of sentences whether the second sentence provided is the right fit from a corpus of text.

NB: It seems this feature during the past year was deemed as unreliable in the original BERT model and other open-source offerings have been built to resolve this weakness. Google’s ALBERT resolves this issue.

Textual entailment is a type of “what comes next?” in a body of text. In addition to textual entailment, the concept is also known as ‘next sentence prediction’. Textual entailment is a natural language processing task involving pairs of sentences. The first sentence is analyzed and then a level of confidence determined to predict whether a given second hypothesized sentence in the pair “fits” logically as the suitable next sentence, or not, with either a positive, negative, or neutral prediction, from a text collection under scrutiny.

Three examples from Wikipedia of each type of textual entailment prediction (neutral / positive / negative) are below. Textual Entailment Examples (Source: Wikipedia)

An example of a positive TE (text entails hypothesis) is:

text: If you help the needy, God will reward you.

hypothesis: Giving money to a poor man has good consequences.

An example of a negative TE (text contradicts hypothesis) is:

text: If you help the needy, God will reward you.

hypothesis: Giving money to a poor man has no consequences.

An example of a non-TE (text does not entail nor contradict) is:

text: If you help the needy, God will reward you.

hypothesis: Giving money to a poor man will make you a better person.

Disambiguation breakthroughs from open-sourced contributions

BERT has not just appeared from thin air, and BERT is no ordinary algorithmic update either since BERT is also an open-source natural language understanding framework as well.

Ground-breaking “disambiguation from context empowered by open-sourced contributions,” could be used to summarise BERT’s main value add to natural language understanding. In addition to being the biggest change to Google’s search system in five years (or ever), BERT also represents probably the biggest leap forward in growing contextual understanding of natural language by computers of all time.

Whilst Google BERT may be new to the SEO world it is well known in the NLU world generally and has caused much excitement over the past 12 months. BERT has provided a hockey stick improvement across many types of natural language understanding tasks not just for Google, but a myriad of both industrial and academic researchers seeking to utilize language understanding in their work, and even commercial applications.

After the publication of the BERT research paper, Google announced they would be open-sourcing vanilla BERT. In the 12 months since publication alone, the original BERT paper has been cited in further research 1,997 times at the date of writing.

There are many different types of BERT models now in existence, going well beyond the confines of Google Search.

A search for Google BERT in Google Scholar returns hundreds of 2019 published research paper entries extending on BERT in a myriad of ways, with BERT now being used in all manner of research into natural language.

Research papers traverse an eclectic mix of language tasks, domain verticals (for example clinical fields), media types (video, images) and across multiple languages. BERT’s use cases are far-reaching, from identifying offensive tweets using BERT and SVMs to using BERT and CNNs for Russian Troll Detection on Reddit, to categorizing via prediction movies according to sentiment analysis from IMDB, or predicting the next sentence in a question and answer pair as part of a dataset.

Through this open-source approach, BERT goes a long way toward solving some long-standing linguistic problems in research, by simply providing a strong foundation to fine-tune from for anyone with a mind to do so. The codebase is downloadable from the Google Research Team’s Github page.

By providing Vanilla BERT as a great ‘starter for ten’ springboard for machine learning enthusiasts to build upon, Google has helped to push the boundaries of State of the art (SOTA) natural language understanding tasks. Vanilla BERT can be likened to a CMS plugins, theme, or module which provides a strong foundation for a particular functionality but can then be developed further. Another simpler similarity might be likening the pre-training and fine-tuning parts of BERT for machine learning engineers to buying an off-the-peg suit from a high street store then visiting a tailor to turn up the hems so it is fit for purpose at a more unique needs level.

As Vanilla BERT comes pre-trained (on Wikipedia and Brown corpus), researchers need only fine-tune their own models and additional parameters on top of the already trained model in just a few epochs (loops / iterations through the training model with the new fine-tuned elements included).

At the time of BERT’s October 2018, paper publication BERT beat state of the art (SOTA) benchmarks across 11 different types of natural language understanding tasks, including question and answering, sentiment analysis, named entity determination, sentiment classification and analysis, sentence pair-matching and natural language inference.

Furthermore, BERT may have started as the state-of-the-art natu ral language framework but very quickly other researchers, including some from other huge AI-focused companies such as Microsoft, IBM and Facebook, have taken BERT and extended upon it to produce their own record-beating open-source contributions. Subsequently, models other than BERT have become state of the art since BERT’s release.

Facebook’s Liu et al entered the BERTathon with their own version extending upon BERT – RoBERTa. claiming the original BERT was significantly undertrained and professing to have improved upon, and beaten, any other model versions of BERT up to that point.

Microsoft also beat the original BERT with MT-DNN, extending upon a model they proposed in 2015 but adding on the bi-directional pre-training architecture of BERT to improve further.

There are many other BERT-based models too, including Google’s own XLNet and ALBERT (Toyota and Google), IBM’s BERT-mtl, and even now Google T5 emerging.

The field is fiercely competitive and NLU machine learning engineer teams compete with both each other and non-expert human understanding benchmarks on public leaderboards, adding an element of gamification to the field.

Amongst the most popular leaderboards are the very competitive SQuAD, and GLUE.

SQuAD stands for The Stanford Question and Answering Dataset which is built from questions based on Wikipedia articles with answers provided by crowdworke rs.

The current SQuAD 2.0 version of the dataset is the second iteration created because SQuAD 1.1 was all but beaten by natural language researchers. The second-generation dataset, SQuAD 2.0 represented a harder dataset of questions, and also contained an intentional number of adversarial questions in the dataset  (questions for which there was no answer). The logic behind this adversarial question inclusion is intentional and designed to train models to learn to know what they do not know (i.e an unanswerable question).

GLUE is the General Language Understanding Evaluation dataset and leaderboard. SuperGLUE is the second generation of GLUE created because GLUE again became too easy for machine learning models to beat.

Most of the public leaderboards across the machine learning field double up as academic papers accompanied by rich question and answer datasets for competitors to fine-tune their models on. MS MARCO, for example, is an academic paper, dataset and accompanying leaderboard published by Microsoft; AKA Microsoft MAchine Reaching COmprehension Dataset.

The MSMARCO dataset is made up of over a million real Bing user queries and over 180,000 natural language answers. Any researchers can utilize this dataset to fine-tune models.

Efficiency and computational expense

Late 2018 through 2019 can be remembered as a year of furious public leaderboard leap-frogging to create the current state of the art natural language machine learning model.

As the race to reach the top of the various state of the art leaderboards heated up, so too did the size of the model’s machine learning engineers built and the number of parameters added based on the belief that more data increases the likelihood for more accuracy. However as model sizes grew so did the size of resources needed for fine-tuning and further training, which was clearly an unsustainable open-source path.

Victor Sanh, of Hugging Face (an organization seeking to promote the continuing democracy of AI) writes, on the subject of the drastically increasing sizes of new models:

“The latest model from Nvidia has 8.3 billion parameters: 24 times larger than BERT-large, 5 times larger than GPT-2, while RoBERTa, the latest work from Facebook AI, was trained on 160GB of text 😵”

To illustrate the original BERT sizes – BERT-Base and BERT-Large, with 3 times the number of parameters of BERT-Base.

BERTBaseCased : 12-layer, 768-hidden, 12-heads , 110M parameters. BERTLargeCased : 24-layer, 1024-hidden, 16-heads, 340M parameters.

Escalating costs and data sizes meant some more efficient, less computationally and financially expensive models needed to be built.

Welcome Google ALBERT, Hugging Face DistilBERT and FastBERT

Google’s ALBERT, was released in September 2019 and is a joint work between Google AI and Toyota’s research team. ALBERT is considered BERT’s natural successor since it also achieves state of the art scores across a number of natural language processing tasks but is able to achieve these in a much more efficient and less computationally expensive manner.

Large ALBERT has 18 times fewer parameters than BERT-Large. One of the main standout innovations with ALBERT over BERT is also a fix of a next-sentence prediction task which proved to be unreliable as BERT came under scrutiny in the open-source space throughout the course of the year.

We can see here at the time of writing, on SQuAD 2.0 that ALBERT is the current SOTA model leading the way. ALBERT is faster and leaner than the original BERT and also achieves State of the Art (SOTA) on a number of natural language processing tasks.

Other efficiency and budget focused, scaled-down BERT type models recently introduced are DistilBERT, purporting to be smaller, lighter, cheaper and faster, and FastBERT.

So, what does BERT mean for SEO?

BERT may be known among SEOs as an algorithmic update, but in reality, it is more “the application” of a multi-layer system that understands polysemous nuance and is better able to resolve co-references about “things” in natural language continually fine-tuning through self-learning.

The whole purpose of BERT is to improve human language understanding for machines. In a search perspective this could be in written or spoken queries issued by search engine users, and in the content search engines gather and index. BERT in search is mostly about resolving linguistic ambiguity in natural language. BERT provides text-cohesion which comes from often the small details in a sentence that provides structure and meaning.

BERT is not an algorithmic update like Penguin or Panda since BERT does not judge web pages either negatively or positively, but more improves the understanding of human language for Google search. As a result, Google understands much more about the meaning of content on pages it comes across and also the queries users issue taking word’s full context into consideration.

BERT is about sentences and phrases

Ambiguity is not at a word level, but at a sentence level, since it is about the combination of words with multiple meanings which cause ambiguity.

BERT helps with polysemic resolution

Google BERT helps Google search to understand “text-cohesion” and disambiguate in phrases and sentences, particularly where polysemic nuances could change the contextual meaning of words.

In particular, the nuance of polysemous words and homonyms with multiple meanings, such as ‘to’, ‘two’, ‘to’, and ‘stand’ and ‘stand’, as provided in the Google examples, illustrate the nuance which had previously been missed, or misinterpreted, in search.

Ambiguous and nuanced queries impacted

The 10% of search queries whic h BERT will impact may be very nuanced ones impacted by the improved contextual glue of text cohesion and disambiguation. Furthermore, this might well impact understanding even more of the 15% of new queries which Google sees every day, many of which relate to real-world events and burstiness / temporal queries rather than simply long-tailed queries.

Recall and precision impacted (impressions?)

Precision in ambiguous query meeting will likely be greatly improved which may mean query expansion and relaxation to include more results (recall) may be reduced.

Precision is a measure of result quality, whereas recall simply relates to return any pages which may be relevant to a query.

We may see this reduction in recall reflected in the number of impressions we see in Google Search Console, particularly for pages with long-form content which might currently be in recall for queries they are not particularly relevant for.

BERT will help with coreference resolution

BERT(the research paper and language model)’s capabilities with coreference resolution means t he Google algorithm likely helps Google Search to keep track of entities when pronouns and noun-phrases refer to them.

BERT’s attention mechanism is able to focus on the entity under focus and resolve all references in sentences and phrases back to that using a probability determination / score.

Pronouns of “he,” “she,” “they,” “it” and so forth will be much easier for Google to map back in both content and queries, spoken and in written text.

This may be particularly important for longer paragraphs with multiple entities referenced in text for featured snippet generation and voice search answer extraction / conversational search.

BERT serves a multitude of purposes

Google BERT is probably what could be considered a Swiss army knife type of tool for Google Search.

BERT provides a solid linguistic foundation for Google search to continually tweak and adjust weights and parameters since there are many different types of natural language understanding tasks that could be undertaken.

Tasks may include:

  • Coreference resolution (keeping track of who, or what, a sentence or phrase refers to in context or an extensive conversational query)
  • Polysemy resolution (dealing with ambiguous nuance)
  • Homonym resolution (dealing with understanding words which sound the same, but mean different things
  • Named entity determination (understanding which, from a number of named entities, text relates to since named entity recognition is not named entity determination or disambiguation), or one of many other tasks.
  • Textual entailment (next sentence prediction)

BERT will be huge for conversational search and assistant

Expect a quantum leap forward in terms of relevance matching to conversational search as Google’s in-practice model continues to teach itself with more queries and sentence pairs.

It’s likely these quantum leaps will not just be in the English language, but very soon, in international languages too since there is a feed-forward learning element within BERT that seems to transfer to other languages.

BERT will likely help Google to scale conversational search

Expect over the short to medium term a quantum leap forward in application to voice search however since the heavy lifting of building out the language understanding held back by Pygmalion’s manual process could be no more.

The earlier referenced 2016 Wired article concluded with a definition of AI automated, unsupervised learning which might replace Google Pygm alion and create a scalable approach to train neural nets:

“This is when machines learn from unlabeled data – massive amounts of digital information culled from the internet and other sources.”

(Wired, 2016) 

This sounds like Google BERT.

We also know featured snippets were being created by Pygmalion too.

While it is unclear whether BERT will have an impact on Pygmalion’s presence and workload, nor if featured snippets will be generated in the same way as previously, Google has announced BERT will be used for featured snippets and is pre-trained on purely a large text corpus.

Furthermore, the self-learning nature of a BERT type foundation continually fed queries and retrieving responses and featured snippets will naturally pass the learnings forward and become even more fine-tuned.

BERT, therefore, could provide a potentially, hugely scalable alternative to the laborious work of Pygmalion.

International SE O may benefit dramatically too

One of the major impacts of BERT could be in the area of international search since the learnings BERT picks up in one language seem to have some transferable value to other languages and domains too.

Out of the box, BERT appears to have some multi-lingual properties somehow derived from a monolingual (single language understanding) corpora and then extended to 104 languages, in the form of M-BERT (Multilingual BERT).

A paper by Pires, Schlinger & Garrette tested the multilingual capabilities of Multilingual BERT and found that it “surprisingly good at zero-shot cross-lingual model transfer.” (Pires, Schlinger & Garrette, 2019). This is almost akin to being able to understand a language you have never seen before since zero-shot learning aims to help machines categorize objects that they have never seen before.

Questions and answers

Question and answering directly in SERPs will likely continue to get more accurate which could lead to a further reduction in click through to sites.

In the same way MSMARCO is used for fine-tuning and is a real dataset of human questions and answers from Bing users, Google will likely continue to fine-tune its model in real-life search over time through real user human queries and answers feeding forward learnings.

As language continues to be understood paraphrase understanding improved by Google BERT might also impact related queries in “People Also Ask.”

Textual entailment (next sentence prediction)

The back and forth of conversational search, and multi-turn question and answering for assistant will also likely benefit co nsiderably from BERT’s ‘textual entailment’ (next sentence prediction) feature, particularly the ability to predict “what comes next” in a query exchange scenario. However, this might not seem apparent as quickly as some of the initial BERT impacts.

Furthermore, since BERT can understand different meanings for the same things in sentences, aligning queries formulated in one way and resolving them to answers which amount to the same thing will be much easier.

I asked Dr. Mohammad Aliannejadi about the value BERT provides for conversational search research. Dr. Aliannejadi is an information retrieval researcher who recently defended his Ph.D. research work on conversational search, supervised by Professor Fabio Crestanione of the authors of “Mobile information retrieval.”

Part of Dr. Aliannejadi’s research work explored the effects of asking clarifying questions for conversational assistants, and utilized BERT within its methodology.

Dr. Aliannejadi spoke of BERT’s value:

“BERT represents the whole sentence, and so it is representing the context of the sentence and can model the semantic relationship between two sentences. The other powerful feature is the ability to fine-tune it in just a few epochs. So, you have a general tool and then make it specific to your problem.”

Named entity determination

One of the natural language processing tasks undertaken by the likes of a fine-tuned BERT model could be entity determination. Entity determination is deciding the probability that a particular named entity is being referred to from more than one choice of named entity with the same name.

Named entity recognition is not named entity disambiguation nor named entity determination.

In an AMA on Reddit Google’s Gary Illyes confirmed that unlinked mentions of brand names can be used for this named entity determination purpose currently.

BERT will assist with understanding when a named entity is recognized but could be one of a number of named entities with the same name as each other.

An example of multiple named entities with the same name is in the example below. Whilst these entities may be recognized by their name they need to be disambiguated one from the other. Potentially an area BERT can help with.

We can see from a search in Wikipedia below the word “Harris” returns many named entities called “Harris.”

BERT could be BERT by name, but not by nature

It is not clear whether the Google BERT update uses the original BERT or the much leaner and inexpensive ALBERT, or another hybrid variant of the many models now available, but since ALBERT can be fine-tuned with far fewer parameters than BERT this might make sense.

This could well mean the algorithm BERT in practice may not look very much at all like the original BERT in the first published paper, but a more recent improved version which looks much more like the (also open-sourced) engineering efforts of others aiming to build the latest SOTA models.

BERT may be a completely re-engineered large scale production version, or a more computationally inexpensive and improved version of BERT, such as the joint work of Toyota and Google, ALBERT.[19659003]Furthermore, BERT may continue to evolve into other models since Google T5 Team also now has a model on the public SuperGLUE leaderboards called simply T5.

BERT may be BERT in name, but not in nature.

Can you optimize your SEO for BERT?

Probably not.

The inner workings of BERT are complex and multi-layered. So much so, there is now even a field of study called “Bertology” which has been created by the team at Hugging Face.

It is highly unlikely any search engineer questioned could explain the reasons why something like BERT would make the decisions it does with regards to rankings (or anything).

Furthermore, since BERT can be fine-tuned across parameters and multiple weights then self-learns in an unsupervised feed-forward fashion, in a continual loop, it is considered a black-box algorithm. A form of unexplainable AI.

BERT is thought to not always know why it makes decisions itself. How are SEOs then expected to try to “optimize” for it?

BERT is designed to understand natural language so keep it natural.

We should continue to create compelling, engaging, informative and well-structured content and website architectures in the same way you would write, and build sites, for humans.

The improvements are on the search engine side of things and are a positive rather than a negative.

Google simply got better at understanding the contextual glue provided by text cohesion in sentences and phrases combined and will become increasingly better at understanding the nuances as BERT self-learns.

Search engines still have a long way to go

Search engines still have a long way to go and BERT is only a part of that improvement along the way, particularly since a word’s context is not the same as search engine user’s context, or sequential informational needs which are infinitely more challenging problems.

SEOs s till have a lot of work to do to help search engine users find their way and help to meet the right informational need at the right time.


Opinions expressed in this article are those of the guest author and not necessarily Search Engine Land. Staff authors are listed here.


About The Author

Dawn Anderson is a SEO & Search Digital Marketing Strategist focusing on technical, architectural and database-driven SEO. Dawn is the director of Move It Marketing.