مؤخّرا كانت هناك أنباء خطيرة عن تسرّب وثائق داخليّة لواجهة برمجة تطبيقات "Content Warehouse API" لبحث جوجل. وهذا نبأ صحيح، تماما مثل ما حصل من تسرّب لبيانات محرّك بحث يانديكس الرُّوسي قبل سنة تقريبا.
لستُ ماهرا بالأمور البرمجيّة، لكن من خلال ما قرأتُه وفهمتُه، تبيّن أنّه تمّ نشر إصدار داخليّ من الوثائق الخاصّة بـ"Document AI Warehouse" -المهمَلة- بشكل علنيّ عن طريق الخطإ في مستودع التّعليمات البرمجيّة لمكتب العميل.
تمّ اكتشاف هذا الرّمز -الذي تمّ نشره عن طريق الخطإ- بواسطة خدمة توثيق آليّة خارجيّة. حيث ضمّ -الرّمز- أكثر من 14.000 سمة من سمات التّصنيف و2596 وحدة ممثّلة في وثائق API.
ترتبط الوحدات بمكونات يوتيوب والمساعِد الصّوتي وكتب جوجل وبحث الفيديو والرّوابط ومستندات الويب والبنية التّحتيّة للزّحف ونظام تقويم الداخلي وواجهة برمجة تطبيقات People. تماما مثل محرّك بحث يانديكس، تعمل أنظمة جوجل على مستودع متجانس (أو "monorepo") وتعمل الأجهزة في بيئة مشتركة. وهذا يعني أنه يتمّ تخزين كافّة التّعليمات البرمجيّة في مكان واحد ويمكن لأي جهاز على الشبكة أن يكون جزءا من أي من أنظمة جوجل.
توضح الوثائق المسرَّبة كل وحدة من وحدات واجهة برمجة التطبيقات (API) وتقسِّمها إلى ملخّصات وأنواع ووظائف وسمات. معظم ما ننظر إليه هو تعريفات الخصائص لمختلف المخازن المؤقتة للبروتوكول (أو protobufs) التي يمكن الوصول إليها عبر أنظمة التصنيف لإنشاء SERPs (صفحات نتائج محرك البحث - وهو ما يعرضه جوجل للباحثين بعد قيامهم بإجراء بحث بواسطة استعلام بحث).
وقبل البدء في سرد بعض مما تضمّنَته الوثائق المسرَّبة وما يقوله المحلّلون في مواقع إلكترونيّة موثوقة، فلنلق نظرة على كيف بدأ الأمر:
كيف بدأ الأمر ومن أين أتت الوثائق المسرَّبة؟
حسب ما ذكره "باتريك ستوكس" على مقال في مدوّنة ahrefs، فإنّ برنامج روبوت يُسمَّى "yoshi-code-bot" قام بتسريب المستندات المتعلقة بمستودع Content API على Github في 13 مارس 2024.
تمّ اكتشاف هذه الوثائق المسرَّبة من طرف "عرفان عظيمي - الرّئيس التّنفيذي ومدير تحسين محرّكات البحث في شركة - EA Eagle Digital. حيث شارَك فيديو على يوتيوب يتحدّث حول الموضوع بتاريخ 28 ماي 2024:
ويوم الأحد 5 ماي 2024 قام عرفان عظيمي بمشاركة الوثائق المسرَّبة مع "راند فيشكين -الرئيس التنفيذي والمؤسس المشارك لشركة Moz"، كما جاء في مقال نشره هذا الأخير بتاريخ 27 ماي 2024 بعنوان "مصدر مجهول شارك معي الآلاف من مستندات واجهة برمجة تطبيقات بحث جوجل المسربة؛ يجب على الجميع في SEO رؤيتهم":
بعد ذلك، قام راند فيشكين بمشاركة الوثائق المسرَّبة مع " مايك كينج - المؤسس والرئيس التنفيذي لشركة iPullRank" والذي شارك مقالا أيضا على الموقع الإلكتروني الرّسمي للشّركة تحت عنوان "أسرار من الخوارزمية: تسربت الوثائق الهندسية الداخلية لبحث جوجل":
ما معنى Document AI Warehouse
Document AI Warehouse عبارة عن نظام أساسي متكامل قائم على السّحابة لتخزين المستندات وبياناتها التّعريفيّة المنظمة والبحث فيها وتنظيمها وإدارتها وتحليلها (تسمى الخصائص). تتضمن المستندات منظمة (مثل النماذج والفواتير) وغير منظمة (مثل العقود والأوراق البحثية) وتتضمن خصائصها (بيانات التعريف) البيانات المستخرجة من الذكاء الاصطناعي من المستندات والعلامات المخصصة يدويًا أو المخصصة للذكاء الاصطناعي (على سبيل المثال، رقم الحساب، ومعرف القرض، ونوع المستند ).
ما يُمكن قوله من خلال الوثائق المسرَّبة؟
حسب ما جاء في مقال تمّ نشره على موقع "سيرش إينجين لاند" فإنّ ما يُمكن قوله عن هذه الوثائق المسرّبة ما يلي:
- الحداثة: حيث تشير الوثائق إلى أن هذه المعلومات دقيقة اعتبارًا من مارس 2024.
- ميزات التصنيف: يتم تمثيل 2.596 وحدة في وثائق API مع 14.014 سمة.
- التّرجيح: لم تحدد الوثائق كيفيّة ترجيح أي من ميزات التّصنيف - بل فقط أنها موجودة.
- Twiddlers: وفقا لـ"مايك كينج" هي وظائف إعادة الترتيب التي "يمكنها ضبط درجة استرجاع المعلومات للمستند أو تغيير ترتيب المستند".
- خفض التّرتيب: حسب الوثائق المسرَّبة، يمكن خفض ترتيب الصّفحة لعدة أسباب، مثل:
- الرابط لا يتطابق مع الموقع الإلكتروني المستهدَف.
- تشير إشارات "صفحة نتائج البحث" إلى عدم رضا المستخدِم.
- تعليقات المنتَج.
- الموقع الجغرافي.
- نطاقات المطابقة التامة.
- الإباحية.
- سجل التغيير: يبدو أن جوجل تحتفظ بنسخة من كل إصدار لكل صفحة قامت بفهرستها دائما. بمعنى أن جوجل يمكنها "تذكُّر" كل تغيِير تم إجراؤه على الصّفحة. ومع ذلك، تستخدم جوجل فقط آخر 20 تغييرا لعنوان URL عند تحليل الروابط.
- الروابط مهمة: تظهر الوثائق أن تنوُّع الرّبط وصلتها يظل أمرا أساسيا. ولا يزال نظام PageRank حيّا إلى حد كبير ضمن ميزات التصنيف في جوجل. يتم أخذ نظام تصنيف الصفحات للصفحة الرئيسية للموقع الإلكتروني في الاعتبار لكل مستند.
- النّقرات النّاجحة مهمّة: إذا كنت ترغب في الحصول على تصنيف جيد، فأنت بحاجة إلى الاستمرار في إنشاء محتوى رائع وتجربة مستخدم جيّدة، بناء على مستندات جوجل المسرَّبة. تستخدم جوجل مجموعة متنوعة من المقاييس، بما في ذلك النقرات السيئة (badClicks) والنقرات الجيدة (goodClicks) والنقرات الأطول الأخيرة (lastLongestClicks) والنقرات غير المسحقة (unsquashedClicks).
بالإضافة إلى ذلك، قد يتم اقتطاع المستندات الأطول، بينما يحصل المحتوى الأقصر على درجة (من 0 إلى 512) بناء على الأصالة. يتم أيضًا إعطاء النتائج لمحتوى أموالك أو حياتك، مثل الصحة والأخبار. كنتُ في الماضي قد كتبتُ على المدوّنة مقالا بعنوان "النّقرات الميّتة وموقعك الإلكتروني" وأعتقد أنّها ستثير انتباهك.
- العلامة التّجاريّة مهمّة: حسب فيشكين من خلال المستندات المسرَّبة العلامة التجارية مهمة أكثر من أي شيء آخر.
- الكيانات مهمة: تقوم جوجل بتخزين معلومات المؤلِّف المرتبطة بالمحتوى وتحاول تحديد ما إذا كان الكيان هو مؤلِّف المستنَد.
- سُلطَة الموقع الإلكتروني: تستخدم جوجل شيئًا يسمى "siteAuthority".
- بيانات متصفِّح كروم: تشير وحدة تسمى "ChromeInTotal" في المستندات المسرّبة إلى أن جوجل تستخدم البيانات من متصفح كروم الخّاص بها لترتيب الصّفحات على نتائج البحث.
- القوائم البيضاء: تشير وحدتان إلى قيام جوجل بإدراج نطاقات معينة تتعلق بالانتخابات وفيروس كورونا في القائمة البيضاء – "isElectionAuthority" و"isCovidLocalAuthority". على الرّغم من أنه من المعروف منذ فترة طويلة أن لدى جوجل (وبينج) "قوائم استثناءات" عندما "تؤثر خوارزميات معيَّنة على مواقع إلكترونيّة عن غير قصد".
- مواقع إلكترونيّة صغيرة: ميزة أخرى هي "SmallPersonalSite" – لموقع شخصي صغير أو مدونة. توقَّع "كينج" أن جوجل يمكنها تعزيز مثل هذه المواقع أو خفض ترتيبها عبر Twiddler.
من الأشياء الأخرى التي تمّ العثور عليها في وثائق جوجل المسرَّبة -والتي وجدها مثيرة للاهتمام، ما يُسمّى بـ"طبقة الفهرسة"، فعلى ما يبدو فإنّ فهرس جوجل مكوّن من طبقات.
وكما جاء في مقال"مايك كينج من أجل الحصول على خلفية سريعة، تم تقسيم فهرس جوجل إلى طبقات حيث:
- يتم تخزين المحتوى الأكثر أهمية والذي يتم تحديثه بانتظام والذي يمكن الوصول إليه في ذاكرة فلاش.
- يتم تخزين المحتوى الأقل أهمية على محركات الأقراص ذات الحالة الصلبة.
- يتم تخزين المحتوى الذي يتم تحديثه بشكل غير منتظم على محركات الأقراص الثابتة القياسيّة.
من ما يُلفت الانتباه أيضا:
- تأثير طبقة الفهرسة على قيمة الارتباط: وهو مقياس يسمى "sourceType" يُظهر علاقة فضفاضة بين طبقة فهرسة الصّفحة ومدى قيمتها.
أسماء جديدة
في ما يلي بعض من أسماء بعض البرامج الخاصّة بجوجل مقسّمة حسب الدّور:
- الزّحف
- Trawler: نظام الزحف على شبكة الإنترنت. يتميز بقائمة انتظار الزحف، ويحافظ على معدّلات الزّحف، ويفهم عدد مرّات تغيير الصفحات.
- الفهرسة
- Alexandria (الاسكندريّة) – نظام الفهرسة الأساسي.
- SegIndexer – النظام الذي يضع المستندات ذات الطبقات في طبقات داخل الفهرس.
- TeraGoogle – نظام فهرسة ثانوي للمستندات التي تبقى على القرص لفترة طويلة.
- الاستدعاء
- HtmlrenderWebkitHeadless – نظام عرض لصفحات جافاسكريبت. من الغريب أن يتم تسمية هذا باسم Webkit بدلا من Chromium. هناك ذِكر لـ Chromium في المستندات المسرّبَة، لذلك من المحتمل أن جوجل استخدمت WebKit في الأصل وأجرت التبديل بمجرد وصول Headless Chrome.
- المعالَجة
- LinkExtractor – يَستخرِج الروابط من الصفحات.
- WebMirror – نظام لإدارة العناوين الرّئيسيّة والمكرَّرة.
- التّصنيف
- Mustang - نظام التّقييم والتّصنيف والعرض الأساسي.
- Ascorer – خوارزمية التّصنيف الأساسيّة التي تقوم بترتيب الصّفحات قبل أيّ تعديلات لإعادة التّصنيف.
- NavBoost – نظام إعادة التّرتيب بناء على سجلات النّقرات لسلوك المستخدم.
- FreshnessTwiddler – نظام إعادة ترتيب المستندات على أساس الحَداثة.
- WebChooserScorer – يحدّد أسماء الميزات المستخدَمة في تسجيل المقتطفات.
- العرض
- Google Web Server – اختصارا GWS هو الخادم الذي تتفاعل معه الواجهة الأمامية لجوجل. يتلقى حمولات البيانات لعرضها للمستخدِم.
- SuperRoot – عقل بحث جوجل الذي يرسل الرسائل إلى خوادم جوجل ويدير نظام ما بعد المعالَجة لإعادة التّرتيب وعرض النّتائج.
- SnippetBrain – النّظام الذي يقوم بإنشاء مقتطفات للنّتائج.
- Glue – نظام تجميع النّتائج العالميّة باستخدام سلوك المستخدِم.
- Cookbook – نظام لتوليد الإشارات. هناك إشارة إلى أنه يتم إنشاء القِيَم في وقت التّشغيل.
المزيد من النّقاط المثيرة للاهتمام
طبعا ليس باستطاعتي الإشارة إلى كلّ ما جاء في الوثائق المسرّبة لجوجل أو كلّ ما يقوله المحلّلون، لكن إليك بعض ما وجدته مثيرا للاهتمام أيضا بخصوص الموضوع:
موثوقيّة الصّفحة الرّئيسيّة
تقرر جوجل كيفية تقييم الرابط بناء على مدى ثقتها في الصفحة الرئيسية:
أهمّيّة حجم الخطّ للمصطلحات والرّوابط
يُشكّل حجم خطّ المصطلحات والرّوابط فرقا أو على الأقلّ المحتوى المهمّ على الصّفحة كما جاء في وثائق جوجل المسرَّبة، وهذا تأكيد لشيئ كان بمثابة إشاعة في وقت غير بعيد، على الأقلّ عندما كتبتُ حوله في المدوّنة مقالا بعنوان "الكتابة بخطّ غامق: كيفية استخدامها لتحسين ترتيب محتواك" والآخر بعنوان "جوجل: رغم تشابههما، متى تستخدم سمة الخطّ القوي <strong> ومتى تستخدم سمة الخطّ الغليظ <b> لتحسين محركات البحث":
قياس عناوين الصفحات مقابل الاستعلامات
تشير الوثائق المسرّبة إلى وجود "titlematchScore" حيث يشير الوصف إلى أن مدى تطابق عنوان الصفحة مع الاستعلام لا يزال شيئا تعطيه جوجل قيمة.
عدم وجود مقاييس لعدد الأحرف
مقياس عدد الأحرف الوحيد الذي عُثر عليه في الوثائق المسرّبة هو "snippetPrefixCharCount" الذي يبدو أنه تم تعيينه لتحديد ما يمكن استخدامه كجزء من المقتطف. وهذا دليل آخر على أنّ عدد الكلمات ليس معيارا لمدى جودة الصّفحةعدد الكلمات ليس معيارا لمدى جودة الصّفحة
التّواريخ مهمّة للغاية
تركِّز جوجل بشكل كبير على النتائج الجديدة وتوضّح المستندات التي تسرّبت محاولات جوجل العديدة لربط التواريخ بالصفحات:
- bylineDate – هذا هو التاريخ المحدد بشكل واضح على الصفحة.
- SyntacticDate – هذا هو التاريخ المستخرج من عنوان URL أو في العنوان..
- semanticDate – هذا هو التاريخ المشتق من محتوى الصفحة.
تخزين معلومات تسجيل النطاق حول الصفحات
تحدّث الكثير من الأشخاص حول هذا الموضوع في الماضي كنوع من الإشاعة، ويبدو أنّ هذا حقيقيّ، حيث يتمّ تخزين معلومات تسجيل النّطاق حول الصّفحة.
التعامل مع المواقع التي تركز على الفيديو بشكل مختلف
إذا كانت أكثر من %50 من صفحات الموقع الإلكتروني تحتوي على فيديو، فسيتم اعتبار الموقع يركِّز على الفيديو وسيتمّ التّعامل معه بشكل مختلف.
مصنِّفات أموالك أو حياتك
تشير الوثائق المسرّبة إلى أن جوجل لديها مصنِّفات تولد نتائج لمواضيع أموالك أو حياتك الصّحّيّة ومواضيع أموالك او حياتك للأخبار. مزيدا من المعلومات حول مواضيع أموالك أو حياتك.
مقاييس ذهبيّة للوثائق
ليس هناك ما يشير إلى ما يعنيه هذا، ولكن الوصف يذكر "المستندات التي تحمل علامة بشرية" مقابل "التّعليقات التوضيحية التي تحمل علامة تلقائية". أتساءل عما إذا كانت هذه وظيفة تقييمات الجودة، لكن جوجل تقول إن تقييمات الجودة لا تؤثر على التصنيف. لذلك، قد لا نعرف أبدًا.
بعض ما تسرَّب حول البريد العشوائي
- gibberishScores: يشير هذا إلى المحتوى المغزول ومحتوى الذّكاء الاصطناعي الحَشوِيّ والهُراء المباشر.
- phraseAnchorSpamPenalty: عقوبة مشتركة لخفض رتبة نصّ الارتباط. هذا ليس تخفيض ارتباط أو تخفيض السّلطة. هذا هو تخفيض النتيجة المرتبطة على وجه التحديد بنصّ الارتباط. نصوص الارتباط لديها قدر كبير من الأهمية. مزيدا من النّصائح حول نصوص الارتباط.
- TrendSpam: بحسب آندريو آنسلي، يتمحور هذا الأمر حول التّلاعب في نسبة النقر إلى الظهور. "عدد استعلامات البريد العشوائي المطابقة للاتجاه."
- KeywordStuffingScore: كما يبدو، هذه نتيجة لحشو الكلمات الرّئيسية غير المرغوب فيها.
- spamBrainTotalDocSpamScore: درجة البريد العشوائي التي تمّ تحديدها من خلال نظام ترتيب سبام براين الذي ينتقل من 0 إلى 1.
- spamRank: يقيس احتماليّة ارتباط الصّفحة بمرسلي البريد العشوائي المعروفين. القيمة هي 0 و65535.
- spamWordScore: من الواضح أن بعض الكلمات غير مرغوب فيها.
ردّ جوجل بخصوص البيانات المسرَّبة
لم تَردّ جوجل على العناصر المحدّدة في الوثائق التي تسرّبت حفاظا على أمان أنظمة التّصنيف الخاصّة بها، غير أنّه كان هناك تواصل بينها وبين موقع سيرش إينجين لاند، حيث قالت أنه يتم نشر الكثير من الافتراضات، خارج السياق، بناء على معلومات غير كاملة من تسرُّب البيانات.
أضافت جوجل أيضا أن إشارات تصنيف البحث تتغير باستمرار. هذا لا يعني أن مبادئ تصنيفات جوجل الأساسية تتغيّر -فهي لا تتغيّر- لكن الإشارات المحدّدة والفردية التي تدخل في تصنيفات جوجل تتغيَّر بالفعل، حسبما ذكرت جوجل.
ولقد أرسل متحدّث باسم جوجل البيان الآتي إلى الموقع السّالف الذّكر:
"نحن نحذِّر من تقديم افتراضات غير دقيقة حول البحث استنادا إلى معلومات خارج السّياق أو قديمة أو غير كاملة. لقد شاركنا معلومات شاملة حول كيفية عمل البحث وأنواع العوامل التي تقيسها أنظمتنا، بينما نعمل أيضا على حماية سلامة نتائجنا من التلاعب.
آثار هذا التسرُّب
- زيادة الشفافية: يُساعد تسرّب الوثائق على زيادة الشفافية حول كيفية عمل محرك بحث جوجل، ممّا قد يُفيد مُحسّني محركات البحث في تحسين استراتيجياتهم.
- مخاوف الخصوصية: قد تُثير مشاركة البيانات الشخصية في الوثائق مخاوف بشأن خصوصية المستخدمين.
- التركيز المتجدّد على جودة المحتوى: قد يُؤدّي تسليط الضوء على العوامل المتعلّقة بجودة المحتوى إلى تركيز مُحسّني محركات البحث بشكل أكبر على إنشاء محتوى ذي قيمة للمستخدمين.
خلاصة الأمر
يُمكن استخلاص بعض النقاط المهمّة من هذا التسرُّب:
- لا تزال الروابط مهمّة حيث تُشير الوثائق إلى أنّ تنوّع الروابط وارتباطها لا يزالان عنصرين هامّين في ترتيب جوجل للصفحات.
- المحتوى ذو الجودة العالية يهمّ إذ تُؤكّد الوثائق المسرَّبة على أهميّة المحتوى ذي الجودة العالية، بما في ذلك تجربة المستخدم الجيّدة، لجذب النقرات والاحتفاظ بها.
- تُستخدم إشارات متنوعة وليس إشارة واحدة، بحيث تأخذ جوجل بعين الاعتبار مجموعة واسعة من الإشارات لترتيب الصفحات، بما في ذلك سلوك المستخدم، وسمات الصفحة، وتاريخها، وموقعها الجغرافي.
- يتمّ تحديث الخوارزميات باستمرار إذ تُشير جوجل إلى أنّ إشارات التصنيف تتغيّر باستمرار، ممّا يعني أنّ مُحسّني محركات البحث بحاجة إلى التكيّف مع التطورات الجديدة.
بشكل عام: إنّ تسرُّب وثائق جوجل الداخلية حدث هامّ يُقدّم معلومات قيّمة حول آليات عمل محرك بحث جوجل. بينما يجب التعامل مع بعض المعلومات بحذر، تُقدّم الوثائق نظرة ثاقبة على العوامل التي تؤثّر على ترتيب نتائج البحث، ممّا قد يُفيد مُحسّني محركات البحث في تحسين استراتيجياتهم.
_______
مصادر ومراجِع (بالإنجليزيّة):
- تسربت وثائق جوجل ومُحسني محركات البحث (SEO) يقومون ببعض الافتراضات الجامحة
- مصدر مجهول شارك معي الآلاف من مستندات واجهة برمجة تطبيقات بحث جوجل المسربة
- أسرار من الخوارزمية: تسربت الوثائق الهندسية الداخلية لبحث جوجل
- يكشف تسرب ضخم لمستندات بحث جوجل عن الأعمال الداخلية لخوارزمية التصنيف
- تفريغ وثائق البحث الضخمة من جوجل
- جوجل ترد على التسرب: التوثيق يفتقر إلى السياق
- توثيق نظرة عامة على مستودع الذكاء الاصطناعي
- مرجع واجهة برمجة التطبيقات
- ما هو كود جوجل المسرب هذا؟ التنقيب في مستندات API
هل ترغب في تنزيل جدول بيانات يضمّ 14.000 من ميزات ترتيب بحث جوجل؟ يُمكنك الانتقال إلى مناقشة تسرب وثائق جوجل جوجل أو ملفّ منظَّم لهذه البياناتملفّ منظَّم لهذه البيانات على منتدى الدّعم العَربي.
في حال كانت لديك أسئلة أو كنت بحاجة لمناقشة الموضوع، لا تتردّد في مشاركتها في التّعليقات، نشر منشور في مجموعة جوجل سيرش كونسول بالعَربي أو طرح سؤال في منتدى مساعدة مجموعة خدمات بحث جوجل.
ليست هناك تعليقات
إرسال تعليق
شارك رأيك مع مدوّنة الدّعم العَربي! يرجى الالتزام بقواعد التعليقات. التعليقات التي تحتوي على إساءة أو تشهير أو دعاية أو محتوى مسيء لن يتم نشرها بعد المراجعة اليدويّة.