
تكنلوجيا اليوم
2025-10-01 08:30:00
يُعرف الكاتب الإنجليزي الراحل دوغلاس آدمز كمؤلف كتاب 1979 دليل Hitchhiker إلى المجرة. ولكن هناك ما هو أكثر بكثير لآدمز مما هو مكتوب في دخول ويكيبيديا. سواء كنت أم لا يحتاج لنعرف أن له علامة الولادة هو الحوت أو تلك المكتبات في جميع أنحاء العالم تخزن كتبه تحت نفس سلسلة الأرقام – 13230702 – أنت يستطيع إذا توجهت إلى الزاوية التي تم التغاضي عنها من مؤسسة ويكيميديا تسمى ويكيداتا.
هناك ، يتم تخزين الصور والنصوص والكلمات الرئيسية وغيرها من المعلومات المتعلقة بـ Adams على حد سواء في أ صفحة على الإنترنت وبالنسبة للروبوتات بيننا ، بتنسيقات مصممة لآلات مثل جيسون.
الآن ، تحصل Wikidata على قاعدة بيانات جديدة صديقة للانعدام منظمة العفو الدولية تجعل من السهل على نماذج اللغة الكبيرة تناول المعلومات. قاعدة البيانات تأتي من مشروع تضمين ويكيبيديا من الفصل الألماني لمؤسسة ويكيميديا ، ويكيميديا دويتشلاند ، التي تشرف على ويكيداتا. أمضى الفريق الذي يتخذ من برلين مقراً له في العام الماضي باستخدام نموذج لغة كبير لتحويل الـ 19 مليون مشاركة داخل ويكيداتا من البيانات المنظمة بشكل كامل إلى متجهات تلتقط السياق والمعنى حول إدخال ويكيداتا.
في هذا التنسيق المتجه ، من الأفضل أن تتخيل المعلومات مثل الرسم البياني مع النقاط والخطوط المترابطة – سيكون آدمز مرتبطًا بـ “الإنسان” وكذلك عناوين كتبه ، ليديا بينتشر ، ويكيداتا. حرية.
في حين أن تجربة المستخدم في الواجهة الأمامية ستبقى كما هي-لا ، ويكيبيديا لا يقول قادة المشروع ، إن النهاية الخلفية ستصبح أسهل لمطوري الذكاء الاصطناعي للوصول عند بناء ، على سبيل المثال ، chatbots الخاصة بهم باستخدام البيانات.
وقال بينتشر إن الهدف من المشروع هو تسوية الملعب لمطوري الذكاء الاصطناعى خارج جوهر Monied Massive Tech. لدى شركات مثل Openai و Anthropic الموارد اللازمة لتجاوز Wikidata ، تمامًا مثل Pintscher وفريقها. إنها الملابس الأصغر التي تستفيد أكثر من الوصول الجديد إلى البيانات المنسقة المخزنة في قبو ويكيداتا. “حقًا ، بالنسبة لي ، يتعلق الأمر بمنحهم هذه الحافة ولمنحهم على الأقل فرصة ، أليس كذلك؟” قال بينتشر.
تشير إلى الحكام كمثال على ذلك ، قام مشروع تسخير بيانات Wikidata الواسعة برعاية المتطوعين من أجل الخير. يتيح النظام الأساسي للمستخدمين العثور على مقابض وسائل التواصل الاجتماعي ورسائل البريد الإلكتروني للمسؤولين الحكوميين في جميع أنحاء العالم.
يعطي معظم AI chatbots الأولوية للكلمات والمواضيع الشائعة عبر الإنترنت. بالإضافة إلى إعطاء القليل من التقنية ، يأمل الفريق أن يؤدي الوصول إلى ويكيداتا إلى أنظمة الذكاء الاصطناعى التي تعكس بشكل أفضل موضوعات متخصصة لا تمثلها على نطاق واسع عبر الإنترنت ، كما قال بينتشر. وقال بينتشر: “قد تكون هذه طريقة أفضل لإدخال المعلومات في chatgpt ، على سبيل المثال ، من” توليد الكثير من المحتوى ومن ثم في انتظار أن تعيد ChatGpt ، وربما ، أو ربما ، مع الأخذ في الاعتبار ما ساهمت به “.
في الممارسة العملية ، ستسمح المتجهات أنظمة الذكاء الاصطناعى بالوصول بشكل أفضل إلى السياق حول المعلومات بالإضافة إلى المعلومات نفسها. حرية.
استخدم الفريق نموذجًا من شركة AI Jina AI لتحويل بيانات Wikidata المهيكلة ، التي تم التقاطها حتى 18 سبتمبر 2024 ، إلى متجهات. توفر شركة IBM Firm DataStax حاليًا البنية التحتية لتخزين قاعدة بيانات المتجه إلى المشروع مجانًا.
ينتظر الفريق ملاحظات من المطورين الذين يستخدمون قاعدة البيانات قبل تحديثها بالمعلومات التي تمت إضافتها خلال العام الماضي. على الرغم من أن قاعدة البيانات الحالية لا تتضمن معلومات جديدة تمامًا تم إضافتها في العام الماضي ، إلا أن Saadé تقول إن التعديلات الصغيرة أو التعديلات على Wikidata الحالية لن تقلل من فائدة قاعدة البيانات. وقال: “في نهاية اليوم ، يشبه المتجه الذي نقوم بالحساب فيه فكرة عامة عن عنصر ما ، لذلك إذا تم إجراء بعض التحريرات الصغيرة على ويكيداتا ، فلن يكون الأمر ذا صلة فائقة”.