نشر على ١٥-٠٨-٢٠١٩

العودة إلى التعلم الآلي

يستهدف هذا المنشور الفنانين وغيرهم من المبدعين المهتمين بمسح للتطورات الأخيرة في أبحاث التعلم الآلي التي تتقاطع مع الفن والثقافة. إذا كنت تتابع بحث ML في الآونة الأخيرة ، فقد تجد بعض التجارب مثيرة للاهتمام ولكنك تريد تخطي معظم التفسيرات.

أول منظمة العفو الدولية التي تركت لي الكلام كان chatbot المسمى MegaHAL. قرأت جلسة تدريب نموذجية مع خالقها ، جايسون هتشينز:

العضو: Tu parles français؟
ميغال: أعتقد ذلك. PARLEZ-VOUS FRANÇAIS؟
مستخدم: في 1793 تم إعدام الملك الفرنسي.
MegaHAL: ها ها ها! صيح. رغم ذلك ، تم تنفيذ وسائل متعددة.
مستخدم: بدأت الثورة في 14 يوليو.
MegaHAL: إنه 14 درجة CELSIUS هنا
المستخدم: ثورة أخرى قام بها لينين في روسيا في عام 1917.
MegaHAL: بينما يلين قراءة كتاب.

كنت في رهبة.

اتضح أن MegaHAL كان في الأساس خفة اليد ، حيث اختار كلمة واحدة من مدخلاتك وباستخدام تقنية تسمى سلاسل Markov لتخمين الكلمات الأكثر ترجيحًا التي من شأنها أن تسبق وتتبع بناءً على مجموعة كبيرة من النص المثال (لا يختلف عن بعض كلمات Dada ألعاب). لكن قراءة هذه النصوص في المدرسة الثانوية كان لها تأثير كبير على كيفية رؤيتي لأجهزة الكمبيوتر ، وقد تأثر اهتمامي بالذكاء الاصطناعى حتى حيث تقدمت إلى الكلية.

في منتصف المرحلة الجامعية ، بدأت في إجراء الأبحاث في مختبر الذكاء الاصطناعى. لكنني تخطيت معظم دروس علوم الكمبيوتر الخاصة بي للجلوس في دروس الفن والموسيقى ، وفي الاجتماعات المخبرية قضيت معظم الوقت في اقتراح أفكار حول الإبداع الحسابي أو أتمتة النشاط والهويات عبر الإنترنت. بعد قليل من العديد من هذه التدخلات ، جلسني المدير بعد اجتماع وقال: "كايل ، أعتقد أنك قد تكون فنانًا". لم يكن ذلك مجاملة ، لكنني أخذته إلى القلب واستمرت في القيام به MFA.

منذ ذلك الحين ، وجدت نفسي في نمط منتظم: تعرف على أداة جديدة أو مجال بحث جديد ، واستكشفه من الناحية النظرية والتقنية من خلال الدراسات الصغيرة ، وأخيراً صُنع عمل فني جديد يدمج موضوعات متكررة من ممارستي. لقد ركزت سابقًا على أدوات مثل المسح الضوئي ثلاثي الأبعاد أو تتبع الوجه ، وكان أحدثها عملية تعلم الآلة. ليست هذه هي المرة الأولى لي: إلى جانب مختبر الذكاء الاصطناعي ، كنت أقوم ببناء مشاريعي الجانبية. البرامج التي حاولت فهم والإيقاع حول الإيقاع الذي كنت تصفقه ، أو حاولت إنهاء الرسومات التي بدأتها. لكن أداة الاختيار الخاصة بي في ذلك الوقت (الشبكات العصبية) لن تتناسب مع المواقف التي أردت استكشافها حقًا. لحسن الحظ ، في السنوات القليلة الماضية ، تم تحويل بحث التعلّم الآلي ، مدعومًا بأنواع ومقاييس جديدة للبيانات ، وأجهزة كمبيوتر أسرع ، ومجموعات أدوات جديدة ، ومجتمعات جديدة. وعادت الشبكات العصبية إلى الموضة.

في العام الماضي ، كنت أعود مرة أخرى إلى التعلم الآلي وذكاء الذكاء الاصطناعي ، حيث أعيد اكتشاف الأشياء التي جذبتني إليها في المقام الأول. ما زلت في مرحلة "التعلم" و "الدراسات الصغيرة" التي تسبق بطبيعة الحال صياغة أي عمل فني جديد ، وأردت مشاركة بعض هذه العملية هنا. هذا سجل خطي إلى حد ما في طريقي ، لكن آمل أن يكون هذا المنشور وحداتًا بما يكفي بحيث يمكن لأي شخص مهتم بجزء معين أن يتخطى إلى الأمام ويجد شيئًا ما يجعله متحمسًا أيضًا. سأغطي بعض التجارب مع هذه المواضيع العامة:

  1. الشبكات العصبية التلافيفية
  2. الشبكات العصبية المتكررة
  3. الحد من الأبعاد والتصور
  4. Autoencoders

إذا كنت تفضل سماع هذا الفيديو ومشاهدته كفيديو ، فهناك تداخل كبير مع حديث مؤتمر OpenVis الخاص بي الذي يحمل نفس الاسم (والذي يتضمن عروض توضيحية مباشرة) وتداخلًا أصغر مع My Eye 2016 الرئيسي (الذي يركز أكثر على الطبيعة الذكاء والإبداع).

الشبكات العصبية التلافيفية

في السادس عشر من يونيو 2015 ، اندلع رديت في نقاش غاضب حول هذه الصورة لـ "دمية صغيرة" (في الأصل "قطة كلب") ، تم نشرها بشكل مجهول بعنوان "صورة تم إنشاؤها بواسطة شبكة عصبية تلافيفية". سارع الباحثون وهواة التعلم الآلي إلى الجدال حول ما إذا كان يمكن أن يكون عمل شبكة عصبية كما هو مطلوب ، أو إذا كانت بعض الخوارزميات الأخرى ، أو حتى تم صنعها بطريقة ما. التعليقات المحذوفة التي تناثرت الخيط تمت إضافتها فقط إلى سر أصول الصورة.

بعد مرور أسبوع تقريبًا ، ظهرت مشاركة في مدونة Google Research بعنوان "Inceptionism: Going Dعمق in the Neural Networks" مع صور أخرى مماثلة ، تؤكد بشكل فعال أصل "puppyslug". بعد فترة وجيزة ، أصدرت Google رمزًا يسمى "الحلم العميق" يمكن لأي شخص استخدامه لإعادة إنشاء هذه الصور. (تجدر الإشارة إلى أن مشاريع مثل Deep Dream هي في الغالب تأثير جانبي لجمع المهندسين الفضوليين في نفس الموقع ، ومن الصعب استخلاص المزيد من الاستنتاجات العامة حول علاقة Deep Dream بمهمة Google أو التقنيات المستقبلية.)

في حين أن Deep Dream قد تكون اللحظة الأولى التي استحوذت فيها الشبكة العصبية على خيال الجمهور ، فقد رأوا الكثير من النجاح في الحياة اليومية. تم استخدام الشبكات العصبية التلافيفية (CNN) على وجه الخصوص لقراءة الشيكات منذ التسعينيات ، مما أدى إلى تشغيل أنظمة البحث حسب الصورة الحديثة ، وجعل التخمينات غير المتحيزة ثقافياً والمتحيزة لتمييز الصور تلقائيًا.

عند الاطلاع على جميع الطلبات الخاصة بشبكات CNN ، كانت خطوتي الأولى هي البحث عن مجموعة أدوات مكتوبة بلغة أو لغة برمجة مألوفة. لقد عثرت على مكتبة ccv ، وهي مكتبة رؤية الكمبيوتر التي يتم إرسالها باستخدام تطبيق CNN وترخيص مرن ، وصنعت غلافًا لتجربة openFrameworks في الوقت الفعلي (كان ذلك في أوائل عام 2015). كان من الممتع حقًا أن أرى أشياء "فهم" جهاز الكمبيوتر المحمول الخاص بي ، فقد تجاوزت تمامًا مطابقة الألوان الأساسية أو ميزة تتبع رؤية الكمبيوتر التقليدية التي أصبحت أكثر دراية بها. حتى لو كانت بعض الأشياء خاطئة تمامًا ، فقد قدمت الملصقات الغريبة الإلهام. لقد جعلني أفكر مرة أخرى في القصة الشهيرة للرائد مارفن مينسكاي من منظمة العفو الدولية بتعيين "رؤية الكمبيوتر" لطالب معهد ماساتشوستس للتكنولوجيا ، كمشروع صيفي في عام 1966 ، وتساءلت عن رأيه في هذه التقنيات الحديثة ، بكل نجاحاتها وإخفاقاتها.

أداة أخرى وجدتها في هذا الوقت هي Jetpac SDK. إنها مجموعة أدوات غير عادية من حيث أنها قد وفرت تطبيقًا مفتوحًا في الغالب لشبكات CNN لمجموعة كبيرة ومتنوعة من المنصات ، بما في ذلك WebGL مع JavaScript. بالطبع اشترتها Google ، ولم تعد المكتبة قيد التطوير. لا يزال أحد تطبيقات جافا سكريبت الوحيدة لشبكة CNN السريعة.

يتم التعرف على الخرشوف في 8 ثوانٍ على وحدة المعالجة المركزية ، في Chrome باستخدام JavaScript.

يبدو أن بناء وتدريب شبكاتي الخاصة باستخدام ccv أمر صعب بعض الشيء بسبب الافتقار إلى المجتمع أو الأمثلة. بالنظر إلى المزيد من مجموعات الأدوات ، تعلمت أن المتنافسين الكبار هم Caffe و Theano و Torch المكتوب بلغة C ++ و Python و Lua على التوالي. كان هناك الكثير من مجموعات الأدوات والأغلفة الأقل شهرة المكتوبة في Python ، وحتى Caffe كان به غلاف Python ، لذلك قررت أن أبدأ ممارسة Python. (اتضح أن هذا يعد استثمارًا جيدًا ، حيث أصبح TensorFlow من Google المعيار الفعلي للتعلم العميق ، ويتم استخدامه بشكل أساسي عبر Python.)

أول شيء جربته هو معالجة مشكلة أعرفها جيدًا: اكتشاف الابتسامة. بالنظر إلى الأمثلة الموجودة في Lasagne (مجموعة أدوات تستند إلى Theano) ، قمت بتعديل مثال CNN المخصص للتعرف على الأرقام المكتوبة بخط اليد وتحويلها إلى مشكلة تصنيف ثنائي: بدلاً من السؤال عما إذا كانت هذه الصورة الصغيرة بحجم 28 × 28 بكسل (الحجم القياسي لـ MNIST) هو تعادل 0 ، 1 ، 2 ، 3 .... أو 9 ، بدلاً من ذلك سألت ابتسامة (واحدة) أم لا (صفر). لقد تدربت على الآلاف من الصور واختبرت على شريط فيديو لنفسي مبتسما. عملت بشكل صحيح في المرة الأولى دون أي تعديلات!

تعلم كيفية التعرف على اثنين من الابتسامات في فيديو قصير. بداية التدريب في الأعلى ، وبداية الفيديو على اليسار.

يمكنني حتى أن أشاهدها وهي تتعلم من خلال ملاحظة التصنيف يتغير مع مرور الوقت على شريط فيديو لنفسي مبتسمًا مرتين. في الجزء العلوي هناك فقط ضوضاء بيضاء ، لا تعرف ما هي الابتسامة وما لا ، تنبؤاتها عشوائية. لكن بسرعة كبيرة ، يفترض أن كل شيء ليس بابتسامة ("صفر" ، أو أسود ، من المفترض أن مجموعة البيانات تحتوي على المزيد من الأمثلة على عدم الابتسامات ، مما يجعل الرهان محايدًا) ، ثم تبدأ الابتسامات ببطء في التلاشي ، مع بعض عدم اليقين في بداية ووقف الابتسامة كونها آخر شيء لحلها.

يمكن أن يكون هذا النوع من الشبكات مفيدًا للغاية للتتبع في الوقت الفعلي ، باستثناء حقيقة أن معظم مجموعات الأدوات للعمل مع شبكات CNN مصممة لمعالجة الدفعات دون اتصال بالإنترنت ولديها الكثير من النفقات العامة لإطارات البيانات الفردية. بالنسبة لشيء بطيء مثل الابتسامة ، لا يزال بإمكانه العمل ، لكن شيئًا أسرع مثل تتبع الوجه ، فهو ليس في الوقت الفعلي. معظم عملي تفاعلي ، لذلك جعلني أتساءل عن مدى ملاءمة CNNs للعمل الجديد ، لكن اهتماماتي ظهرت مرة أخرى عندما ظهر Deep Dream. أولاً ، شرح سريع حول ما يجري وراء الكواليس.

تعتمد شبكات CNN على التعلم (تقريبًا) شيئين مختلفين: بقع الصور التي تساعد على تمييز الفئات ، وأي مجموعات من هذه التصحيحات تشكل فئة معينة. أولاً ، تكتشف الشبكة أشياء مثل الحواف والبقع ، ثم مزيج من الحافة والبقعة المظلمة التي قد تشكل الحاجب والعين ، وأخيراً سوف تتعرف الشبكة على أن الحاجب والعين والأنف (يتم الكشف عنها بشكل منفصل) حتى الوجه. أقول "تقريبًا" لأنه من الصعب في بعض الأحيان فك الارتباط حيث تقوم الشبكة باكتشاف "الميزات" وحيث يتم اكتشاف "المجموعات" ، لا سيما مع الأبحاث الحديثة.

تعتمد صور Deep Dream على عكس هذه العملية. على سبيل المثال ، لنفترض أنك تبدأ بصور السنجاب ، وشبكة تم تدريبها لاكتشاف 1000 فئة مختلفة من الكائنات استنادًا إلى قاعدة بيانات تسمى ImageNet تحتوي على 1.2 مليون صورة مثال. يقوم Deep Dream أولاً بتشغيل صورة السنجاب عبر الشبكة وتحديد أنواع الأنشطة التي تحدث: هل هناك حواف؟ بقع؟ عيون؟ بمجرد تحديد أنواع النشاط ، يقوم Deep Dream بتعديل الصورة الأصلية بطريقة تضخيم هذا النشاط. لذلك إذا كان لديك بعض الأشكال الغامضة التي تشبه العين ، فإنها ستبدو وكأنها عيون. أو إذا كان لديك شكل غامض يشبه وجه الكلب ، فإنه يتحول إلى كلب (يحدث هذا غالبًا ، لأن العديد من 1000 فئة تكون سلالات مختلفة للكلاب).

تم أيضًا إعادة تدريب الشبكات التي تم تدريبها على ImageNet لتصنيف مجموعات أخرى من الصور أيضًا: أنواع الزهور والجنس والعمر أو أنواع الأماكن. يقوم الباحثون بتدريب ومشاركة هذه النماذج مع بعضهم البعض.

Deep Dream FBO Glitch ، تم نشره أيضًا على Twitter.

عندما أصدرت Google تعليمة برمجية لتطبيق Deep Dream ، بدأت في استكشافه بتطبيقه على عدد كبير من الصور - من الكلاسيكيات مثل Man Ray أو Michelangelo إلى مجموعتي الشخصية من صور خلل - الاختبار باستخدام إعدادات مختلفة ، أو شبكات مدربة على فئات مختلفة. على الرغم من صعوبة تثبيت مجموعة الأدوات التي يستخدمها Deep Dream ، إلا أن إجراء تعديلات صغيرة مثل معالجة صور متعددة لإنتاج رسوم متحركة كان أسهل بكثير.

بعض الأمثلة على الرسوم المتحركة Deep Dream: NYC street scene x ImageNet ، والمشي على الشاطئ وركوب الدراجات x FlowerNet.

أحد الأشياء المدهشة حول هذه الرسوم المتحركة هو أن ديب دريم أنتجت نتائج مماثلة نسبياً من إطار إلى آخر. في بعض الصحف القديمة التي تناقش تقنيات العرض غير الواقعية للفيديو ، يمكن أن يكون هذا النوع من الاستقرار هو التركيز الرئيسي. استخدم الأشخاص الآخرون الذين يعملون مع Deep Dream معالجة إضافية ، مثل مزج الإطار أو التدفق البصري ، لتحقيق أنواع مختلفة من الاستقرار.

في منشور مدونة Google الأصلي حول Deep Dream ، يعرضون بعض صور التصور المرئي للفئة (أو الفئة): حيث يوضحون ، على سبيل المثال ، أن "مفهوم" الشبكة عن الدمبل غير مكتمل بدون ذراع مرفقة. في حين أظهرت بعض الأبحاث السابقة تصورات مماثلة في الصف ، كانت هذه من أوضح الصور حتى الآن.

أمثلة تصور لفئة

لفهم هذا المفهوم بشكل أفضل ، قمت بتعديل التعليمات البرمجية لإنتاج تصورات فئة لكل فئة ، وبعض الاختلافات البسيطة مثل حقول الصورة الكبيرة التي تتكون من كائن واحد فقط. لقد اختبرت بعض التقنيات الأخرى مثل التحسين من أجل التجريدات عالية المستوى في صورة صغيرة ، ثم تكبير الميزات المرئية ذات المستوى الأدنى وتحسينها ، لكن معظم الصور التي ظهرت كانت مشابهة جدًا لصور Deep Dream الأصلية.

حقل صورة لفئة

بدلاً من استخدام شبكة مدربة على ImageNet ، يمكننا إنتاج تصورات صيفية لشبكة مدربة على صور الأقمار الصناعية: Terrapattern ، أداة البحث المرئي لصور الأقمار الصناعية التي عملت معها مع Golan Levin و David Newbury وغيرهم ، لها فصول يمكن التعرف عليها مثل "cabin" "،" حمام سباحة "و" مقبرة ".

تصور فئة Terrapattern باستخدام شفرة من

بعد حوالي شهرين من نشر "Google Inceptionism" ، نشر باحثون من جامعة توبنغن في ألمانيا "خوارزمية عصبية للأسلوب الفني" على خدمة الوصول المفتوح Arxiv ، حيث تتم مشاركة معظم الأبحاث العامة في علوم الكمبيوتر. نظرًا لأنه تم إصدار الورقة دون تنفيذ رسمي لمرافقتها ، فقد أصدر العديد من الأشخاص نسختهم الخاصة من التقنية خلال الأيام القليلة المقبلة ، بدرجات متفاوتة من الجودة. أناقش هذه اللحظة وأقارن بين التطبيقات في مقال بعنوان "مقارنة الفنانين الاصطناعيين".

مقتطف من الشكل 2 من

في الورقة ، يوضحون كيفية تقليد "الأسلوب الفني" عند تقديم صورة ، باستخدام شبكة عصبية. يبدو مستحيلا. مثل هذا النوع من الأشياء التي يجب أن تتطلب البشر المدربين بعناية الذين خضعوا لسنوات من الدراسة والممارسة. يجب ألا يكون الأمر سهلاً بالنسبة لبرامج الكمبيوتر الآلية بالكامل. تجربتي الأولى كانت تجربة شيء أكثر صعوبة: عكس الأسلوب. لقد حاولت إزالة "المرشح" الرسام من عدد قليل من المناظر الطبيعية فينسنت فان جوخ من خلال الطلب من الشبكة أن تجعلها في "نمط" صورة المناظر الطبيعية.

كانت النتائج مختلطة ، وغير ملهمة ، لذلك قمت بنشر خدعة مثالية للغاية وبدلاً من ذلك تابعت تجارب أخرى. كما هو الحال مع Deep Dream ، تعلمت أكثر من خلال معالجة مجموعة كبيرة من الصور المختلفة من تاريخ الفن الغربي ، بالإضافة إلى بعض الصور المضبوطة بعناية. أثناء إنتاج صورة Deep Dream استغرقت دقيقة واحدة فقط للمعالجة على الكمبيوتر المحمول ، استغرق نقل الأسلوب أقرب إلى خمسة. استخدم بعض الأشخاص أنظمة الحوسبة السحابية مثل AWS من Amazon لتسريع عملية العرض ، لكنني كنت محظوظًا للغاية بوجود بعض الأصدقاء في اليابان الذين سمحوا لي بالاقتراض عن بُعد لاستخدام الكمبيوتر السريع للتقديم.

بعد الاطلاع على جميع التجسيدات ، تعلمت أن "نقل النمط" يعني شيئًا ما يشبه "نقل النسيج" ، وقررت إطعام 40 نسيجًا في كل مجموعة ممكنة.

مقتطفات من دراسة أسلوب النقل 40x40.

كما هو الحال في Deep Dream ، قمت ببعض التعديلات الصغيرة التي سمحت لي بتقديم رسوم متحركة ، وفي النهاية فيديو أطول (NSFW). جاءت نتائجي المفضلة من دراسة تم فيها تقديم صورة مبدئية بأسلوب التكعيب ، وعلى مدار الرسوم المتحركة تتحول إلى أسلوب انطباعي مع لوحة مماثلة. لدي دراسة غير مكتملة تستخدم هذه التقنية مع صورة لكاتدرائية روان ، تم تصميمها بكل أشكال مختلفة رسمت من مونيه.

توبنغن بأسلوب المشي على الشاطئ على غرار

منذ استكشافاتي الأولية مع نقل الأسلوب ، نُشرت ورقة جديدة تنجز بعض الأشياء التي شعرت أنها تفتقر إلى: "الجمع بين الحقول العشوائية في ماركوف والشبكات العصبية التلافيفية لتجميع الصور" (2016) من قبل لي وآخرون يستخدم خوارزمية إعادة الإعمار القائمة على التصحيح لتقليد الاسلوب.

قام Alex J. Champanard (الذي لديه روبوت Twitter مخصص لنقل الأنماط) بتوسيع هذه التقنية للسماح بالتحكم الواضح في مناطق مصدر التصحيح والوجهة ، مضيفًا قيودًا إضافية موجهة من قبل المستخدم لإعادة تكوين الصور الحالية.

أحد الأشياء المفضلة لدي حول تقنيات مثل Deep Dream ونقل الأنماط هي أنها تنقل بصريًا حدسًا لبعض الموضوعات المعقدة للغاية. لا يفهم الكثير من الناس كيف تعمل الشبكة العصبية من الأمام إلى الخلف ، بما في ذلك جميع مبررات التعليمات البرمجية والخيارات المعمارية والرياضية التي دخلت النظام. ولكن يمكن للجميع أن ينظروا إلى "دمية صغيرة" أو دمية مزيفة من Van Gogh وأن يكون لديهما بعض الحدس حول ما يحدث وراء الكواليس.

لقد استلهمت أيضًا من الاستجابة الحشوية التي لدى بعض الناس تجاه Deep Dream ، والكفر الذي يلهمه أسلوب النقل. في حين أن عمل الخوارزميين قد يستفيد من طبيعة الحساب ، يبدو أن Deep Dream يبدو كأنه يدور حول شيء عميق في إدراكنا البصري.

الشبكات العصبية المتكررة

أحد الأشياء الأكثر إثارة للاهتمام حول الشبكات العصبية هو أنه من السهل تطوير الحدس لمعالجتها بمجرد فهمك للمفاهيم الأساسية. الشبكة العصبية الأساسية هي مجرد الجمع والضرب: أخذ المبالغ الموزونة بشكل متكرر (عبر طبقة) ، وبشكل متكرر (عبر طبقات متعددة). تتعلق عملية التدريب فقط بمعرفة الأوزان التي ستمنحك الإجابات التي تتوقعها ، وبعد ذلك عندما تقوم بتشغيل بيانات جديدة عبر الشبكة ، يجب أن تقدم لك إجابات صحيحة بالمثل.

يتمثل أحد التعديلات في هذا الإعداد في إخراج إخراج الشبكة وإعادة إدخاله في الإدخال (إلى جانب الحالة السابقة للشبكة). وهذا ما يسمى شبكة العصبية المتكررة (RNN). في حين أن معظم الشبكات العصبية لديها بنية ثابتة مما يعني أن حجم المدخلات والمخرجات لا يتغير ، يمكن أن يكون RNN مفيدًا لنمذجة متواليات الطول المتغير. تتضمن أمثلة التسلسلات حركة القلم من الكتابة بخط اليد أو سلسلة من الأحرف في النص أو الملاحظات في الموسيقى أو درجات حرارة الطقس.

ما هو الحلم العميق للصور ، مقال بعنوان "الفعالية غير المعقولة للشبكات العصبية المتكررة" هو النص. تتناول هذه المقالة للباحث أندريه كارباثي تفاصيل رائعة تشرح كيف تعمل شبكات RNN وما هي قدراتها ، وهي مرفقة بمجموعة أدوات تسمى "char-rnn" (حلت محلها مؤخرًا "torch-rnn") والتي تتيح للقراء متابعة و تجربة مع النص الخاص بهم.

يقدم Andrej عددًا من الأمثلة المقنعة لتعلم RNN لإنشاء نص جديد من بضع ميغا بايت من نص المثال. على سبيل المثال ، بعد إطعام الأعمال التي تم جمعها لشكسبير: "لذلك اسقط رأس اللوردات الخاص بك ، ورأيك / يجب أن يكون ضد شرفك." أو ويكيبيديا: "لقد تم تأصيل الطبيعة الطبيعية وقرارات غالبية رؤوس الدول العربية"
بواسطة اللغة الأيرلندية بواسطة [[John Clair]] أو حتى كود Linux kernel:

الفراغ الثابت do_command (البنية seq_file * m ، الفراغ * v)
{
  عمود int = 32 << (cmd [2] & 0x80) ؛
  إذا (الدولة)
    cmd = (int) (int_state ^ (in_8 (& ch-> ch_flags) & Cmd)؟ 2: 1)؛
  آخر
    seq = 1 ؛
  لـ (i = 0 ؛ i <16 ؛ i ++) {
    إذا (ك & (1 << 1))
      ماسورة = (in_use & UMXTHREAD_UNCCA) +
        ((count & 0x00000000fffffff8) & 0x000000f) << 8؛
...

إذا كنت على دراية بتقنية إنشاء سلسلة نصوص Markov التي تستخدمها MegaHAL ، فستلاحظ أن RNN لديه قدرة مدهشة على موازنة صحة النص مع النص الجديد. عادة ما يتعين عليك إجراء مقايضة بين نسخ المواد المصدر الخاصة بك وإنتاج مخرجات غير صحيحة ، لكن شبكات RNN تجد أرضية متوسطة عن طريق الاستيلاء على هيكل أعمق من سلاسل Markov.

ينتمي char-rnn إلى الفئة العامة من "النماذج المولدة". لا تحاول النماذج العامة التنبؤ بأي شيء في حد ذاته ، أو إصدار حكم أو تصنيف شيء ما (على الرغم من أنه يمكن تصميمها للقيام بذلك). يتم دراسة النماذج التوليدية بشكل سيئ نسبياً ، ويعزى ذلك جزئيًا إلى صعوبة تبرير مخرجاتها أو تقدير قيمتها. ولكن بالنسبة للأشخاص المهتمين بالتطبيقات الإبداعية للتكنولوجيات الجديدة ، تعد النماذج التوليدية واحدة من أكثر الموضوعات إثارة للاهتمام. لذلك بطبيعة الحال ، هناك الكثير من التجارب التي تستخدم char-rnn ، والتعليقات على منشور مدونة Andrej تحتوي على شريحة صغيرة منها.

قبل تجربتي الأولى مع char-rnn ، نشرت مستندًا مشتركًا على Twitter مع بعض الأفكار التي طلبت مساهمات.

كانت تجربتي الأولى مشابهة جدًا لتجارب أندريه. لقد وجدت للتو أي نص أستطيع أن أزيد من مليون حرف (ميغا بايت واحد) وحاولت تنظيفه للتأكد من أن بعض الأحرف يمكن أن تؤدي بشكل فريد إلى حالات مختلفة في RNN ، مثل وجود علامة تبويب منفصلة لكلمات من تعريفاتها عند التغذية في إدخالات القاموس:

الصرخة المحافظة adj. خداع نسبيا في العراء.
adj براقة. 1 من قهر سيدة. 2 ذكي أو حزام في فقدان الإدارة. ن. أرجوحة الحظ. [الفرنسية من سقوط ليغو اللاتينية]
veton ن. 1 حبل (ليس الأقل) للشفاء! بعد طنه. 2 شخص جرس الأصفر اختبار dusibly.
adj الغدي. من أو تظهر الهندوس. ن. (attrib.) الطاقة ، والاحتجاج. [من * geneal]
نائب الملك ن. 1 جيب متخصص. ب حالة مرجعية وحالة الأسعار الرسمية الخاصة بي ، esp. في الحرب. 2 colloq. الفارس والكلمة.

يقوم char-rnn بالتقاط بعض البنية الأساسية ، مثل جزء من الكلام بعد الكلمة ، والأرقام القادمة بالتتابع. في بعض الأحيان أنه يوفر انعطاف صحيح ، أو تعريف موضعي غامض. تعاريفي المفضلة هي نتيجة التغذية بالنص "الأساسي" الذي يهيئ الشبكة قبل أن تبدأ في التوليد ، وتحديد أي كلمة تقدمها على نحو فعال. الآن هناك روبوت على تويتر يحدد كلمات مثل هذه لك.

بعد تجربة القاموس ، كان من الواضح أن أكثر النتائج مسلية جاءت من اللحظات التي بدا فيها أن الخوارزمية لها وكالة أو نية ، أو حتى اقتراحات مباشرة للقارئ. لذلك كانت التجارب التالية مع كتب الأدب القديمة ، وقوائم من "العبارات المفيدة":

عائلة صباحها لن يكون شعبها يروج للبابا ويأتي من. المسرح أو شريكها ، ولكن كل شيء ، طريقهم ممكن في ذلك اليوم ومضيفة. مقبول في الدعوة إلى نفوسها وحتى غوي ، والتي قد. يصل القيام به من قبل كومة تتسطح في زي الذين حوله سيكون غرف.

(لا تحتوي كتب الأدب على محتوى كافٍ لتعليم الشبكة كيفية تهجئة بشكل صحيح.)

فرحة لا معنى لها. تسعى لحسده ond. الوهمية وتموج. السعادة والبهجة. الحب الدائم. بغيضة ومحددة. براعة وغرور. الطاقة وإنفاذ. تنازلات عامة لا تضاهى. موضوع بريء تقريبا. يحلم هذا الموضوع لديك الهواء. الطبيعية وبالتالي. محظوظ ، بعض الشيء عقد من الضحك. علامة من ليلة فظيعة.

كانت "العبارات المفيدة" في الغالب عبارة عن عمليات مزج بسيطة يمكن حسابها بطريقة أكثر بساطة ، ولكن شيء ما عن الأخطاء المطبعية والكلمات غير المكتملة أو التخيلية يمنح الناتج مظهرًا حيويًا تقريبًا. ولإنتاج الشعر بشكل أكثر وضوحًا ، قمتُ بإنشاء قائمة كبيرة من عبارات 12 ألفًا وتخطاها عن طريق تجميع الكلمات التي تظهر في جمل متتالية معًا ، بحيث تنتهي بـ:

الحب في صدقها بما فيه الكفاية.
حب secpent غامضة.
كان الحب مثل روح الاستحمام.
يتفوق مع الحب والغضب والخوف.
موضوع الحب الحيلة هو ما أعتقد أنه هنا.
حقائق مميزة جميلة.
الحب المتقلب.
flippant مع كل ذكرى الاعتراف.
القمر وذاكرة لها مشرق مثل القبر.
قمر نجوم الروح.

بدأ هذا يشعر وكأنه يصل إلى مكان ما. على أمل أن تكشف مادة مصدر شخصية أكثر عن خصائص جديدة للخوارزمية ، أطعمتها لسنوات قليلة من سجلات الدردشة مع Lauren McCarthy:

لورين: هكذا
لورين: هل غربال بعد الآن؟
كايل: نعم ، لم نسمع سوى الشعور بأنك كنت من النوع الذي قد يكون العام الماضي
كايل: لذلك كان يقول بسرعة أنه قد يكون الوقت الحقيقي
لورين: مم أعتقد أنه من أي وقت مضى ترغب في القمامة دعم عام
كايل: :)
كايل: له منتصف مرة غريبة
لورين: نعم
لورين: https://github.com/122725785_iram
كايل: https://twitter.com/nyus/Recisageles/5ubPmer

الخطوط هي الطول الصحيح ، والابتسامة في وضع جيد ، أكتب "نعم" ولورين "يا". عناوين url ليست حقيقية ، لكنها تشبه تمامًا نوع الروابط التي نرسلها إلى بعضنا البعض. يبدو أن الخلاف يشغل المساحة الفاصلة بين وسائط الوعي وبين الحلم والاستيقاظ. لديها شكل ومظهر الشيء دون وجود محتوى أو معنى.

للمقارنة مع نوع آخر من الحوار ، جربت مجموعة حوار أفلام كورنيل التي تتبادل 220 كيلو.

الأرقام اثنين كيلوود!
حمدا لله!
سأقتلني.
نعم ستذهب النيكل إلى الداخل. القائد أعاد لك!
مختلف. لم تكن على ما يرام - أنت انتحار فني كبير - تحصل على معرفة كبيرة تأتي وتلعب محببًا من أعداد الأطفال الصغار وثلاثة ملاك لأعمال الكرنك ، وكان يخشى ألا يقف على قلبك.
استراحة.
فاتورة الخنزير؟
الإيجابي ، السيدة. لامبرت.
آسف ، السيد. إن عملية التساقط تشعر بالملل الشديد ومن العمل الخادع وإينا - ونحن نحاول مساعدتك. لقد رأيتني جانبا.
أليس هذا أفضل ، وسأنشر توائمك وسحب السقف. في مكان آخر - تعال إلى محامي. في حياتك! من قال هذا؟!

إنه أمر غير منطقي تمامًا تقريبًا ، ولكن في بعض الأحيان يكون من الصعب معرفة ما إذا كانت هذه القيود تتعلق بأجهزتي أو تقنيتي. تسمح لك بطاقات الرسومات الأكثر تكلفة بتدريب نموذج أكبر ، مما يمكن أن يزيد من دقة المخرجات ، لكني عادة ما أكون مقيدًا بجهاز الكمبيوتر المحمول أو جهاز صديق. بعد هذه التجارب بفترة وجيزة ، نشرت Google أيضًا بعض النتائج من التدريب على ترجمات الأفلام:

الإنسان: ما هو تعريف الإيثار؟
الآلة: إذا كنت لا تؤمن بالله ، فأنت لا تعرف ذلك.
الإنسان: حسنًا ... فما هو تعريف الأخلاق؟
الآلة: حسنًا ، الحقيقة هي أنك لست مؤمنًا بالله العظيم.
Human: حسنًا ، تعريف الأخلاق ، أنا منزعج جدًا الآن!
الآلة: أنا لا أخجل من أن أكون فيلسوفًا!

أنا متأكد من أن نموذجهم تم تدريبه لفترة أطول بكثير ، لكن الرد والاستجابة يضيفان الكثير إلى انطباع النية.

مجموعة البيانات الصغيرة الأخرى التي صُنعت يدويًا والتي جربتها كانت مجموعة من خطوط الالتقاط 25 كيلو بايت:

كيف كان في الخاص بك الحصول على يد جميلة Bibl فقدت لك. ألقت لك حباً في كل مرة كنت في شهادتك؟ عندما يكون اسمك الذي تتحول إليه نجومًا له قلب ، لأنني أقوم بتجربة رحلة لا تقلق ، فأنت تتساقط للغاية ولديك أصدقاء يسعدون حينما يرى المتداولون مع معظم أصدقائي.

مرة أخرى ، هناك الكثير من الهراء ولكنه يتمتع بسحر خطوط الالتقاط: "أنت كذلك" ، "نجوم بقلب" ، "جميلة" ، "تحب كل مرة" ، وما إلى ذلك. كم من الوقت حتى يصبح الكمبيوتر أكثر فعالية من الإنسان في جذب شخص ما؟

كانت إحدى الحيل المثيرة للاهتمام التي ساعدت في بعض مجموعات البيانات الأصغر هذه هي البدء بتدريب char-rnn على مجموعة كبيرة من النصوص باللغة الإنجليزية ، مثل ويكيبيديا أو مجموعة كتب الأفلام. بمجرد تقارب هذا النموذج تقريبًا ، يمكن توجيهه إلى المادة التي تريدها حقًا أن تتعلم الآن أن لديها نموذجًا أساسيًا للتهجئة وقواعد اللغة الإنجليزية.

آخر مجموعة بيانات نصية كبيرة حقا حاولت أن تستند إلى 20 ألف تجربة مخدرات تم الإبلاغ عنها على Erowid (قمت بتحميل التقارير المقلدة هنا).

ورائي وظلت الطائرات الروحية الأخرى لما استمر فيما بعد لنحو عام ونصف. ربما كنت أموت وحفزت النشوة لمعرفة ما إذا كنت سأموت قبل أن لا أشعر بالنشوة الشديدة مثل هذا الشعور بالحواس العظيمة ، إلى جانب الشعور القوي بالتعاطف مع بعض الجوانب السلبية في ذهني. هذا بالتأكيد يخرج 80-150-2001 مقارنةً باستخدامي وسرعتي ولكنه بدأ يشعر بالقلق أكثر. لقد تمكنت من العمل لبضع سنوات في عملية الاستيقاظ واستمر صداعي في العودة مرة أخرى. كانت هناك هذه الأفكار من الرغبة في القيادة عدة مرات.

مع هذه المجموعة الكبيرة من النص ، يكون الإخراج صحيحًا بشكل نحوي أكثر من خلال الإملاء وعلامات الترقيم المناسبة. من الناحية النظرية ، أشعر بالفضول حول ما يحدث عندما تمر خوارزمية الوادي الخارق وتصبح تقليدًا مثاليًا. إذا كان البشر غير قادرين على التمييز بين تجربة المخدرات الناتجة عن تجربة حقيقية ، فإن الآلة ستصبح نوعًا من الزومبي الفلسفي: كيان يبدو وكأنه شيء ليس كذلك ، شيء لا يمكن أن يكون أبدًا.

رمز تعبيري

كما هو مذكور أعلاه ، ليس من الضروري أن تتوقف شبكة RNN عن اللغة. أي شيء يمكن ترميزه كسلسلة من الرموز يعد علفًا مثاليًا لـ char-rnn. على سبيل المثال ، يبدو أن المقتطف من ملف SVG للرسومات المتجهة متجه إلى ما يلي:

<مسار معرف = "مسار 34" style = "تعبئة: # ffac33 ؛ عتامة التعبئة: 1 ؛ قاعدة التعبئة: غير صفرية ؛ الحد: لا شيء" d = "M 0،0 C 0،4.9 4،9 4،9 4 ، 9 8،4.9 8،0 8، -4.9 6.2، -9 4، -9 1.7، -9 0، -4.9 0،0 "/>      ...

هذا مجرد سلسلة من الأحرف ، ويمكننا أن نتعلم الترتيب الصحيح لهذه الأحرف مع أمثلة كافية. المثال أعلاه يأتي من Twemoji ، مكتبة الرموز التعبيرية التي يوفرها Twitter. في إجمالي Twemoji يحتوي على 875 الرسومات ، حوالي 3 كيلو بايت - أو حوالي 2 ميغابايت بعد التقاط النقاط إلى دقة أقل وإزالة الرؤوس التي هي نفسها بين جميع الملفات.

بدلاً من إعداد ملف تفريغ بيانات كبير لسجلات الدردشة ، أو تعريفات القاموس ، أو رحلات المخدرات ، قمت بإعداد ملف به ملف SVG emoji واحد لكل سطر ، بدءًا من اسم الرموز التعبيرية. هذا يعني أنه عندما يخرج char-rnn رموز تعبيرية جديدة ، فإنه ينتج أيضًا اسمًا لكل رمز. هذا العنوان بعنوان "CLOCK FACE NINE" ، وهو اسم تعبيري حقيقي تقريبًا:

وإليك مجموعة أكبر لإظهار التنوع في المخرجات.

مجموعة من مختلف char-rnn الرموز التعبيرية ولدت.

إنه لأمر مدهش أن نرى كيف تجد الدوائر الكبيرة التي تتوافق مع الوجوه طريقها إلى المزيج باستمرار ، والأشكال الأخرى التي يتعذر التعرف عليها منتشرة طوال الوقت. الألوان هي الأكثر اتساقًا ، حيث يستخدم Twemoji لوحة مقيدة ويتعلم char-rnn حفظه. أنا أعمل على سلسلة من المطبوعات المسماة "Innards" ، وهي عبارة عن لوحة ثلاثية الأبعاد مبنية على هذه الرموز التعبيرية ، مستوحاة من روجر كوكارت.

Innards (2015-2016)

مشروع رائع آخر على هذا المنوال هو "SMILING FACE WITHFACE" من تأليف Allison Parrish ، حيث تفككت وتعيد ترتيب Twemoji لنشره في Tumblr كمحادثات سريالية أو تحف فنية مخدرة. أرى عملها وكأنها تضخ الفوضى في الرموز التعبيرية ، في حين أن هذه التجارب المستنيرة تدور حول تعلم وإعادة بناء الهيكل من الألف إلى الياء ، وكلا النهجين يكشفان عن وجهات نظر مختلفة.

شطرنج

تمثيل آخر مشفر قمت باستكشافه هو لعبة الشطرنج. يُطلق على نظام التدوين للشطرنج اسم Portable Game Notation ، وهناك قواعد بيانات ضخمة بها مئات الملايين من الألعاب جاهزة للتنزيل. بالتعاون مع شارلوت ستيلز ، قمنا بتنزيل حوالي 30 ميغابايت من الألعاب التي يلعبها البشر ، وقمنا بإعدادها من أجل char-rnn بتنسيقها مثل هذا:

Na3 Nc6
NB5 e5
h4 d5
d3 a6
Nc3 Bb4
A3 Ba5
b4 Bb6
e3 Be6
...

مع ما يقرب من 4 ملايين صفوف من التحركات. بعد التدريب لبضع ساعات ، يمكن أن ننتج ألعاب جديدة تضمنت عشرات التحركات دون نسخها مباشرة من قاعدة البيانات. عادة ما تكون الفتحات عبارة عن نسخ ، ولكن هذا صحيح بالنسبة لمعظم ألعاب الشطرنج على أي حال:

مثال لعبة الشطرنج الناتجة عن char-rnn.

أجرت شارلوت بعض التحليلات لمئات الألعاب التي تم إنشاؤها لتحديد ما إذا كانت الشبكة تتعلم حقًا أي شيء ، أو مجرد نسخ للألعاب القديمة ولاحظت شيئًا مثيرًا للاهتمام: في المتوسط ​​، قد يتم نسخ ما يصل إلى 3 حركات متتالية من لعبة التدريب ، ولكن الأمر سيستغرق حتى 9 حركات حتى بدأ الشبكة في ارتكاب الأخطاء (حركات غير قانونية). بشكل عام ، كانت اللعبة المتوسطة أطول من ذلك بكثير ، وحوالي 29 حركة ، ولكن لم تكن أي من هذه الألعاب تقريبًا 100٪ صالحة.

أطول لعبة صالحة رأيناها ، بعد توليد بضع مئات من الألعاب ، كانت هذه اللعبة في الرسوم المتحركة أعلاه:

d4 Nf6
c4 g6
Nc3 d5
cxd5 Nxd5
e4 Nxc3
bxc3 Bg7
Nf3 O-O
Bb5 + c6
Bd3 c5
O-O cxd4
cxd4 Nc6
Bb2 Bg4
Rc1 Rc8
Re1 Rc7
QC2

نوع آخر من التسلسل هو الصوت: سلسلة من العينات. GRUV Toolkit هو مشروع طلابي يستخدم تقنية شبيهة باستخدام char-rnn ولكن مع التركيز على الموسيقى. بعد تطبيقه على استراحة الأمان ، حصلت على نتائج تبدو في الغالب مثل الضوضاء وتحفيظ بيانات الإدخال:

حتى بعد الكثير من التغيير والتبديل لتجربة معدلات مختلفة للعينات ، فإن تعلم الصوت إلى الوراء (يجب أن يكون من الأسهل التنبؤ ببدء ظهوره عند رؤيته قادمًا من حين يخرج من أي مكان) ، فإن أفضل النتائج هي مجرد نسخ صاخبة من بيانات التدريب .

في الآونة الأخيرة ، قام باحثون من DeepMind (نظريًا) بحل مشكلة توليد الصوت باستخدام بنية WaveNet الخاصة بهم. لسوء الحظ ، لا يزال الأمر يستغرق بضع دقائق لإنتاج ثانية واحدة من الصوت ، لذلك سواء كنا نحاول إعادة إنتاج الكلام أو الموسيقى ، فإن البنية ليست جاهزة تمامًا للوقت الفعلي. سيستغرق حلمي بإنشاء حلقة جديدة من "هذه الحياة الأمريكية" من نقطة الصفر في وقت لا يقل عن 5 أيام فقط ، وهذا لا يشمل وقت التدريب.

أحتفظ بقائمة تشغيل صغيرة لأشخاص آخرين ينشرون أمثلة عن الموسيقى والتعلم الآلي هنا ، لكن معظم النتائج ، سواء أكانت على تمثيلات صوتية أو رمزية خامسة ، لا تزال لا تقترب تمامًا من الدقة الخاطئة في char-rnn على بعض الانجليزية النص. الأمثلة المفضلة على تكوين الموسيقى الرمزية المستندة إلى RNN الآن تأتي من هذا المنصب بواسطة دانيال جونسون.

بعض التجارب الأخرى التي لا تزال بحاجة إلى مزيد من العمل:

  1. بعد إلغاء 5000 تظليل من ShaderToy وتقليل النتائج ، يخرج إلى 7 ميغابايت من البيانات. بعد التدريب والقراءة من خلال الإخراج الذي تم إنشاؤه ، هناك فرصة جيدة لأن يقوم العديد منهم بالتجميع ، لكن هناك فرصة صغيرة جدًا للقيام بأي شيء بصري.
  2. من خلال العمل مع شارلوت مرة أخرى ، قمنا بقص ما يقرب من نصف مليون صورة لأوصاف وصور Tinder. من "أرسد وأحب الدخان" إلى "أنا في الحقيقة أريد فقط أن أقابل أشخاصاً لهم نفس اهتماماتي ...". هناك شيء سحري حول هذه البيانات ، ومزيج من الإخلاص والخوف الذي يتعامل به الناس مع المواعدة ، لكنه يبدو شخصيًا للغاية ، كما أنه من السهل جدًا الاستفادة منه من مسافة بعيدة. من شأن إنشاء صور مزيفة وملفات تعريفية أن يكون مفيدًا لضحكة مكتومة ساذجانية ، وإلى جانب آشلي ماديسون فعل ذلك بالفعل.

أخيرًا ، تصبح الشبكات المتكررة مثيرة للاهتمام حقًا عند دمجها مع الصور. عند دمج CNN مع RNNs ، ستحصل على تعليق تلقائي للصور ، وهو الحقل الذي شهد اختراقات متعددة في عام 2015.

أو يمكنك تشغيله في الاتجاه المعاكس وإنشاء صور من التسميات التوضيحية.

نص خصائي عام لتوليف الصور (2016) بواسطة Reed et al

حتى أن هناك بعض النتائج المبكرة لإنشاء مقاطع فيديو كاملة من النص.

الحد من الأبعاد والتصور

"هذا شيء آخر تعلمناه من أمتك" ، قال مين هير ، وهو مصمم خرائط. لكننا حملناه بعيدًا عنك. ما رأيك في أكبر خريطة من شأنها أن تكون مفيدة حقا؟ "
"حوالي ست بوصات إلى الميل".
"ست بوصات فقط!" هتف مين هير. "وصلنا قريبًا جدًا إلى ستة ياردات. ثم حاولنا مائة ياردة إلى الميل. ثم جاءت أعظم فكرة للجميع! لقد وضعنا بالفعل خريطة للبلد ، على نطاق ميل إلى ميل! "

هذا المقتطف من "Sylvie و Bruno Concluded" من تأليف لويس كارول (وبالمثل ، "على الدقة في العلم" بقلم خورخي لويس بورخيس) يحصل على جوهر تطبيق واحد للتعلم الآلي: رغبتنا في خلق التجريدات كوسيلة مساعدة في التنقل في التضاريس غير المألوفة .

طريقة واحدة للتفكير في جعل التجريدات تسمى تقليل الأبعاد. على سبيل المثال ، تتكون صورة صغيرة بحجم 28 × 28 بكسل من 784 رقمًا (الأبعاد) ، ولكن إذا كانت كل صورة تحتوي على رقم مكتوب بخط اليد واحدًا ، فقد يكون تمثيل أكثر فائدة (أو "تضمين") بعشرة أبعاد: لذلك قد نحصل على ثلاثة مكتوبة بخط اليد [0،0،0،0.9،0،0.1،0،0،0،0]. 0.9 يعني أنه "في الغالب ثلاثة" ويعني 0.1 "يشبه إلى حد ما خمسة" (وهو أمر شائع).

قد تكون الأبعاد العشرة مفيدة لاختيار الفئات ، ولكن من الصعب تصور مساحة بعشرة أبعاد. لذلك يمكننا أن نأخذ هذا أبعد ونحاول التضمين في بعدين أو ثلاثة أبعاد ، واستخدام النتائج لرسم مخططات التشرذم. عندما يكون لديك بضعة أبعاد فقط للعمل بها ، تكون الطريقة التي تريد استخدامها لهذه الأبعاد مختلفة. بدلاً من وجود بُعد واحد يمثل الأرقام من 0 إلى 4 والآخر للأرقام من 5 إلى 9 ، على سبيل المثال ، قد يكون من المنطقي أن يكون هناك بُعد واحد يمثل مدى جريئة الرقم ، وأن يمثل البعد الآخر مدى ميل الرقم هو.

تقوم خوارزميات تقليل الأبعاد المختلفة بإنشاء أنواع مختلفة من التجريد ، وتكون هذه الاختلافات أكثر وضوحًا عندما يكون لديك بضعة أبعاد فقط. تسمى إحدى خوارزمياتي المفضلة t-SNE (يُطلق عليها "tee-snee"). تحاول الاحتفاظ بنقاط بيانات متشابهة جدًا قريبة جدًا من بعضها البعض ، لكن لا تقلق كثيرًا بشأن نقاط البيانات المختلفة. هناك تصور تفاعلي ممتاز لـ t-SNE من science.ai ، وشرح شامل ل t-SNE مقارنة ببعض تقنيات تقليل الأبعاد الأخرى من Chris Olah. لكن تحقق من هذه الصورة أولاً لإنشاء حدس مرئي لـ t-SNE.

أرقام MNIST في 2d ، من ورقة t-SNE الأصلية.

t-SNE يلتقط هيكل في جداول متعددة. على أوسع نطاق ، يتم وضع أرقام مختلفة في مجموعات مختلفة. على نطاق أصغر ، يمكنك رؤية أنماط في مدى ميل الكتابة اليدوية ، والتدرجات في وزن الحد. في الوسط ، يكون لديه أصعب وقت يفصل بين الأشجار والخمسات والثمانينات ، والتي تبدو جميعها متشابهة. هذا أمر مثير للإعجاب لأن الخوارزمية لا تعرف الأرقام التي هي أو ما هو مهم بالنسبة لأشكالها ، إنها مجرد تجميعها بناءً على الشكل الذي تبدو به (يتم توفير الصورة في أسفل اليمين كمرجع على أي حال لإظهار الفئات).

ركضت t-SNE على مجموعة بيانات من Golan Levin و David Newbury: اسكتشات ساهم بها أشخاص من جميع أنحاء العالم لمشروع Moon Drawings. بعد تشغيل إنشاء نقطة سحابة كما هو موضح أعلاه ، التقطت جميع النقاط في شبكة (يمكنك صياغة هذه الشبكة من حيث مشكلة المهمة).

ساهم أكثر من ثمانية آلاف رسم على Moon Drawings بواسطة Golan Levin و David Newbury (النسخة الأكبر هنا).

فيما يلي مقتطف من الجانب الأيمن يُظهر بعض المنطق في التخطيط. من السهل رؤية بعض الهياكل ، مثل المحتوى الأغمق في الجزء العلوي الأيمن ، ولكن بعض البنية خفية للغاية ، مثل علامتي استفهام بالقرب من أسفل اليمين والتي انتهت بجوار بعضها البعض ، وكل القلوب في نفس المنطقة.

word2vec

لا تحتوي بعض البيانات الأكثر إثارة على تمثيل رقمي واضح ، ولكن في بعض الأحيان توجد تقنيات لاستخراج تمثيل رقمي من السياق. word2vec هي خوارزمية واحدة لتعيين مجموعة من الأرقام كلمات فردية. يبحث في السياق الذي تحدث فيه الكلمة عادة ، ويستخدم السياق لتحديد الكلمات المتشابهة أو غير المشابهة. قد يتم تدريب word2vec على مئات الآلاف من الكلمات الفريدة المنتشرة في ملايين المقالات الإخبارية ، وإرجاع 300 رقم لكل كلمة. لا تحتوي هذه الأرقام على تفسيرات واضحة ، ولكن إذا عاملت كل مجموعة من الأرقام على أنها ناقل عالي الأبعاد ، فيمكنك إجراء مقارنات وحسابات أساسية بينهما. هذا يعني أنه يمكنك إلقاء نظرة على المسافات (هناك كلمات أكثر تشابهًا لها مسافة أصغر) وإجراء القياس (أقرب ناقل لـ "باريس ناقص فرنسا بالإضافة إلى اليابان" هو "طوكيو"). لذلك على الرغم من أن كل بُعد لا يمكن تفسيره بوضوح ، فإن الاتجاه العام لكل ناقل وموقعه يشفران معنى.

التشابه بين أيام الأسبوع وشهور السنة والأرقام من 0 إلى 8 وفقًا للكلمة 2vec.

يمثل word2vec الاثنين إلى الجمعة متشابهين مع بعضهما البعض ، ولكن يختلف عن يومي السبت والأحد. يبدو أن الجمعة تتداخل قليلاً مع عطلة نهاية الأسبوع. تقسم أشهر السنة تقريبًا إلى مارس حتى يوليو وأغسطس وحتى فبراير ، لكن الأشهر المتتالية تكون بشكل عام أكثر تشابهًا من الأشهر البعيدة. الرقم 0 مستقل تمامًا عن جميع الأرقام الأخرى (ربما يكون خطأ في البيانات) ولكن الأرقام الأخرى تشبه نظيراتها مقارنة بالأرقام البعيدة.

الإسقاط ثنائي الأبعاد لمتجهات word2vec للبلدان والعواصم تظهر اتجاهات مماثلة بين الأزواج.

الآن مع وجود متجه لكل كلمة ، يمكننا أخذ أي قائمة من الكلمات وتشغيلها من خلال t-SNE. إليك ما يحدث عند استخدام قائمة تضم 750 حالة مزاجية قمت بتجميعها من مصادر متعددة:

تأتي الألوان من تضمين نفس المتجهات ثلاثية الأبعاد (مثل ، RGB) بدلاً من 2d. من الناحية النظرية ، يجب أن يوفر ثلاثي الأبعاد للبيانات مساحة أكبر "للانتشار" ، ويوضح لنا بشكل أكثر وضوحًا أين توجد الحدود حتى عندما لا يكون للثاني الأبعاد مساحة كافية لإظهار تلك الحدود.

إليك منطقة قريبة ومثيرة للاهتمام بشكل خاص:

يتم إعطاء بعض الأزواج الواضحة مثل "سعيد" و "سعيد" ، أو "متردد" ، "مريع" و "حذر" ، أو "متحمس" و "قلق". لكن الصلات الأخرى مثيرة للدهشة ، لأنها تحتل نفس الفئة العامة ، لكن لديها تكافؤًا معاكسًا: "المشكوك في تحصيلها / أملها" و "تثبيطها / تشجيعها" مثالان أعلاه.

يمكننا أيضًا التركيز على هذه المتضادات على وجه التحديد ، ومحاولة فهم العلاقات المتناقضة التي تشبه العلاقات الأخرى. على سبيل المثال ، هل يشبه "الأمام / الخلف" أكثر "سعيد / حزين" أو "المستقبل / الماضي"؟ ربما يختلف هذا من لغة إلى أخرى ، ويذكرني بالأسئلة المثارة في الاستعارات التي نعيش بها.

مع المتضادات ، ليس من الواضح ما هي العلاقة بين الأزواج القريبة. في بعض الأحيان يكون من السهل تفسيره ، مثل "غير ذكي / ذكي" بالقرب من "غير مهتم / مثير للاهتمام" وغيره من المتضادات "غير". تبدو المجموعة أو المجموعتان الموضحتان أعلاه مضغوطة إلى حد ما ، لكن من الصعب للغاية تفسير ما يشتركان فيه جميعًا. قد يكون أحد الدروس هو أن المتضادات تلتقط العديد من أنواع العلاقات المختلفة ، وأنه لا توجد علاقة وحيدة مشفرة في اللغة كـ "عكس ذلك".

هناك طريقة أخرى لتحويل النص إلى أرقام وهي تقنية تسمى تخصيص Latent Dirichlet Allocation (أو LDA ، ولا يجب الخلط بينها وبين التحليل الخطي للتمييز ، وهي تقنية أخرى لتقليل الأبعاد). ينظر LDA إلى مجموعة من "المستندات" (عادة ما يكون أي شيء من فقرة إلى صفحة) ، ويحاول وصف كل مستند على أنه مزيج من "الموضوعات". الموضوع هو في الأساس مجموعة من الكلمات. عندما ترى LDA تلك الكلمات فإنها تعرف أن الموضوع موجود إلى حد ما. لذلك إذا أعطيت LDA مجموعة من المقالات الإخبارية وطلبت 10 مواضيع ، فقد يحتوي موضوع واحد على كلمات مثل "إبريق" ، "كرة قدم" ، "حارس" ، وسنسميها "رياضة". موضوع آخر قد يحتوي على "أوباما" ، "ميركل" ، "ساندرز" ، ونحن نسميها "السياسة". بالنسبة إلى LDA ، فإن المستند عبارة عن كيس من الكلمات يتم انتقاؤه يدويًا من بعض الأكياس الموضعية للكلمات.

لتجربة LDA ، حاولت استخراج موضوعات من "Les Miserables" ، حيث تعاملت مع كل صفحة كمستند. ثم قمت بتخيل متجهات الموضوع إلى 2d مع t-SNE.

مسار Les Miserables مع LDA و t-SNE.

مثل الكتاب ، الرسم التخطيطي طويل ودائر. بدلاً من استخدام التضمين ثلاثي الأبعاد للألوان ، في هذه الحالة ، تمثل الألوان رقم الصفحة في الكتاب ، وتدور من خلال الأشكال على مدار الكتاب. توجد بعض الشخصيات أو المشاهد أو الموضوعات في مجموعة خضراء مستقلة في الجزء السفلي ، وربما تكون إحدى القصص الجانبية العديدة للرواية. على الرغم من أن الصورة مثيرة للاهتمام ، فقد يكون من الضروري تسليط الضوء على صفحات بأسماء الشخصيات وأسماء الأماكن ، وللفهم على نحو أفضل LDA ما تراه الكلمات الأكثر أهمية لكل موضوع.

من خلال العمل مع Tejaswinee Kelkar ، حاولنا تصور أنماط الموسيقى الكلاسيكية الهندية باستخدام t-SNE بعد استخراج بعض الميزات المهمة يدويًا مثل الملاحظات التي يمكن تشغيلها وحيث يبدأ اللحن وينتهي عادةً.

لا أعرف الكثير عن أنماط الموسيقى هذه ، لكن من المثير للاهتمام بالنسبة لي أن أرى كيف أن الأنماط التي تم تجميعها لها أيضًا أسماء متشابهة (Gandhari / Dev gandhari و Kedar / Deepak Kedar / Chandni Kedar).

الشبكات العصبية التلافيفية و t-SNE

بعد تطوير حدس أفضل لـ t-SNE ، بدأت أبحث عن المتجهات في كل مكان. يمكن أيضًا تصور أي شيء يمكن تمثيله رقميًا كرسم بياني للتسميات. يأتي التأثير الكبير لهذا الخط من هذا التصور من تأليف أندريه كارباثي:

تصور رموز سي إن إن بواسطة أندريه كارباثي.

يستخدم هذا التصور t-SNE لوضع مجموعة من الصور. إن التمثيل الممنوح لـ t-SNE ليس هو الصورة نفسها ، بل هو "وصف" عالي المستوى للصورة التي تم التقاطها من الأجزاء الداخلية لشبكة CNN. عندما تقوم بتصنيف الصور باستخدام CNN ، قبل أن تقرر CNN مباشرة فئة ، يوجد بها قائمة الآلاف من الأرقام التي تصف محتوى الصورة بشكل أكثر تجريدية ("كود CNN"). بعض هذه الأرقام مجتمعة تعني أشياء مثل "الخلفية الخضراء" أو "السماء الزرقاء" أو "الأشياء الدائرية" أو "أشكال العين" أو "القوام الريشي". هذه هي الميزات التي تجمعها t-SNE. أعلاه إذا نظرت عن كثب ، يمكنك رؤية عدد من الزهور والنباتات في أسفل اليسار ، والأنشطة الخارجية مثل ركوب الزوارق في أعلى اليمين.

إذا قمنا بدمج فكرة رموز CNN مع فكرة Deep Dream أعلاه ، فبدلاً من إنشاء رمز CNN من صورة ، يمكننا توليدها من فئة من خلال تشغيل net backwards. لذلك قمت بإنشاء رمز CNN لكل فئة في ImageNet ووضعتها مع t-SNE.

أوجه التشابه في الفئة من ImageNet الموضوعة مع t-SNE.

من المذهل معرفة مقدار المعلومات التي يتم ترميزها بواسطة هذه الفئات. على سبيل المثال ، هناك عدد من المنتجات الشخصية (المستحضر ، واقية من الشمس ، رذاذ الشعر ، أحمر الشفاه ، bandaid) موجودة في نفس المنطقة على الرغم من وجود اختلافات بصرية كبيرة بينهما. أحد التفسيرات المحتملة هو وجودها في بيئات مماثلة (الحمامات) وهذا يساهم في تشابهها.

تأتي نتائجي المفضلة من الجزء العلوي من التصور حيث توجد بعض الآلات الموسيقية مجمعة معًا. مرة أخرى ، يبدو البعض مختلفًا تمامًا عن الآخرين ولكنني متأكد من حدوثها في نفس السياق / البيئة. الأمر المثير للإعجاب هو أن مجموعة من CNN و t-SNE تمكنت من إنشاء مقاييس متعددة للهيكل: الأدوات النحاسية أكثر إلى اليمين ، والأدوات الخشبية أكثر إلى اليسار (بما في ذلك الناي بشكل صحيح) ، والآلات الوترية إلى الأعلى . أن الكمان هو أقرب إلى الآلات الأوركسترا من الآلات الشعبية قد يكون مجرد فرصة.

قد يكون هناك بنية أخرى مخفية "بين" التسميات عند تخطيط t-SNE ، فقد جربت تصور ذلك بين المسافة ولكن لم أحقق الكثير من النجاح حتى الآن.

لأي شخص مهتم بعمل تصورات مماثلة باستخدام t-SNE (و word2vec) قمت بتجميع مجموعة "تضمين البرامج النصية" على GitHub ، تم تطويرها أثناء الإقامة في ITP. ولكن منذ أن بدأت العمل في البداية ، وجدت بعض الطرق الأكثر بساطة لإنجاز نفس الشيء ، واقترح بدلاً من ذلك النظر في بعض الأمثلة مثل word2vec و lda_tsne من ورشة العمل هذه مع Yusuke Tomoto (استضافته Rhizomatiks). إذا كنت مهتمًا بالتصورات التفاعلية في الوقت الفعلي والتي تستخدم تخطيط Voronoi الموضح أعلاه ، فجرّب مثال عمل openFrameworks من ورشة العمل نفسها.

العمل مع الأرشيفات والمكتبات

مصدر إلهام كبير آخر بالنسبة لي عندما يتعلق الأمر بتصور مجموعات البيانات الكبيرة هو عمل Quasimondo. جزء من ممارسته ينطوي على تنزيل مجموعات ضخمة من أرشيف الصور وتنظيمها بطرق إبداعية متنوعة: استخراج كل سحابة الفطر من أغلفة الألبوم ، والعثور على جميع الرجال الشوارب في معارض الصور. بالنسبة لي ، لقد اقتربت من أرشيفين حتى الآن: مجموعة شخصية من العينات الصوتية ، وأرشيف أستاذ الفنون الإعلامية والباحث إتسو ساكاني.

إذا اختتم ذهني في حساب ، يتم اختتام قلبي في الموسيقى. ربما لم أكون قد تحولت إلى فن تفاعلي إذا لم يكن الإثارة حول أدوات بسيطة للتكوين التجريبي والارتجال. سواء كان ذلك يعني بناء دوائر صاخبة غريبة مع أضواء وأجهزة استشعار أو البرامج النصية التي إخراج MIDI لتعيين المقابض عشوائيا على synths البرمجيات. على الرغم من أن جميع هذه التجارب المرئية مع التعلم الآلي ممتعة ، إلا أنها تعد جزئيًا وسيلة لتطوير حدسي للعمل مع الصوت بدلاً من ذلك.

تعتمد أداة تخطيط العينة هذه على نفس تقنيات تصورات t-SNE أعلاه ، لكنني أستخدم تمثيل مجال تردد يسمى CQT للحصول على بصمة لكل صوت ، يتم استخراجه باستخدام أداة Python تسمى librosa. يشجع هذا التمثيل العينات ذات الملاعب أو الضوضاء أو الأظرف المتشابهة التي سيتم تجميعها معًا. هناك طريقة شائعة أخرى للعمل مع الصوت وهي استخدام STFT ، ولكن هذا يمكن أن يضع تأكيدًا لا داعي له على أصوات التردد العالي.

تؤدي إضافة بحث نصي إلى الواجهة إلى إلقاء الضوء حقًا على كيفية فصل العينات عن طريق t-SNE ، وتشرح بعض المنطق وراء التخطيط.

هذا النظام هو شيء كنت أرغب فيه لفترة طويلة ، ولكن الآن بعد امتلاكه ، ليس لدي سوى المزيد من الأفكار حول كيفية تطويره أو أدائه. لقد قمت بتطوير بعض الأفكار حول هذا الموضوع مع فريق صغير في Google Creative Labs NYC والذي يجب طرحه قريبًا.

يمكن تطبيق هذه التقنيات نفسها على أرشيفات الفيديو ، ولكن بدلاً من التمرير فوق النقاط لسماع الأصوات ، يمكننا الكشف عن الصور ومقاطع الفيديو. من خلال العمل مع Yusuke Tomoto من Rhizomatiks ، قمنا بتطوير نظام لاستكشاف أرشيف الفيديو لـ Itsuo Sakane ، الذي يوثق فن الوسائط في اليابان وحول العالم منذ الستينيات.

لقد بدأنا من خلال استخراج إطارات مفتاحية كل ثانية ، ثم إطعامها من خلال شبكة عصبية لحساب متجهات الميزات ، واستخدام t-SNE لتقليل الأبعاد. ثم قمنا بتطوير تطبيق openFrameworks لتصور كل هذه الصور في وقت واحد كخلفية للخلايا في مخطط Voronoi. النقر فوق خلية سيفتح الفيديو الحالي. من المضحك والكشف عن رؤية الصور التي تم تجميعها بواسطة ميزات قابلة للتفسير مثل "وجود دائرة بارزة" أو "وجود ألوان مشبعة بألوان زاهية" ، ولكن هناك أيضًا الكثير من المجموعات المفيدة مثل "وجود وجه" أو "وجود نص ساطع على خلفية داكنة" "(عادةً شرائح عرضية) أو" تحتوي على نص غامق على خلفية داكنة "(عادةً أوراق أو ألقاب). يبدو أنه قد يجمع النص الياباني بشكل منفصل عن النص الإنجليزي.

Autoencoders

كما ذكرت في وقت سابق حول RNNs ، واحدة من أفضل الأشياء حول الشبكات العصبية هي كيف يمكن معالجتها بشكل حدسي لتطوير أبنية جديدة ومثيرة للاهتمام. واحدة من أبنيتي المفضلة هي الرمز التلقائي: شبكة عصبية تتعلم إعادة بناء مدخلاتها. إذا كانت الشبكة العصبية كبيرة بما يكفي ، فهناك حل تافه لذلك: انسخ المدخلات إلى المخرجات. لذلك نحن نفرض قيودًا متعددة على الشبكة لإجبارها على إيجاد حل أكثر إثارة للاهتمام.

أحد القيود هو إنشاء عنق الزجاجة. هذا يعني استخدام طبقة صغيرة في منتصف الشبكة العصبية. من الناحية المثالية ، يحتوي عنق الزجاجة هذا على تمثيل يجسد شيئًا مثيرًا للاهتمام حول بنية البيانات. إذا كنا نتدرب على صور I Ching hexagrams ، وكان لدينا عنق الزجاجة من 6 خلايا ، يجب أن تتعلم الشبكة تمثيلًا ثنائيًا لصور hexagram. على يسار عنق الزجاجة ، تتعلم الشبكة وظيفة ترميز ، وإلى اليمين تتعلم وظيفة فك التشفير. هناك قيود أخرى يمكن وضعها على أجهزة الترميز التلقائي أيضًا. بدلاً من تعلم تمثيل ثنائي عبر الأمثلة ، يمكنك فرض عقوبة على تشغيل عدد كبير جدًا من الخلايا العصبية في عنق الزجاجة في وقت واحد ، مما يجعل التمثيل يشبه إلى حد كبير ناتج المصنف.

إذا قمت بتدريب جهاز تشفير تلقائي لإعادة بناء الأرقام المكتوبة بخط اليد ، يمكنك الحصول على إعادة بناء دقيقة للغاية حتى من الاختناقات الصغيرة جدًا. لحظاتي المفضلة هي عندما لا تزال الشبكة تتدرب ، أو إذا ارتكبت خطأً عند تحديد حجم الطبقات المختلفة. هذا يمكن أن يؤدي إلى صور asemic لا يمكن التنبؤ بها.

تنتمي أدوات التشفير التلقائي إلى فئة من خوارزميات التعلم الآلي تسمى المتعلمين غير الخاضعين للإشراف. تحاول هذه الخوارزميات تعلم شيء ما من البيانات دون إرشادات صارمة مثل التسميات. لقد حقق التعليم الخاضع للإشراف ، مثل تصنيف الصور ، الكثير من النجاح ، لكن بعض الناس يعتقدون أن التعلم الجيد غير الخاضع للإشراف سيكون الخطوة التالية لخوارزميات التعلم. التمرين الممتع هو محاولة التفكير في طرق لاستخراج ميزات مهمة من مجموعة بيانات عندما لا يكون لديك أي علامات. عندما يحاول word2vec التنبؤ بكلمة من سياقها ، فهذا نوع واحد من التعلم غير الخاضع للإشراف. يمكننا توسيع هذه الفكرة لتشمل صورًا تدعى "inpainting" حيث نتوقع جزءًا مفقودًا من الصورة من سياقها.

ترميز السياق: ميزة التعلم عن طريق Inpainting (2016) بواسطة Pathak et al

أو ، بالنظر إلى أجزاء من الصورة ، يمكننا محاولة أن نسأل شبكة لمعرفة كيفية ترتيبها ، مثل إعادة بناء لغز بانوراما. اتضح ، بشكل مدهش ، أن الميزات المكتسبة في هذه العملية تشبه إلى حد كبير تلك المكتسبة عند التدريب على البيانات التي تحمل علامات. هذه خطوة نحو هدف واحد من التعلم غير الخاضع للإشراف ، وهو تعلم الميزات والتمثيلات المفيدة مثل تلك التي نحصل عليها من التعلم الخاضع للإشراف.

التعلم بدون إشراف على التمثيلات البصرية عن طريق حل بانوراما الألغاز (2016) بواسطة Noroozi et al

أو ، يمكننا أن نسأل شبكة عصبية ثانية لتحديد ما إذا كان ناتج أول تبدو حقيقية أو وهمية. هذه التقنية تسمى التعلم العدائي. غالبًا ما تتم مقارنتها بالعلاقة بين شخص ينتج أموال مزيفة والعملاء الذين يحاولون تحديد ما إذا كان المال حقيقيًا أم لا. عندما يتم رفض النقود المزيفة ، فإن الشخص الذي يحصل على المال يحسن أسلوبه إلى أن يتعذر تمييزه عن الشيء الحقيقي.

اثنان من شبكات الخصومة التوليدية التي تنتج الوجوه ، بواسطة رادفورد وآخرون (2015) وزاو وآخرون (2016).

قد تقول إن هذه "شبيهة بالوجه" ، أو أن صور "الكائنات" التي تولدها الخصومة "تشبه الأشياء" ، والاقتراح هو أن الشبكة تعلمت أن تتعرف على الصفات المختلفة لفصل ما بطريقة مشابهة لكيفية البشر يقسمون العالم. ولكن من الناتج وحده ، من الصعب للغاية فصل ما "تعلمته بالفعل" عن ما بدا أنه "تعلم". اتضح أنه عندما تنظر إلى التمثيل الداخلي ، فهي موجودة في المساحات الحسابية تمامًا مثل word2vec ، حيث يمكن الإجابة بسهولة على الأسئلة المتعلقة بالتماثل والتشابه.

تمثيل غير خاضع للإشراف يتعلم مع شبكات الخصام التوافقي العميق (2016) بواسطة Radford et al

استنتاج

هناك مساحة كبيرة للاستكشاف الإبداعي من خلال التعلم الآلي. كتابة الشعر ، وتسريع الصور ، وجعل التشبيهات البصرية والنصية. يجادل البعض بأن أتمتة الأنشطة البشرية هي مهمة أحمق ، وأن الهدف الحقيقي يجب أن يكون زيادة الإبداع الإنساني والفضول - أدوات مثل Terrapattern ، أو Neural Doodle. أنا شخصياً أعتقد أن عملية إعادة التشكيل هذه قد تكون آلية مواكبة لتغيير طويل الأجل مزعج في طريقة إنتاج القطع الأثرية الإبداعية. ليس هناك سبب واضح لأن النظام الحسابي لا يمكن أن يكون مؤلفًا مفضلاً للخيال أو الشعر أو الموسيقى على غرار طريقة تعامل AlphaGo مع أحد مشغلات Go المفضلة لدينا. لا يمكنني القول أن الشعر له هدف نهائي واضح وقابل للقياس وجاهز للتحسين بنفس الطريقة التي يتبعها Go. ولكن مثل Go ، فإن الشعر لا يتعلق بعلاقة بين الرموز المجردة والتجربة الحية. هناك الكثير من الأمثلة على كليهما ، وقد نجد روابط بوت مثيرة للاهتمام بطريقة فريدة من نوعها. أنا أزعم أن هناك الكثير من الشعر بالفعل على الصور والنصوص التي تنتجها التقنيات أعلاه.

بالنسبة لي ، فأنا أقل اهتمامًا بتقليد الإبداع الإنساني في حد ذاته. أنا متحمس أكثر لإمكانية قيام الروبوتات الإبداعية بتقويض مشاعرنا الفريدة وفهمنا لأهميتنا الفنية أو الفكرية. إن لحظاتي المفضلة ليست في تقدير المخرجات الجميلة لبعض عمليات نقل الأناقة ، أو قراءة مقاطع صوتية مؤلمة من char-rnn ، ولكن المفاجأة والإحباط التي لا يمكن فصلها عن التجربة بأكملها. مزيج الخوف والبهجة في رؤية نظام أوتوماتيكي يحقق شيئًا ما يبدو مستحيلًا على التشغيل الآلي. من دواعي سروري وخوف من اجتماع المخابرات الغريبة. تلك هي المشاعر التي أعاني منها ، ولهذا السبب أواصل العودة إلى التعلم الآلي.

أنظر أيضا

كيفية تطوير عادة القراءة اليومية في 15 دقيقة في اليوم3 مراحل يجب أن تمر كل المهنية الإبداعيةفن المغادرةبذور النباتات اليوم لمن تريد في النهاية أن تصبح10.5 ألف متابع و 0.5 مليون مشاهدة في 8 أشهر ، كيف حدث ذلككيف يصبح الفن العادي غير عادي