نيويورك، 16 مارس 2026 — أعلنت شركة D‑ID، الرائدة في حلول الواجهات البصرية المؤسسية المعتمدة على الذكاء الاصطناعي، عن إطلاق الجيل الجديد V4 Expressive Visual Agents — وكلاء بصريون تعبيريّون عاليو الدقة مصممون للمحادثات الفورية المتصلة بنماذج اللغة الكبيرة ولإنتاج محتوى فيديو مؤسسي طويل النصّ.
يعتمد النموذج الجديد على آلية نشر مبنية على الانتشار (diffusion) وتدرّب على أداء ممثلين حقيقيين، مما يمنح V4 سرعة أكبر في التوليد، وزمن استجابة منخفضًا (دورات حوار أقل من 0.5 ثانية)، وتزامن شفوي دقيق، حتى بدقة تصل إلى 4K، ما يتيح تفاعلات طبيعية ومعبرة قابلة للتوسع عبر حالات استخدام مؤسسية متعددة.
متاح اليوم لما يزيد عن 1500 عميل مؤسسي وملايين المشتركين والمستخدمين، تم تصميم أفاتارات V4 خصيصًا لتسليم منخفض الكمون، ما يجعلها مناسبة لتجارب المحادثة اللحظية، وكذلك لإنتاجات طويلة مثل وحدات التدريب، ومقاطع الشرح، والفيديوهات التعليمية متعددة اللغات. حتى الآن، تم إنشاء أكثر من 800,000 وكيل بصري و300 مليون أفاتار غير تفاعلي باستخدام نماذج D‑ID السابقة. عند الإطلاق، تتاح V4 Expressive Visual Agents في جميع خطط D‑ID، بدءًا من 5.90 دولارًا شهريًا، ما يعكس كفاءة تكاليفية كبيرة للنموذج الجديد.
تشير الأدلة البحثية إلى أن الإشارات الوجهية الشبيهة بالبشر تعزز نقل المعرفة واحتفاظ المتعلمين وفهمهم. ولهذا تتبنى المؤسسات أفاتارات عالية الدقة بوتيرة متزايدة لعمليات الانضمام، والتدريب، والتفاعل مع العملاء، والاتصالات الداخلية، خاصةً حيث تكون الوضوح والثقة والاتساق أمورًا محورية.
تُعد V4 أول أفاتارات تعبيرية عالية الجودة تتوافق ديناميكيًا مع المشاعر المحددة، بحيث يتطابق النبرة والنية مع المضمون المنطوق. يسمح ذلك لخطاب المتحدث بالوصول بوضوح وثقة، مع إيقاع وتأكيد طبيعيين. صُممت هذه الأفاتارات لتعمل كطبقة واجهة بصرية لأنظمة الذكاء الاصطناعي، تمكّن تفاعلًا ثنائي الاتجاه في الزمن الحقيقي بدلًا من تشغيل فيديو أحادي الاتجاه. بينما يرد نموذج اللغة، يتكيف الأفاتار تلقائيًا في تعابير الوجه وأسلوب الإلقاء حسب السياق والمشاعر؛ فتبدو التعاطف متعاطفًا، وتبدو العجلة عاجلة، وتبدو الثقة واثقة — ما يجعل الوكلاء الموجهين للعملاء وموظفي المؤسسات أكثر طبيعية وجديرة بالثقة وفاعلية.
تضيف V4 أيضًا خيار طبقة كاميرا لتمكين الوعي العاطفي في الزمن الحقيقي، تغذي الإشارات غير اللفظية كلًا من استجابة نموذج اللغة وتوصيل الأفاتار التعبيري، بما في ذلك النبرة وتعبيرات الوجه. بالإضافة إلى ذلك، يمكن لأفاتارات V4 عرض عناصر واجهة تفايلية داخل المحادثة لمشاركة مرئيات سياقية مثل الصور والرسوم البيانية والفيديو، فضلاً عن تفاعلات مُهيكلة مثل النماذج والاختبارات، ممكَّنة عبر تطبيقات MCP.
على خلاف أدوات توليد الفيديو القصير المصممة لمقاطع سينمائية تستمر ثوانٍ فقط، فقد صُممت أفاتارات V4 لإنتاج متواصل ومستقر. يمكن للمؤسسات توليد دقائق أو ساعات من الفيديو بهوية أفاتار ثابتة، وإجراء محادثات زمن‑حقيقي على نطاق واسع بتكلفة جزء بسيط (أرخص بنحو 70 مرة من Google VEO 3 Fast)، ما يجعلها أكثر فعالية من حيث التكلفة للدورات، والشروحات، والتدريب متعدد اللغات، وسلاسل المحتوى القابلة للتكرار. تتراكم هذه المدخرات بشكل أكبر في التفاعلات الفورية، حيث لا تتجاوز التكلفة بنسات لكل جلسة دردشة عند استخدام D‑ID.
قال جيل بيري، الشريك المؤسس والرئيس التنفيذي لشركة D‑ID: «قطعنا شوطًا كبيرًا منذ نماذجنا الأولى التي أبهرنا بها العالم بتحويل الصور الثابتة إلى بورتريهات ناطقة. اليوم، مع V4 نضع معيارًا جديدًا لدقة الأفاتار وأدائه مع الحفاظ على سرعة كافية للمحادثات اللحظية، وموثوقية وكفاءة وأمان مناسبين لقياس المؤسسات. هذا التقدم في تكنولوجيا الأفاتار يضع D‑ID في موقع الريادة لتوفير طبقة الواجهة البصرية للموجة القادمة من تبني الذكاء الاصطناعي بينما تسعى الشركات لجعل التفاعلات أكثر طبيعية وإنسانية.»
بعد استحواذها على simpleshow في سبتمبر 2025، وسعت D‑ID انتشارها المؤسسي ودمجت قدرات الأفاتار في منظومة simpleshow لفيديوهات التدريب والشروحات للشركات. منذ ذلك الحين نما ARR الخاص بـ D‑ID بنسبة 250%، مما يعكس توسيع عمليات البيع المتقاطع وارتفاع الطلب المؤسسي على الفيديو التفاعلي المدفوع بالذكاء الاصطناعي.
عن D‑ID
تُعد D‑ID الشركة الرائدة عالميًا في الذكاء الاصطناعي التوليدي للفيديو والبشر الرقميين، وتمكّن تفاعلاً سلسًا وفي الزمن الحقيقي عبر واجهة Real‑Time Streaming API. تقود تقنيتها مقدّمين رقميين شبيهين بالحياة، ورفقاء تعلم، ومساعدين افتراضيين لشركات من فئة Fortune 500 ومنظمات ذات مهمات مجتمعية. في سبتمبر 2025 استحوذت D‑ID على simpleshow، الرائدة عالميًا في إنشاء فيديوهات الشرح المعتمدة على الذكاء الاصطناعي؛ وتقع simpleshow في برلين وتساعد مؤسسات في أكثر من 70 دولة على تبسيط الرسائل المعقدة عبر اتصالات فيديو ذكية وقابلة للتوسع ومحورية للإنسان.