অনলাইন ডেস্ক
বেশ কয়েক বছর ধরেই এআই বা কৃত্রিম বুদ্ধিমত্তাভিত্তিক নতুন নতুন ধারণা ও মডেল নিয়ে আসছে গুগলের গবেষকেরা। এবার ‘ভ্লগার এআই’ নামের নতুন এক প্রযুক্তি নিয়ে এসেছেন তাঁরা। শুধু একটি ছবির মাধ্যমে বাস্তবসম্মত অ্যাভাটার বা অবতার তৈরি করে দেবে এই মডেল। আর অবতারটি নিজের কন্ঠের মাধ্যমে নিয়ন্ত্রণ করা যাবে।
ভ্লগার এআই কি
বর্তমানে ভ্লগার এআই কতগুলো মজার ভিডিওর উদাহরণসহ শুধু একটি গবেষণা প্রকল্প। তবে মডেলটি উন্মোচন করা হলে তা যোগাযোগের জন্য একটি অনন্য পণ্য হবে।
এআই মডেলটির মাধ্যমে শুধু একটি ছবি থেকে অ্যানিমেটেড অ্যাভাটার তৈরি করা যাবে এবং এটি খুবই বাস্তবসম্মত হবে। অর্থাৎ আসল ব্যক্তির সঙ্গে অবতারটির মিল থাকবে। এই অবতার দিয়ে একটি ভিডিও তৈরি করা যাবে। ভিডিওটি বাস্তবসম্মত হবে।
মডেলটির সঙ্গে অডিও ফাইল যুক্ত করা হবে। ফলে অবতারটি মানুষের মতো কথা বলতে পারবে ও ওই ব্যক্তির মতো অঙ্গভঙ্গি ও ঠোঁটের নড়াচড়া করতে পারবে। এসব অঙ্গভঙ্গির মধ্যে রয়েছে মাথা নাড়ানো, চেহারার অভিব্যক্তি, চোখের চাহনি, পলক ফেলা, হাত নাড়ানো ও শরীরে ওপরের অংশ নাড়ানো। এসব অঙ্গভঙ্গির জন্য ছবি ও অডিও ছাড়া আলাদা কোনো রেফারেন্স দিতে হবে না।
ভ্লগার এআই যেভাবে কাজ করে
ডিফিউশন মডেলের ওপর ভিত্তি করে কাজ করে ভ্লগার এআই। যেসব ডেটার ওপর ভিত্তি করে প্রশিক্ষণ দেওয়া হয় সেগুলোর অনুরূপ ডেটা তৈরি করতে পারে এই ডিফিউশন মডেল। এই প্রযুক্তি সাধারণত মিডজার্নি ও রানওয়ে মডেলের মতো টেক্সট টু ইমেজ ও ৩ডি মডেলে ব্যবহার করা হয়। তবে ভ্লগার এআইকে এসব মডেলের চেয়ে বেশি নিয়ন্ত্রণ করা যাবে।
কয়েকটি ধাপে অবতার তৈরি করে ভ্লগার এআই। প্রথমে এটি অডিও ও ছবিকে ইনপুট হিসেবে গ্রহণ করে। এসব ডেটাকে ৩ডি মোশন জেনারেশনের মাধ্যমে প্রক্রিয়াকরণ করা হয়। এটি ‘টেম্পরাল ডিফিউশন’ মডেল ব্যবহার করে অবতারের নড়াচড়া নির্ধারণ করে। সবশেষে অবতারটিতে চূড়ান্ত করা হয়।
মডেলটি একটি নিউরাল নেটওয়ার্কের মাধ্যমে মুখ, শরীর, অঙ্গভঙ্গি, অভিব্যক্তি ও চাহনি ইত্যাদি অনুমান করে। ভিডিওর প্রথম ফ্রেমের জন্য ছবি ও অবতারটি কী কী করবে তার জন্য অডিও ডেটা ব্যবহার করবে।
এআই মডেলকে প্রশিক্ষণের জন্য মাল্টিমিডিয়া ডেটা সেট ‘মেনটর’ ব্যবহার করা হয়েছে। এতে মানুষের একে অপরের সঙ্গে কথা বলার প্রায় ৮০ হাজার ভিডিও রয়েছে। এসব ভিডিওতে মানুষের মুখ ও শরীর লেবেল করা হয়েছে।
ভ্লগার এআইয়ের সীমাবদ্ধতা
যদিও এই মডেল বাস্তবসম্মত অঙ্গভঙ্গি করতে পারে, তবে প্রতিটি ক্ষেত্রে এটি একই রকম ফলাফল দেখায় না। মুখের কথার সঙ্গে অনেক সময় অবতারের অঙ্গভঙ্গি মিলতে নাও পারে। যেহেতু এটি মূলত একটি ডিফিউশন মডেল তাই এটি মাঝে মধ্যে এর আচরণ উদ্ভট হতে পারে।
গবেষক দল বলেন, মডেলটি বিস্তৃত আচরণ ও সব পরিবেশের ক্ষেত্রে কাজ করে না। আর এর মাধ্যমে শুধু ছোট দৈর্ঘ্যের ভিডিও বানানো যাবে।
যেসব ক্ষেত্রে ভ্লগার এআই ব্যবহার করা যাবে
ভ্লগার এআই ব্যবহারের প্রাথমিক উপায় হলো এটি ভিডিও অনুবাদের জন্য ব্যবহার করা। এই মডেল ভার্চুয়াল অ্যাসিস্ট্যান্ট, চ্যাটবট ও গেমিংয়ের ক্ষেত্রে ভার্চুয়াল চরিত্রের জন্য ব্যবহার করা যায়।
সিনথেসিয়ার মতো মডেলে এই ধরনের টুল আছে। এর মাধ্যমে বিভিন্ন কোম্পানির অফিসে ভার্চুয়াল অবতার তৈরি করা হয়। এসব অবতার প্রেজেন্টেশনে ব্যবহার করা হয়। তবে গুগলের নতুন মডেলটি এই প্রক্রিয়া আরও সহজ করবে।
যেসব জায়গায় দুর্বল নেটওয়ার্কের জন্য ভিডিও যোগাযোগের বিঘ্ন হয় সেখানে মডেলটি কাজে লাগবে। ছবি থেকে অ্যাভাটার তৈরি করে ভিডিও চ্যাটেও সাহায্য করতে পারবে নতুন সংস্করণের এই মডেল।
এ ছাড়া ভার্চুয়াল রিয়্যালিটি প্রযুক্তির জন্যও এই ভিডিও কাজে লাগবে। যেমন, মেটা কোয়েস্ট বা অ্যাপল ভিশন প্রো হেডসেটের জন্য নিজের অবতার তৈরিতে এই মডেল ব্যবহার করা যাবে।
তবে মডেলটি এখনো পরীক্ষা–নিরীক্ষামূলক পর্যায়ে রয়েছে। তাই সাধারণ গ্রাহকেরা ব্যবহার জন্য উন্মুক্ত করতে আরও সময়ের প্রয়োজন।
তথ্যসূত্র: টমস গাইড
প্রযুক্তি সম্পর্কিত আরও পড়ুন:
বেশ কয়েক বছর ধরেই এআই বা কৃত্রিম বুদ্ধিমত্তাভিত্তিক নতুন নতুন ধারণা ও মডেল নিয়ে আসছে গুগলের গবেষকেরা। এবার ‘ভ্লগার এআই’ নামের নতুন এক প্রযুক্তি নিয়ে এসেছেন তাঁরা। শুধু একটি ছবির মাধ্যমে বাস্তবসম্মত অ্যাভাটার বা অবতার তৈরি করে দেবে এই মডেল। আর অবতারটি নিজের কন্ঠের মাধ্যমে নিয়ন্ত্রণ করা যাবে।
ভ্লগার এআই কি
বর্তমানে ভ্লগার এআই কতগুলো মজার ভিডিওর উদাহরণসহ শুধু একটি গবেষণা প্রকল্প। তবে মডেলটি উন্মোচন করা হলে তা যোগাযোগের জন্য একটি অনন্য পণ্য হবে।
এআই মডেলটির মাধ্যমে শুধু একটি ছবি থেকে অ্যানিমেটেড অ্যাভাটার তৈরি করা যাবে এবং এটি খুবই বাস্তবসম্মত হবে। অর্থাৎ আসল ব্যক্তির সঙ্গে অবতারটির মিল থাকবে। এই অবতার দিয়ে একটি ভিডিও তৈরি করা যাবে। ভিডিওটি বাস্তবসম্মত হবে।
মডেলটির সঙ্গে অডিও ফাইল যুক্ত করা হবে। ফলে অবতারটি মানুষের মতো কথা বলতে পারবে ও ওই ব্যক্তির মতো অঙ্গভঙ্গি ও ঠোঁটের নড়াচড়া করতে পারবে। এসব অঙ্গভঙ্গির মধ্যে রয়েছে মাথা নাড়ানো, চেহারার অভিব্যক্তি, চোখের চাহনি, পলক ফেলা, হাত নাড়ানো ও শরীরে ওপরের অংশ নাড়ানো। এসব অঙ্গভঙ্গির জন্য ছবি ও অডিও ছাড়া আলাদা কোনো রেফারেন্স দিতে হবে না।
ভ্লগার এআই যেভাবে কাজ করে
ডিফিউশন মডেলের ওপর ভিত্তি করে কাজ করে ভ্লগার এআই। যেসব ডেটার ওপর ভিত্তি করে প্রশিক্ষণ দেওয়া হয় সেগুলোর অনুরূপ ডেটা তৈরি করতে পারে এই ডিফিউশন মডেল। এই প্রযুক্তি সাধারণত মিডজার্নি ও রানওয়ে মডেলের মতো টেক্সট টু ইমেজ ও ৩ডি মডেলে ব্যবহার করা হয়। তবে ভ্লগার এআইকে এসব মডেলের চেয়ে বেশি নিয়ন্ত্রণ করা যাবে।
কয়েকটি ধাপে অবতার তৈরি করে ভ্লগার এআই। প্রথমে এটি অডিও ও ছবিকে ইনপুট হিসেবে গ্রহণ করে। এসব ডেটাকে ৩ডি মোশন জেনারেশনের মাধ্যমে প্রক্রিয়াকরণ করা হয়। এটি ‘টেম্পরাল ডিফিউশন’ মডেল ব্যবহার করে অবতারের নড়াচড়া নির্ধারণ করে। সবশেষে অবতারটিতে চূড়ান্ত করা হয়।
মডেলটি একটি নিউরাল নেটওয়ার্কের মাধ্যমে মুখ, শরীর, অঙ্গভঙ্গি, অভিব্যক্তি ও চাহনি ইত্যাদি অনুমান করে। ভিডিওর প্রথম ফ্রেমের জন্য ছবি ও অবতারটি কী কী করবে তার জন্য অডিও ডেটা ব্যবহার করবে।
এআই মডেলকে প্রশিক্ষণের জন্য মাল্টিমিডিয়া ডেটা সেট ‘মেনটর’ ব্যবহার করা হয়েছে। এতে মানুষের একে অপরের সঙ্গে কথা বলার প্রায় ৮০ হাজার ভিডিও রয়েছে। এসব ভিডিওতে মানুষের মুখ ও শরীর লেবেল করা হয়েছে।
ভ্লগার এআইয়ের সীমাবদ্ধতা
যদিও এই মডেল বাস্তবসম্মত অঙ্গভঙ্গি করতে পারে, তবে প্রতিটি ক্ষেত্রে এটি একই রকম ফলাফল দেখায় না। মুখের কথার সঙ্গে অনেক সময় অবতারের অঙ্গভঙ্গি মিলতে নাও পারে। যেহেতু এটি মূলত একটি ডিফিউশন মডেল তাই এটি মাঝে মধ্যে এর আচরণ উদ্ভট হতে পারে।
গবেষক দল বলেন, মডেলটি বিস্তৃত আচরণ ও সব পরিবেশের ক্ষেত্রে কাজ করে না। আর এর মাধ্যমে শুধু ছোট দৈর্ঘ্যের ভিডিও বানানো যাবে।
যেসব ক্ষেত্রে ভ্লগার এআই ব্যবহার করা যাবে
ভ্লগার এআই ব্যবহারের প্রাথমিক উপায় হলো এটি ভিডিও অনুবাদের জন্য ব্যবহার করা। এই মডেল ভার্চুয়াল অ্যাসিস্ট্যান্ট, চ্যাটবট ও গেমিংয়ের ক্ষেত্রে ভার্চুয়াল চরিত্রের জন্য ব্যবহার করা যায়।
সিনথেসিয়ার মতো মডেলে এই ধরনের টুল আছে। এর মাধ্যমে বিভিন্ন কোম্পানির অফিসে ভার্চুয়াল অবতার তৈরি করা হয়। এসব অবতার প্রেজেন্টেশনে ব্যবহার করা হয়। তবে গুগলের নতুন মডেলটি এই প্রক্রিয়া আরও সহজ করবে।
যেসব জায়গায় দুর্বল নেটওয়ার্কের জন্য ভিডিও যোগাযোগের বিঘ্ন হয় সেখানে মডেলটি কাজে লাগবে। ছবি থেকে অ্যাভাটার তৈরি করে ভিডিও চ্যাটেও সাহায্য করতে পারবে নতুন সংস্করণের এই মডেল।
এ ছাড়া ভার্চুয়াল রিয়্যালিটি প্রযুক্তির জন্যও এই ভিডিও কাজে লাগবে। যেমন, মেটা কোয়েস্ট বা অ্যাপল ভিশন প্রো হেডসেটের জন্য নিজের অবতার তৈরিতে এই মডেল ব্যবহার করা যাবে।
তবে মডেলটি এখনো পরীক্ষা–নিরীক্ষামূলক পর্যায়ে রয়েছে। তাই সাধারণ গ্রাহকেরা ব্যবহার জন্য উন্মুক্ত করতে আরও সময়ের প্রয়োজন।
তথ্যসূত্র: টমস গাইড
প্রযুক্তি সম্পর্কিত আরও পড়ুন:
আইফোনের জন্য নতুন আইওএস ১৮.১. ১ সফটওয়্যার আপডেট নিয়ে এসেছে অ্যাপল। ডিভাইসের নিরাপত্তা বিষয়ক ত্রুটি সারাতে নতুন আপডেটটি নিয়ে আসা হয়েছে। আইফোনের সকল ব্যবহারকারীরকে আপডেটটি ইনস্টল করার পরামর্শ দিয়েছে অ্যাপল। তবে এই আপডেটের মাধ্যমে আইফোনে নতুন কোন ফিচার যুক্ত হবে না।
৬ ঘণ্টা আগেকৃত্রিম বুদ্ধিমত্তা (এআই) প্রযুক্তি ব্যবহার করে বৈজ্ঞানিক আবিষ্কারের জন্য বিজ্ঞানী ও গবেষকদের ২০ মিলিয়ন ডলার অনুদান দেবে গুগল। সেই সঙ্গে ২০ লাখ ডলার মূল্যের ক্লাউড সেবাও বরাদ্দ করবে টেক জায়ান্টটি। গত সোমবার এই উদ্যোগের ঘোষণা দেন গুগল ডিপমাইন্ডের সহ-প্রতিষ্ঠাতা এবং সিইউ ডেমিস হাসাবিস।
৭ ঘণ্টা আগেপেশাদার ফটোগ্রাফার এবং ভিডিওগ্রাফারদের জন্য ফুল-ফ্রেম মিররলেস ক্যামেরা ‘আলফা ১ II’ নিয়ে আসছে সনি ইলেকট্রনিকস। এই ক্যামেরায় দ্রুত গতিতে উচ্চ রেজল্যুশনের ছবি তোলা যাবে। সেই সঙ্গে এতে কৃত্রিম বুদ্ধিমত্তাভিত্তিক (এআই) বেশ কিছু ফিচারও যুক্ত করা হয়েছে। তাই ক্যামেরাটি দিয়ে বন্যপ্রাণী, খেলাধুলা পোর্ট্রেট...
৯ ঘণ্টা আগেঅ্যান্ড্রয়েড অপারেটিং সিস্টেম চালিত পিক্সেল ল্যাপটপ নিয়ে আসতে পারে টেক জায়ান্ট গুগল। এটি একটি উচ্চমানের পিক্সেল ল্যাপটপ হতে পারে। গুগলের এই প্রকল্পে একটি নিবেদিত দল কাজ করছে...
১০ ঘণ্টা আগে