![ফেসবুকে ৫০০ অটো লাইক ১ ক্লিকে](https://i.ytimg.com/vi/QenMPRRjwW8/hqdefault.jpg)
কন্টেন্ট
স্থানীয় ভিডিও এবং ওয়েব ক্লিপের ক্যাপশন তৈরি করতে অন-ডিভাইস মেশিন লার্নিং ব্যবহার করে লাইভ ক্যাপশন হ'ল অ্যান্ড্রয়েড বৈশিষ্ট্যগুলির মধ্যে একটি।
গুগল এই নিফটি বৈশিষ্ট্যটি ঠিক কীভাবে কাজ করে সে সম্পর্কে একটি ব্লগ পোস্ট প্রকাশ করেছে এবং এটি শুরুতে তিনটি অন-ডিভাইস মেশিন লার্নিং মডেল নিয়ে শুরু করে।
স্পিচ সনাক্তকরণের জন্য নিজেই পুনরাবৃত্ত নিউরাল নেটওয়ার্ক সিকোয়েন্স ট্রান্সডাকশন (আরএনএন-টি) মডেল রয়েছে তবে গুগল বিরামচিহ্নের পূর্বাভাস দেওয়ার জন্য একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্কও ব্যবহার করছে।
তৃতীয় অন-ডিভাইস মেশিন লার্নিং মডেলটি হ'ল পাখির বাজপাখি, লোকের হাততালি এবং সংগীতের মতো শব্দ ইভেন্টগুলির জন্য একটি কনভোলসিয়াল নিউরাল নেটওয়ার্ক (সিএনএন)। গুগল বলছে যে এই তৃতীয় মেশিন লার্নিং মডেলটি লাইভ ট্রান্সক্রাইব অ্যাক্সেসিবিলিটি অ্যাপ্লিকেশনটিতে কাজ করা থেকে উদ্ভূত হয়েছে যা স্পিচ এবং সাউন্ড ইভেন্টগুলি প্রতিলিপি করতে সক্ষম হয়।
লাইভ ক্যাপশনের প্রভাব হ্রাস করা
সংস্থাটি বলেছে যে এটি লাইভ ক্যাপশনের ব্যাটারির ব্যবহার এবং কর্মক্ষমতা চাহিদা কমাতে বেশ কয়েকটি পদক্ষেপ নিয়েছে।একটির জন্য, সম্পূর্ণ অটোমেটিক স্পিচ রিকগনিশন (এএসআর) ইঞ্জিন কেবল তখনই সঞ্চালিত হয় যখন বক্তৃতাটি সনাক্ত করা হয়, পটভূমিতে ক্রমাগত চলার বিপরীতে।
“উদাহরণস্বরূপ, যখন সংগীত সনাক্ত হয় এবং অডিও স্ট্রিমে বক্তৃতা উপস্থিত না হয়, তখন লেবেলটি স্ক্রিনে উপস্থিত হবে এবং এএসআর মডেলটি লোড হবে। এএসআর মডেলটি কেবলমাত্র অডিও প্রবাহে যখন বক্তৃতা উপস্থিত হয় তখন কেবল স্মৃতিতে ফিরে আসে, "গুগল তার ব্লগ পোস্টে ব্যাখ্যা করে।
গুগল স্নায়ু সংযোগ ছাঁটাইয়ের মতো প্রযুক্তিও ব্যবহার করেছে (স্পিচ মডেলের আকার কেটে ফেলতে), বিদ্যুতের খরচ 50% হ্রাস করে এবং লাইভ ক্যাপশনকে অবিচ্ছিন্নভাবে চলতে দেয়।
গুগল ব্যাখ্যা করেছে যে ক্যাপশনটি তৈরি হওয়ার সাথে সাথে প্রতি সেকেন্ডে কথার স্বীকৃতি ফলাফলগুলি কয়েকবার আপডেট করা হয়, তবে বিরামচিহ্নের পূর্বাভাস আলাদা different অনুসন্ধান জায়ান্ট বলেছেন যে এটি সম্পদের চাহিদা হ্রাস করার জন্য "অতি সাম্প্রতিক স্বীকৃত বাক্য থেকে পাঠ্যের লেজের উপরে" বিরামচিহ্ন পূর্বাভাস সরবরাহ করে।
লাইভ ক্যাপশন এখন গুগল পিক্সেল 4 সিরিজে উপলব্ধ এবং গুগল বলছে এটি পিক্সেল 3 সিরিজ এবং অন্যান্য ডিভাইসে "শীঘ্রই" উপলব্ধ হবে। সংস্থাটি বলেছে যে এটি অন্যান্য ভাষাগুলির জন্য সমর্থন এবং মাল্টি-স্পিকার সামগ্রীর জন্য আরও ভাল সমর্থন নিয়ে কাজ করছে।