বক্তৃতাকে পাঠ্যে রূপান্তর করা হচ্ছে: কীভাবে একটি সরল ডিক্টেশন অ্যাপ তৈরি করতে হয়

লেখক: Lewis Jackson
সৃষ্টির তারিখ: 13 মে 2021
আপডেটের তারিখ: 1 জুলাই 2024
Anonim
কিভাবে অডিও টেক্সট প্রতিলিপি (ভিডিও ট্রান্সক্রিপশন টিউটোরিয়াল!)
ভিডিও: কিভাবে অডিও টেক্সট প্রতিলিপি (ভিডিও ট্রান্সক্রিপশন টিউটোরিয়াল!)

কন্টেন্ট


অনেকগুলি অ্যাপ্লিকেশন, পরিষেবা এবং পরিবারের গ্যাজেটগুলি আরও ভাল ব্যবহারকারীর অভিজ্ঞতা সরবরাহ এবং অ্যাক্সেসযোগ্যতার উন্নতি করতে স্পিচ স্বীকৃতি ব্যবহার করে। এমন অসংখ্য অ্যান্ড্রয়েড অ্যাপ রয়েছে যা স্পিচ রিকগনিশন ব্যবহার করে - যার মধ্যে সর্বাধিক উল্লেখযোগ্য গুগল অ্যাসিস্ট্যান্ট - তবে স্যুট অনুসরণ না করে নিজের অ্যান্ড্রয়েড অ্যাপ্লিকেশনগুলিতে এই বৈশিষ্ট্যটি যুক্ত করবেন না কেন?

এই নিবন্ধে, আমি অ্যান্ড্রয়েডের স্পিচ-টু-টেক্সট ইন্টেন্টের সাথে শুরু করার জন্য একটি দ্রুত এবং সহজ উপায় ভাগ করব, যা বিভিন্ন অ্যাপ্লিকেশনের ক্ষেত্রে দরকারী। উদাহরণস্বরূপ, আপনি ক্লান্তিকর ম্যানুয়াল ডেটা এন্টি স্বয়ংক্রিয় করতে স্পিচ স্বীকৃতি ব্যবহার করতে পারেন, স্বয়ংক্রিয়ভাবে সাবটাইটেলগুলি তৈরি করতে পারেন বা এমনকি ভোকাল ইনপুটটিতে "শ্রবণ করে" এমন অনুবাদ অ্যাপ্লিকেশনটির ভিত্তি হিসাবে এটি পাঠ্যে রূপান্তরিত করে, তারপরে এই পাঠ্যটি অনুবাদ করে এবং ফলাফলগুলিতে প্রদর্শিত হয় ব্যবহারকারী.

আপনি যে ধরণের অ্যাপ্লিকেশন তৈরি করেন তা নির্বিশেষে, স্পিচ স্বীকৃতি ব্যবহারকারীদের আপনার অ্যাপ্লিকেশনের সাথে ইন্টারঅ্যাক্ট করার বিকল্প উপায় সরবরাহ করে অ্যাক্সেসযোগ্যতার উন্নতি করতে পারে। উদাহরণস্বরূপ, গতিশীলতা, দক্ষতা বা দর্শন সমস্যাযুক্ত লোকেরা টাচস্ক্রিন বা কীবোর্ডের চেয়ে ভয়েস কমান্ড ব্যবহার করে মোবাইল অ্যাপ্লিকেশনগুলিতে নেভিগেট করা সহজতর হতে পারে। অধিকন্তু, বিশ্ব স্বাস্থ্য সংস্থার (ডাব্লুএইচও) মতে, এক বিলিয়নেরও বেশি লোকের কিছুটা অক্ষমতা রয়েছে, যা বিশ্বের জনসংখ্যার প্রায় ১৫% এর সমান। আপনার অ্যাপ্লিকেশনগুলিতে অ্যাক্সেসযোগ্যতার বৈশিষ্ট্যগুলি যুক্ত করা আপনার সম্ভাব্য শ্রোতাদের উল্লেখযোগ্যভাবে বাড়াতে পারে।


এই নিবন্ধের শেষে, আপনি একটি সাধারণ স্পিচ-টু-টেক্সট অ্যাপ্লিকেশন তৈরি করেছেন যা আপনার ভয়েস রেকর্ড করে, পাঠ্যে রূপান্তর করে এবং সেই পাঠ্যটি অন স্ক্রিনে প্রদর্শন করে।

একটি স্পিচ-টু-টেক্সট ব্যবহারকারী ইন্টারফেস তৈরি করা

শুরু করতে, "খালি কার্যকলাপ" টেমপ্লেট ব্যবহার করে একটি নতুন অ্যান্ড্রয়েড প্রকল্প তৈরি করুন।

আমরা এমন একটি সাধারণ অ্যাপ্লিকেশন তৈরি করব যা একটি বোতামটি নিয়ে থাকে, যখন এটি টেপ করা হয়, অ্যান্ড্রয়েডের স্পিচ-টু-টেক্সট ইন্টেন্টকে ট্রিগার করে এবং এমন একটি ডায়লগ প্রদর্শন করে যা আপনার অ্যাপ স্পিচ ইনপুট গ্রহণ করতে প্রস্তুত তা নির্দেশ করে। ব্যবহারকারীর কথা শেষ হয়ে গেলে, তাদের ইনপুটটি পাঠ্যে রূপান্তরিত হবে এবং তারপরে একটি টেক্সটভিউয়ের অংশ হিসাবে প্রদর্শিত হবে।

আমাদের লেআউট তৈরি করে শুরু করা যাক:

এটি আমাদের নীচের লেআউট দেয়:


আপনার অ্যান্ড্রয়েড অ্যাপে স্পিচ স্বীকৃতি যুক্ত করা হচ্ছে

আমরা দুটি পদক্ষেপে স্পিচ ইনপুট ক্যাপচার এবং প্রক্রিয়া করি:

1. সনাক্তকারী সনাক্তকরণ শুরু করুন

স্পিচ-টু-টেক্সট রূপান্তর সম্পাদনের সহজতম উপায় হ'ল রিকনগাইজারআইটেন্ট Aঅ্যাকশন_RECOGNIZE_SPEECH ব্যবহার করা। এই অভিপ্রায়টি অ্যান্ড্রয়েডের পরিচিত মাইক্রোফোন ডায়ালগ বাক্স চালু করে ভোক্তার ইনপুটটির জন্য ব্যবহারকারীকে অনুরোধ করে।

ব্যবহারকারী একবার কথা বলা বন্ধ করলে, ডায়ালগটি স্বয়ংক্রিয়ভাবে বন্ধ হয়ে যায় এবং ACTION_RECOGNIZE_SPEECH একটি স্পিচ সনাক্তকারীর মাধ্যমে রেকর্ড করা অডিও প্রেরণ করবে।

আমরা বান্ডেলযুক্ত অতিরিক্ত সহ স্টার্টএক্টিভিটি ফর রিসাল্ট () ব্যবহার করে রিকগনাইজারআইটেন্ট .অ্যাকশন_RECOGNIZE_SPEECH শুরু করি। নোট করুন অন্যথায় নির্দিষ্ট না করা পর্যন্ত, সনাক্তকারী ডিভাইসের ডিফল্ট লোকেল ব্যবহার করবে।

সার্বজনীন শূন্য অনক্লিক করুন (দেখুন ভি) {// ট্রিগার দ্য রিকগনিজারআইটেন্ট ইন্টেন্ট // ইনটেন্ট ইন্টেন্ট = নতুন ইনটেন্ট (রিকগনিজারআইটেন্ট। এ্যাকশন_RECOGNIZE_SPEECH); চেষ্টা করুন {startActivityForResult (অভিপ্রায়, REQUEST_CODE); } ধরা (ক্রিয়াকলাপ নটফাউন্ডএক্সেপশন ক) {}}

2. বক্তৃতা প্রতিক্রিয়া প্রাপ্ত

একবার স্পিচ সনাক্তকরণ ক্রিয়াকলাপটি শেষ হয়ে গেলে, ACTION_RECOGNIZE_SPEECH ফলাফলগুলি কলিং কার্যকলাপে স্ট্রিংগুলির অ্যারে হিসাবে পাঠিয়ে দেবে।

যেহেতু আমরা স্টার্টঅ্যাক্টিভিটি ফর রিসাল্ট () এর মাধ্যমে রিকগনাইজার ইন্টেন্টটি ট্রিগার করেছি, আমরা স্পিচ রিকগনিশন কলটি শুরু করা ক্রিয়াকলাপে ক্রিয়াকলাপেঅ্যাক্টিভিটিস রেজাল্ট (ইন্ট রিকোস্টকোড, ইন রেজাল্টকোড, ইনটেন্ট ডেটা) ওভাররাইড করে ফলাফল ডেটা পরিচালনা করি।

বাক্য শনাক্তকারী আত্মবিশ্বাসের ক্রমবর্ধমান ক্রমে ফলাফলগুলি ফিরে আসে। সুতরাং, আমরা নিশ্চিত হয়েছি যে আমরা সর্বাধিক নির্ভুল পাঠ্য প্রদর্শন করছি আমাদের ফিরে আসা অ্যারেলিস্ট থেকে শূন্য অবস্থান নিতে হবে, তারপরে এটি আমাদের টেক্সটভিউতে প্রদর্শন করুন।

@ ওভাররাইড // আমাদের উদ্দেশ্য কলারের ক্রিয়াকলাপে একটি অনঅ্যাক্টিভিটিআরসাল্ট পদ্ধতিটি সংজ্ঞায়িত করুন // অ্যাক্টিভিটিস রেজাল্ট (সুরক্ষিত অনুরোধকোড, ইন রেজাল্টকোড, ইনটেন্ট ডেটা)। সুপার.অনঅ্যাক্টিভিটি রেজাল্ট (অনুরোধকোড, ফলাফলকোড, ডেটা); স্যুইচ (অনুরোধকোড) RE কেস REQUEST_CODE: {// যদি RESULT_OK ফেরত আসে ... // যদি (ফলাফলকোড == RESULT_OK && নাল! = ডেটা) {//... তারপর অ্যারেলিস্ট পুনরুদ্ধার করুন // অ্যারেলিস্ট ফলাফল = ডেটা.জেটস্ট্রিংআরলিস্টেক্সট্রা (রিকগনাইজারআইটেনট্রেটেক্সটরাস্ট্র); // আমাদের টেক্সটভিউ আপডেট করুন // টেক্সটআউটপুট.সেটেক্সট (রেজাল্ট.জেট (0)); } বিরতি; }}}}

মনে রাখবেন স্পিচ-টু-টেক্সটকে একটি সক্রিয় ইন্টারনেট সংযোগের প্রয়োজন হয় না, তাই এটি ব্যবহারকারী অফলাইন থাকা অবস্থায়ও এটি সঠিকভাবে কাজ করবে।

উপরের সমস্ত পদক্ষেপগুলি সমাপ্ত করার পরে, আপনার মেইনএ্যাকটিভিটির কিছু দেখতে এমন হওয়া উচিত:

আমদানি android.content.ActivityNotFoundException; আমদানি androidx.appcompat.app.appCompatActivity; আমদানি android.os.Bundle; আমদানি android.content.Inttent; আমদানি android.speech.RecognizerInttent; আমদানি android.widget.TextView; আমদানি অ্যান্ড্রয়েড.ভিউ.ভিউ; আমদানি java.util.ArrayList; সার্বজনীন শ্রেণীর মেইনএকটিভিটি অ্যাপকোম্প্যাটএটিভিটি প্রসারিত করে {বেসরকারী স্ট্যাটিক ফাইনাল ইন REQUEST_CODE = 100; ব্যক্তিগত পাঠ্যদর্শন পাঠ্য আউটপুট; @ ওভাররাইড সুরক্ষিত অকার্যকর অনক্রিট (বান্ডেল সেভড ইনস্ট্যান্সস্টেট) {সুপার.অনক্রিয়েট (সেভড ইনস্ট্যান্সস্টেট); setContentView (R.layout.activity_main); টেক্সটআউটপুট = (টেক্সটভিউ) সন্ধান ভিউবিআইআইডি (আর.আইডি.টেক্সটআউটপুট); } // বোতামটি টিপে // এই পদ্ধতিটি কল করা হয় জনসাধারণের শূন্য অনক্লিক করুন (ভি দেখুন) // "রিকগনাইজারআইট্যান্ট.অ্যাকশন_RECOGNIZE_SPEECH" ক্রিয়া সহ একটি ইন্টেন্ট তৈরি করুন // inte অভিপ্রায় উদ্দেশ্য = নতুন উদ্দীপনা (রিকগনিজারআইএনটিএটিএইচটিসি =COGNIZE_SPEECH); চেষ্টা করুন {// ক্রিয়াকলাপটি শুরু করুন এবং প্রতিক্রিয়াটির জন্য অপেক্ষা করুন // startActivityForResult (অভিপ্রায়, REQUEST_CODE); } ধরা (ActivityNotFoundException a) {}} @Orride // ফলাফলগুলি হ্যান্ডেল করুন // অ্যাক্টিভিটিস রিসাল্টের সুরক্ষিত ফলাফল (int অনুরোধকোড, ইন্ট রেজাল্টকোড, ইনটেন্ট ডেটা) {সুপার.অনঅ্যাক্টিভিটি রেজাল্ট (অনুরোধকোড, ফলাফলকোড, ডেটা); স্যুইচ (অনুরোধ কোড) {কেস REQUEST_CODE: {যদি (ফলাফল কোড == RESULT_OK && নাল! = ডেটা) {অ্যারেলিস্ট ফলাফল = ডেটা.জেটস্ট্রিংআরলিস্টেক্সট্রা (রিকগনাইজারআইটেনট্রেটেক্সটরাস্ট্র); textOutput.setText (result.get (0)); } বিরতি; }}}}

আপনি সম্পূর্ণ প্রকল্পটি গিটহাব থেকে ডাউনলোড করতে পারেন।

আপনার প্রকল্প পরীক্ষা করা হচ্ছে

আপনার আবেদন পরীক্ষা করার জন্য:

  • আপনার প্রকল্পটি কোনও শারীরিক অ্যান্ড্রয়েড ডিভাইস বা একটি Android ভার্চুয়াল ডিভাইস (এভিডি) এ ইনস্টল করুন। আপনি যদি কোনও এভিডি ব্যবহার করছেন, আপনার বিকাশ মেশিনে অবশ্যই একটি অন্তর্নির্মিত মাইক্রোফোন থাকতে হবে বা আপনি একটি বাহ্যিক মাইক্রোফোন বা হেডসেট ব্যবহার করতে পারেন।
  • অ্যাপ্লিকেশনটির "স্টার্ট ডিক্টেশন" বোতামটি আলতো চাপুন।
  • যখন মাইক্রোফোন ডায়ালগ বাক্সটি উপস্থিত হয়, তখন আপনার ডিভাইসে কথা বলুন। কয়েক মুহুর্তের পরে, আপনার শব্দগুলি অন স্ক্রিনে উপস্থিত হওয়া উচিত।

মোড়ক উম্মচন

এই নিবন্ধে আমরা দেখেছি কীভাবে আপনি স্পিচ-টু-টেক্সট ইনটেন্টটি ব্যবহার করে আপনার অ্যান্ড্রয়েড অ্যাপ্লিকেশনগুলিতে স্পিচ স্বীকৃতিটি দ্রুত এবং সহজেই যুক্ত করতে পারেন। আপনি কি এমন কোনও অ্যান্ড্রয়েড অ্যাপসের মুখোমুখি হয়েছেন যা আশ্চর্যজনক বা উদ্ভাবনী উপায়ে স্পিচ স্বীকৃতি ব্যবহার করে?

পরবর্তী: গুগল আরকোরের সাথে একটি অগমেন্টেড রিয়েলিটি অ্যান্ড্রয়েড অ্যাপ তৈরি করুন

শাওমি কয়েক সপ্তাহ আগে অ্যান্ড্রয়েড নুগাটের উপর নির্মিত তার সর্বশেষতম ইন্টারফেস এমআইইউআই 9 উপস্থাপন করেছে এবং এখন এটি আরওএম এর গ্লোবাল বিটা সংস্করণটি আউট করে চলেছে। শাওমি তার অফিসিয়াল এমআইইউআই ফোরাম...

এলজি জি 8 থিনকিউ কিছু আকর্ষণীয় কার্যকারিতার জন্য এর সম্মুখ-মুখের 3 ডি টুএফ ক্যামেরা ব্যবহার করে, আপনাকে স্ক্রিনের সামনে আপনার আঙুলটি মোড়ক দিয়ে ফোনটি নিয়ন্ত্রণ এবং আনলক করতে দেয়। আপনি যখন আসল ফোনট...

প্রস্তাবিত