ગૂગલ ટ્રાન્સલેશન એપ ગુજરાતી અનુવાદમાં ગરબડ કેમ કરે છે?
- વાત-વિચાર-શિશિર રામાવત
- ગુજરાતી ભાષાને બચાવવા માટે ગુજરાતીમાં બોલવું-લખવું-પુસ્તકો છાપવાં-ગુજરાતી ફિલ્મો-નાટકોને ઉત્તેજન આપવું... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. ગુજરાતી ભાષાને જો જીવતી-ધબકતી રાખવી હશે તો તેને વહેલાસર આધુનિક ટેકનોલોજી સાથે જોડયા વગર નહીં ચાલે.
આપણે જો ઇચ્છતા હોઈએ કે આટફિશિયલ ઇન્ટેલિજન્સ (AI)નો ઉપયોગ જેમાં થયો હોય તેવાં ટૂલ્સ, ચેટબોટ વગેરે અંગ્રેજીની જેમ ગુજરાતીમાં પણ મસ્ત રીતે, બિલકુલ સ્મૂધલી ઓપરેટ થાય તો તે માટે નિષ્ણાતોએ હજુ અભિમન્યુની જેમ ઘણા કોઠા ભેદવાના બાકી છે. આપણે ગયા શનિવારે જોયું કે ચેટજીપીટી એ એ AIની સૌથી લોકપ્રિય એપ્લિકેશન છે. ચેટજીપીટી એક લાર્જ લેંગ્વેજ મોડલ (LLM) છે, અને ત્યાં સુધી પહોંચવા માટે ગુજરાતી ભાષાએ સૌથી પહેલાં તો અફલાતૂન નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) મોડલ વિકસાવવા પડે. NLP મોડલ એટલે આપણે રોજબરોજ જે ગુજરાતી ભાષા બોલીએ-લખીએ છીએ તે કમ્પ્યુટર ભૂલ વગર સમજી લે, તેવું સોફ્ટવેર.કમ્પ્યુટરને ગુજરાતી ભાષા શીખવતી વખતે લખાણનો જે ડેટાસેટ ઉપયોગમાં લેવામાં આવે તે જોડણી અને વ્યાકરણની દ્રષ્ટિએ શુદ્ધતમ હોય તે ખૂબ જરૂરી છે. ભગવોમંડળ અને સાર્થ જોડણી કોષ આ પ્રકારના આદર્શ ડેટાસેટ છે. તકલીફ એ છે કે લેંગ્વેજ મોડલને ટ્રેઇન કરવા માટે રિસર્ચરો માટે આ બન્ને ઉપલબ્ધ નથી!
વીર નર્મદ સાઉથ ગુજરાત યુનિવસટીના ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર સાયન્સના હેડ ડો. અપૂર્વ દેસાઈ કહે છે, 'ઘારો કે ભગવોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તેને પ્રોસેસ કરીને આખો ડેટાબેઝ તૈયાર કરવો પડે. તમને ઉદાહરણ આપીને સમજાવું. 'છોકરો' અને 'છોકરી' આ બે શબ્દોનું મૂળ રૂપ 'છોકર' છે. 'છોકર'ને 'ઓ' પ્રત્યય લાગે તો 'છોકરો' બને, અને 'ઈ' પ્રત્યય લાગે તો 'છોકરી' બને. શબ્દના મૂળ રૂપ સુધી જવાની પ્રક્રિયાને 'સ્ટેમિંગ' કહે છે. એક એવો ડેટાસેટ હોવો જોઈએ, જેમાં પ્રત્યેક ગુજરાતી શબ્દનું મૂળ રૂપ લખાયેલું હોય. સ્ટેમિંગ પછી 'ટેગિંગ'ની પ્રક્રિયા કરવી પડે. ટેગિંગ એટલે જે-તે શબ્દ સંજ્ઞા(નાઉન) છે, ક્રિયાપદ (વર્બ) છે કે વિશેષણ (એડજેક્ટિવ) ઇત્યાદિ છે તે ચિહ્નિત કરવું. ધારો કે આવું વાક્ય છે: 'રવિ નામનો છોકરો હતી.' આ ખોટું વાક્ય છે. કમ્પ્યુટરને ખબર હોવી જોઈએ કે રવિ એક નામ (સંજ્ઞા) છે અને તે પુલ્લિંગ છે, તેથી આ વાક્યના અંતે 'હતી' નહીં પણ 'હતો' આવે. જો વ્યવસ્થિત સ્ટેમિંગ અને ટેગિંગ સાથેનો ડેટાસેટ પ્રોસેસ થયો હોય તો જ કમ્પ્યુટરને ખબર પડે કે ગુજરાતી વાક્યમાં નાઉન - વર્બ કયા છે, એની સિકવન્સ કેવી હોવી જોઈએ અને તે વ્યાકરણને અનુરૂપ છે કે કેમ. અમે આ પ્રકારનો આવશ્યક ડેટાસેટ વિકસાવ્યો છે, પણ તે સરળ વાક્યો પૂરતો સીમિત છે.'
અંગ્રેજીમાં બે જ જાતિ (જેન્ડર) છે - ીલિંગ અને પુલ્લિંગ, જ્યારે ગુજરાતીમાં ત્રીજી નાન્યતર જાતિ પણ છે. તેથી ગુજરાતી NLP ડેવલપ કરવાનું કામ પણ વધારે જટિલ બની જાય છે. પ્રોફેસર બ્રિજેશ ભટ્ટ આ વાત વિગતવાર સમજાવે છે, 'ગુજરાતીમાં પુલ્લિંગ, ીલિંગ અને નપુંસકલિંગ એમ ત્રણેય જાતિના પ્રત્યય ક્રિયાપદને પણ લાગે છે. જેમ કે 'રાજેશ આવ્યો', 'ગીતા આવી', 'કૂતરૂં આવ્યું'. અંગ્રેજીમાં જ્યારે 'Rajesh comes' કે 'Geeta comes' કહીએ ત્યારે કોઈ લિંગભેદ દેખાતો નથી, પણ અંગ્રેજીમાંથી ગુજરાતીમાં વાક્યનું ભાષાંતર કરીએ ત્યારે મશીને આ લિંગભેદ જાતે નક્કી કરવો પડે. આ ઉપરાંત ગુજરાતીમાં પ્રેરક વાક્ય એક વિશિષ્ટ રચના છે, જે અંગ્રેજી અનુવાદ કરવામાં મુશ્કેલી ઊભી કરે છે. ઉદાહરણ તરીકે આ વાક્ય: 'ગીતાએ લતા પાસે ગીત ગવડાવ્યું'. હવે, 'ગવડાવ્યું' શબ્દનું ભાષાંતર કરવા માટે અંગ્રેજીમાં એક કરતાં વધારે શબ્દોનો ઉપયોગ કરવો પડે (Geeta made Lata sing). ગુજરાતી અને અંગ્રેજીના શબ્દોની ગોઠવણી પણ અલગ છે. અંગ્રેજીમાં સામાન્યપણે સબ્જેક્ટ, વર્બ, ઓબ્જેક્ટ - આ ક્રમમાં વાક્ય બનાવવામાં આવે છે (Ram eats an apple), જ્યારે ગુજરાતીમાં કર્તા, કર્મ અને ક્રિયાપદ - આ પ્રમાણે વાક્ય ગોેઠવાય છે (રામે સફરજન ખાધું). ભાષાંતર કરતી વખતે મશીને ગોઠવણની આ ફેરબદલ પણ ધ્યાનમાં
લેવી પડે.'
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવસટીમાં કાર્યરત ડો. બ્રિજેશ ભટ્ટે આઈઆઇટી-બોમ્બેના પ્રોફેસર પુષ્કર ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ નેચરલ લેંગ્વેજ પ્રોસેસિંગ વિષયમાં પીએચ.ડી કર્યું છે. તેઓ ગુજરાતી NLPની ટેકનિકલ બાજુને સરળતાથી સહેજ વધારે ઊઘાડી આપે છે, 'જુઓ, ગુજરાતીમાં નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ સોફ્ટવેર બનાવવા માટે ત્રણ તબક્કામાં કામ કરવું પડે. એક છે, લેક્સિકલ (શબ્દાનુવાદ), બીજું છે સિન્ટેક્ટિક (વાક્યરચના) અને ત્રીજું, સિમેન્ટિક (અર્થઘટન). લેક્સિકલ તબક્કામાં શબ્દો, તેને લાગતા પ્રત્યયો અને જો ભાષાંતર કરવું હોય તો બીજી ભાષાનો શબ્દો જાણવા પડે. મોર્ફોલોજીકલ એનેલિસિસ એ લેક્સિકલ પ્રોસેસિંગનું પહેલું પગથિયું છે. ઉદાહરણ તરીકે, 'ગવડાવ્યું' આ શબ્દનું મૂળ રૂપ 'ગાવું' છે અને તેને 'ડાવ્યું' પ્રત્યય લાગ્યો છે, એવું મોર્ફોલોજી એનેલિસિસ દ્વારા મશીનને સમજાવી શકાય. બીજા તબક્કામાં વાક્યનું બંધારણ ચકાસવું પડે, જેના માટે પાર્ટ ઓફ સ્પીચ ટેગિંગ, પાર્સીંગ જેવા સોફ્ટવેરની જરૂર પડે. પાર્ટ ઓફ સ્પીચ ટેગર વાક્યમાં આવતા શબ્દોમાં નામ, ક્રિયાપદ, વિશેષણ વગેરે ઓળખી બતાવે, અને પાર્સર વાક્યમાં રહેલા શબ્દો એકબીજા સાથે કેવી રીતે જોડાઇને અર્થ બનાવે છે તે કહી શકે. ઉદાહરણ તરીકે, 'રામે ગીત ગાતા શ્યામને જોયો'. અહીં ગીત રામ ગાય છે કે શ્યામ? તે સમજવામાં ગોટાળો થઇ શકે. પાર્સર શબ્દોને એકબીજા સાથે જોડી અર્થઘટનમાં થતી ગરબડને દૂર કરે છે. છેલ્લા સિમેન્ટિક તબક્કામાં, શબ્દોના અર્થ અને તે અર્થોથી પૂરા વાક્યનો અર્થ કાઢવો પડે. એક શબ્દના ઘણા અર્થ હોઈ શકે છે. તેથી જ વર્ડ સેન્સ ડિસએમ્બિગ્યુએશન એ કદાચ NLPનો સૌૈથી અઘરો વિષય છે. જેમ કે, 'મારો ફોટો પડી ગયો' અને 'મારો મોબાઇલ પડી ગયો' આ બંને વાક્યોમાં 'પડી ગયો'નો અર્થ અલગ છે. આ પ્રકારના ગુજરાતી શબ્દપ્રયોગોનો અન્ય ભાષામાં અનુવાદ કરતી વખતે મશીન બાપડું ચકરાવે ન ચડી જાય અને અર્થનો અનર્થ ન કરી નાખે તેનું ધ્યાન રાખવું પડે.'
ગૂગલ ટ્રાન્સલેશન એપમાં ગુજરાતી વાક્યોના અંગ્રેજીમાં ને અંગ્રેજી વાક્યોના ગુજરાતીમાં ચક્રમ જેવા અનુવાદ થાય છે તેનું કારણ આ જ! અત્યારે ઉપકરણોમાં જે ગુજરાતી NLP વપરાય છે તેમાં ઉપર વર્ણવી તે ટેકનિકલ પ્રક્રિયાઓ પર પૂરતું કામ જ થયું નથી. પછી બિચારું મશીન ભાષાંતર કરવામાં લોચા જ મારેને! વળી, આપણે ગુજરાતી ભાષા બોલતી કે લખતી વખતે છૂટથી અંગ્રેજી-હિન્દી શબ્દો ભભરાવતા હોઈએ છીએ. નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ માટે આવી ખિચડી ભાષા પાછો એક અલગ જ પડકાર છે.
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવસટીમાં પ્રો. સી. કે. ભેંસદડીયાના નેતૃત્વમાં ગુજરાતી વર્ડનેટ અને ઇંગ્લિશ-ગુજરાતી મશીન ટ્રાન્સલેશન સંબંધિત કામ થાય છે. પ્રો. ભેંસદડીયા લગભગ છેલ્લાં ૩૦ વર્ષથી AIના ક્ષેત્રમાં વિદ્યાર્થીઓને તૈયાર કરી રહ્યા છે. તેમની સાથે પ્રો. બ્રિજેશ ભટ્ટ નેચરલ NLP પર કાર્ય કરી રહ્યા છે. પ્રો. ભેંસદડીયાએ આઇઆઇટી-બોમ્બેના પ્રો. પુષ્પક ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ એમટેક કર્યું છે. હાલ બન્ને નિષ્ણાત ડીપ લનગ બેઝ્ડ ન્યુરલ મશીન ટ્રાન્સલેશન પદ્ધતિથી અંગ્રેજીથી ગુજરાતી અનુવાદની સિસ્ટમ બનાવવામાં કાર્યરત છે.
ઘણું કામ છે, લાંબી સફર છે. કમ્પ્યુટરને ગુજરાતી શીખવવાનું કામ ઘણાં વર્ષોથી ત્રણ સ્તરે કામ થઈ રહ્યું છે - એકેડેમિશિયન્સ દ્વારા, સરકાર દ્વારા અને ગૂગલ-માઇક્રોસોફ્ટ જેવી જાયન્ટ કંપનીઓ દ્વારા. તકલીફ એ છે કે આ ત્રણેયને જોડતી કડીઓ કાં ગાયબ છે યા તો બહુ ઓછી છે. તેથી છૂટુંછવાયું કામ થતું રહે છે, પણ ત્રણેય જૂથને એકબીજાના જ્ઞાનનો લાભ જેટલો મળવો જોઈએ તેટલો મળતો નથી.
વાસદ સ્થિત સરદાર વલ્લભભાઈ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજીના કમ્પ્યુટર સાયન્સ ડિપાર્ટમેન્ટના આસિસ્ટન્ટ પ્રોફેસર બ્રિજેશ પંચાલ કહે છે, 'ભાષા અને ટેકનોલોજી બન્ને જાણતા હોય તેવા લોકો બહુ ઓછા છે. વિદેશમાં આ બન્ને ક્ષેત્રોને સાંકળી લે તેવા કોમ્પોઝિટ કોર્સ ચાલે છે, જે આપણે ત્યાં પણ હોવા જોઈએ. આપણે બીએ-એમએના વિદ્યાર્થીઓને કહેવું જોઈએ કે તમે માત્ર ટીચર કે એવું કશું જ નહીં, ભાષાશાી પણ બની શકો છો. કમ્પ્યુટર એન્જિનીયરિંગ ભણતા વિદ્યાર્થીઓને ભાષાવિજ્ઞાાન તરફ આકર્ષણ હોતું નથી. તેમને પણ કહેવું જોઈએ કે જો તમે ગુજરાતી પુસ્તકો વાંચશો તો NLPમાં વધારે સમજ પડશે.'
અપૂર્વ દેસાઈ કહે છે, 'એક કોમન પ્લેટફોર્મ હોવું જોઈએ જ્યાં એકેડેમિશિયન્સ, ગુજરાતી સાહિત્ય પરિષદ અને ગુજરાતી સાહિત્ય અકાદમી જેવી સંસ્થાઓ, ભાષાવિદો, કમ્પ્યુટર એન્જિનીયરો અને સરકારના પ્રતિનિધિઓ એકબીજા સાથે ઇન્ટરેક્ટ કરી શકે કે જેથી ગુજરાતી ભાષાને આધુનિક ટેકનોલોજી સાથે વણી લેવાનું કામ સડસડાટ આગળ વધે, બોટલનેક ન સર્જાય અને કામનું અકારણ ડુપ્લિકેશન ન થાય. મારૂં તો સૂચન છે કે સાહિત્ય પરિષદ અને અકાદમીએ સાહિત્યકારોની સાથે સાથે આ ક્ષેત્રમાં ઉત્તમ કામગીરી કરનાર એકેડેમિશિયન્સ અને એન્જિનીયરોને પણ અલાયદા અવોર્ડ્ઝ આપવાનું શરૂ કરવું જોઈએ કે જેથી તેમનો ઉત્સાહ વધે અને વધારે પ્રતિભાઓ આ દિશામાં આકર્ષાય.'
બિલકુલ. કેમ નહીં? ગુજરાતી ભાષા બચાવવાની બૂમરાણ વર્ષોથી એકધારી થઈ રહી છે. બ્રિજેશ પંચાલ સમાપન કરે છે, 'ગુજરાતી પુસ્તકો છાપવા ને વાંચવા, ગુજરાતી નાટકો-ફિલ્મોને ઉત્તેજન આપવું, ગુજરાતીમાં જ બોલવાનો આગ્રહ રાખવો... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. જો સાચી, શુદ્ધ ગુજરાતી ભાષાને આવનારી પેઢીઓ માટે રિલેવન્ટ રાખવી હશે તો ગુજરાતી ભાષાનું ટેકનોલોજીકરણ કર્યા વગર છૂટકો નથી.'
ગુજરાતીમાં સુંદર રીતે ઓપરેટ થતાં AI ટૂલ્સની કલ્પના ખરેખર મોહક છે. આ સ્તર સુધી પહોંચવાનું કામ અઘરૂં જરૂર છે પણ અશક્ય નથી, જો યોગ્ય લોકો દ્વારા, યોગ્ય દિશામાં યોગ્ય પ્રયત્નો થાય તો!