transliterate_data

Data for Urdu<->Hindi transliteration
git clone git://lumidify.org/transliterate_data.git
Log | Files | Refs | README

commit b01c2c622f6531dfec33d849cd18969727e56ff2
parent 0134ecc2e136b2c595ac166995590a73ac7f20e9
Author: lumidify <nobody@lumidify.org>
Date:   Sun,  5 Apr 2020 15:28:09 +0200

Update data files

Diffstat:
AExplanationForAdditionalFilesInHindiUrduTransliteration | 12++++++++++++
Mconfig.hi_ur | 41++++++++++++++++++++++++++++++-----------
Mconfig.ur_hi | 1-
Ddata/be.hi_ur.txt | 19-------------------
Mdata/nouns_adjectives/ahmasc.txt | 3++-
Mdata/nouns_adjectives/cfem.txt | 7+++++--
Mdata/nouns_adjectives/cmasc.txt | 11+++++------
Mdata/nouns_adjectives/ifem.txt | 6+++---
Mdata/nouns_adjectives/irregular.txt | 44+++++++++++++++++++++++++++-----------------
Mdata/nouns_adjectives/o_a_staysfem.txt | 1+
Adata/pairs.hi_ur.txt | 8++++++++
Mdata/special.hi_ur.txt | 3+--
Mdata/special.ur_hi.txt | 1-
Mdata/verbs/irregular.txt | 2++
Mdata/verbs/regular_consonant_ending.txt | 4++--
Mdata/verbs/regular_ending_in_a_o.txt | 2--
16 files changed, 98 insertions(+), 67 deletions(-)

diff --git a/ExplanationForAdditionalFilesInHindiUrduTransliteration b/ExplanationForAdditionalFilesInHindiUrduTransliteration @@ -0,0 +1,12 @@ +In the HindiToUrdu transliteration,the order of tables has been rearranged in the list and a new table 'pairs.hi_ur' has been added. + +One problem is the بے, which is converted to बे. When converting back, the program cannot recognize if it is a بے as in بےشک (बेशक)or بی as in بیٹا (बेटा). + +Therefore misc_beginword.hi_ur.txt containing the بے replacement has been shifted to after replacement of the group of tables comprising of adjective_nouns and verbs. + +However, now it unable to find words such as बेशक; although शक is in the nouns_adjectives/cmasc.txt file, it is not recognized because it begins with बे. + +Another problematic rule is the Persian Genetive े- (मुल्के-मिसर), which conflicts with word pairs containing this such as नवासे-नवासियाँ. These word pairs are regular inflections and do not contain a Persian Genetive, so in Urdu script the first word of the pair ends in ے + space and not ِ + space. + +Therefore word pairs conflicting with the Persian Genetive have been put into the new file 'pairs.hi_ur'. + diff --git a/config.hi_ur b/config.hi_ur @@ -8,7 +8,7 @@ ignore "data/ignore.txt" table misc_beginword.hi_ur "data/misc_beginword.hi_ur.txt" nodisplay revert table misc_endword "data/misc_endword.txt" nodisplay revert table special.hi_ur "data/special.hi_ur.txt" nodisplay revert -table be.hi_ur "data/be.hi_ur.txt" revert +table pairs.hi_ur "data/pairs.hi_ur.txt" nodisplay revert # Verbs @@ -81,14 +81,6 @@ expand na_ui_oi_ai_mascfem na_ui_oi_ai_mascfem_forms noroot # Conversion rules -group -replace special.hi_ur -endgroup - -group beginword endword -replace be.hi_ur -endgroup - match "(?<=ी)ओ-" " و " match "(?<=ा)ए-" "ٔ " match "(?<=ी)ए-" "ِ " @@ -101,14 +93,18 @@ match "(?<![0123456789]) :" ":" endword matchignore "[0123456789]+" beginword endword -group beginword -replace misc_beginword.hi_ur +group beginword endword +replace pairs.hi_ur endgroup group endword replace misc_endword endgroup +group +replace special.hi_ur +endgroup + group beginword endword replace na_ifemshort replace na_adjectiveregular_a_i @@ -132,6 +128,29 @@ replace verbs_regular_consonant_ending replace verbs_regular_ending_in_a_o endgroup +group beginword +replace misc_beginword.hi_ur +endgroup + +group beginword endword +replace na_ifemshort +replace na_adjectiveregular_a_i +replace na_irregular +replace na_ahmasc +replace na_aimasc +replace na_amasc +replace na_an +replace na_cfem +replace na_cmasc +replace na_ifem +replace na_imasc +replace na_o_a_staysfem +replace na_u_staysfem +replace na_o_a_staysmasc +replace na_u_staysmasc +replace na_ui_oi_ai_mascfem +endgroup + group replace punctuation endgroup diff --git a/config.ur_hi b/config.ur_hi @@ -9,7 +9,6 @@ table misc_beginword.ur_hi "data/misc_beginword.ur_hi.txt" nodisplay table misc_endword "data/misc_endword.txt" nodisplay table special.ur_hi "data/special.ur_hi.txt" nodisplay - # Verbs table verbs_irregular "data/verbs/irregular.txt" diff --git a/data/be.hi_ur.txt b/data/be.hi_ur.txt @@ -1,19 +0,0 @@ -آمنے سامنے आमने-सामने -بیٹا बेटा -بیٹے बेटे -بیتوں बेटों -بیٹی बेटी -بیٹیاں बेटियाँ -بیٹیوں बेटियों -بہتر बेहतर -بہترین बेहतरीन -بیروتا बेरोता -بیریہ बेरिया -بیل شضر बेलशज़्ज़र -بیل شَضَر बेलशज़्ज़र -بیل طشَضَر बेलशज़्ज़र -بیواؤں बेवाओं -بیوائیں बेवाएँ -بیوہ बेवा -لمبے چوڑے लंबे-चौड़े - diff --git a/data/nouns_adjectives/ahmasc.txt b/data/nouns_adjectives/ahmasc.txt @@ -401,7 +401,7 @@ مظاہر मुज़ाहर معائن मुआयन معاشر मुआशर -معاف شد मुआफ़शुद +معاف شد माफ़शुद معالج मुआलज معامل मामल معاہد मुआहद @@ -475,3 +475,4 @@ وعد वाद وقف वक़्फ़ یتیم خان यतीमख़ान +عوضان एवज़ान diff --git a/data/nouns_adjectives/cfem.txt b/data/nouns_adjectives/cfem.txt @@ -266,7 +266,7 @@ جان जान جاہ जाह جدل जदल -جرأت जुरअत +جرأت जुर्रत جراحت जर्राहत جڑ जड़ جسامت जसामत @@ -484,7 +484,7 @@ سازش साज़िश سازِش साज़िश ساس सास -سال گرہ साल-गिरह +سال گرہ सालगिरह سالمیت सालिमियत ساہول साहूल سبقت सबक़त @@ -919,3 +919,6 @@ یکسانیت यकसानियत یگانگت यगांगत یہودیت यहूदियत +ناؤ नाव +بھیک भीख +پھٹکار फटकार diff --git a/data/nouns_adjectives/cmasc.txt b/data/nouns_adjectives/cmasc.txt @@ -574,7 +574,7 @@ توہم तवह्हुम تیار तैयार تیتر तीतर -تیرانداز तीर-अंदाज़ +تیرانداز तीरंदाज़ تیر तीर تیزتر तेज़तर تیز رفتار तेज़रफ़्तार @@ -617,7 +617,7 @@ جج जज جدید जदीद جذبات انگیز जज़बात-अंगेज़ -جرأت مند जुरअतमंद +جرأت مند जुर्रतमंद جرم जुर्म جُرم जुर्म جرنیل जरनैल @@ -836,7 +836,7 @@ خوش باش ख़ुशबाश خوشبودار ख़ुशबूदार خوش حال ख़ुशहाल -خوش قسمت ख़ुशक़िस्मत +خوش قسمت ख़ुशक़िसमत خوش گوار ख़ुशगवार خوش مزاج ख़ुशमिज़ाज خوش نصیب ख़ुशनसीब @@ -1133,7 +1133,7 @@ سبزہ زار सब्ज़ाज़ार سبق सबक़ سپاہ سالار सिपाहसालार -سپرد सपुर्द +سپرد सुपुर्द سپرنٹنڈنٹ सुपरिण्टेण्डेण्ट سپہ سالار सिपहसालार ستار सितार @@ -1396,7 +1396,6 @@ عزم अज़म عزیز अज़ीज़ عشق इश्क़ -عصا असा عصب असब عصر असर عصمت فروش इसमतफ़रोश @@ -2097,7 +2096,7 @@ مہربان मेहरबान مہردار मोहरदार مَہر महर -مُہر मोहर +مُہر मुहर مہر मोहर$महर مہک دار महकदार مہلک मोहलक diff --git a/data/nouns_adjectives/ifem.txt b/data/nouns_adjectives/ifem.txt @@ -212,7 +212,7 @@ تُوڑ तूड़ توہم پرست तवह्हुमपरस्त تیار तैयार -تیرانداز तीर-अंदाज़ +تیرانداز तीरंदाज़ تیور त्योर ثابت قدم साबितक़दम ٹڈ टिड्ड @@ -359,7 +359,7 @@ خوش بیان ख़ुशबयान خوش حال ख़ुशहाल خوش خبر ख़ुशख़बर -خوش قسمت ख़ुशक़िस्मत +خوش قسمت ख़ुशक़िसमत خوش گپ ख़ुश-गप्प خوش مزاج ख़ुशमिज़ाज خوش نصیب ख़ुशनसीब @@ -710,7 +710,7 @@ مستعد मुस्तैद مست मस्त مضبوط मज़बूत -معاف मुआफ़ +معاف माफ़ معمور मामूर معمول मामूल مفلس मुफ़लिस diff --git a/data/nouns_adjectives/irregular.txt b/data/nouns_adjectives/irregular.txt @@ -615,6 +615,7 @@ اشور بنی پال अशूरबनीपाल اشیاء अशया اشیا अशया +عصا असा اصبون इसबून اِصبون इसबून اصطلاحات इस्तिलाहात @@ -1027,6 +1028,7 @@ اوفیر ओफ़ीर اوقات औक़ात اوگوستس औगुस्तुस +لگ بھگ लगभग اَوگوستُس औगुस्तुस اولائی ऊलाई اُولائی ऊलाई @@ -1447,7 +1449,7 @@ بھی भी بہاؤ बहाव بہترین बेहतरीन -بہر حال बहर हाल +بہر حال बहरहाल بہر बहर بہل बहल بہم बहम @@ -1482,7 +1484,7 @@ بیت المقدس बैतुल-मुक़द्दस بیت المُقدّس बैतुल-मुक़द्दस بیت ایضل बैत-एज़ल -بیت ایل बैत-एल +بیت ایل बैतेल بیت بارہ बैत-बारा بیت بری बैत-बिरी بیت بِری बैत-बिरी @@ -4393,20 +4395,20 @@ قریب ترین क़रीबतरीन قریتائم क़िरियतायम قِریَتائم क़िरियतायम -قریت اربع क़िरयत-अरबा -قِریَت اربع क़िरयत-अरबा -قریت بعل क़िरयत-बाल -قِریَت بعل क़िरयत-बाल -قریت حصات क़िरयत-हुसात -قِریَت حصات क़िरयत-हुसात -قریت سفر क़िरयत-सिफ़र -قِریَت سِفر क़िरयत-सिफ़र -قریت سنہ क़िरयत-सन्ना -قِریَت سنّہ क़िरयत-सन्ना -قریت یعریم क़िरयत-यारीम -قِریَت یعریم क़िरयत-यारीम -قریت क़िरयत -قِریَت क़िरयत +قریت اربع क़िरियत-अरबा +قِریَت اربع क़िरियत-अरबा +قریت بعل क़िरियत-बाल +قِریَت بعل क़िरियत-बाल +قریت حصات क़िरियत-हुसात +قِریَت حصات क़िरियत-हुसात +قریت سفر क़िरियत-सिफ़र +قِریَت سِفر क़िरियत-सिफ़र +قریت سنہ क़िरियत-सन्ना +قِریَت سنّہ क़िरियत-सन्ना +قریت یعریم क़िरियत-यारीम +قِریَت یعریم क़िरियत-यारीम +قریت क़िरियत +قِریَت क़िरियत قریح क़रीह قریوت حصرون क़रियोत-हसरोन قریوت क़रियोत @@ -5220,7 +5222,7 @@ مطیع मुती مظاہر मज़ाहर$मुज़ाहिर معارہ मआरा -معاف मुआफ़ +معاف माफ़ معاملات मामलात معانی मानी معترضین मोतरिज़ीन @@ -6221,3 +6223,11 @@ سب میں सबमें بر बर्र بنا बिना +بِنا बिना +بِِن बिन +کرامات करामात +رب الکریم रब्बुल-करीम +کرامات करामात +سب ہی सभी +رب العظیم रब्बुल-अज़ीम +مسیحا मसीहा diff --git a/data/nouns_adjectives/o_a_staysfem.txt b/data/nouns_adjectives/o_a_staysfem.txt @@ -38,3 +38,4 @@ ہَوا हवा وبا वबा وفا वफ़ा +گپھا गुफा diff --git a/data/pairs.hi_ur.txt b/data/pairs.hi_ur.txt @@ -0,0 +1,8 @@ +آمنے سامنے आमने-सामने +بیٹا بیٹی बेटा-बेटी +بیٹے بیٹیاں बेटे-बेटियाँ +بیٹے بیٹیوں बेटे-बेटियों +نواسے نواسیاں नवासे-नवासियाँ +نواسے نواسیوں नवासे-नवासियों +پوتے پوتیاں पोते-पोतियाँ +پوتے پوتیوں पोते-पोतियों diff --git a/data/special.hi_ur.txt b/data/special.hi_ur.txt @@ -2,7 +2,7 @@ و ो- ذرائعِ ज़राएये- انبیائے अंबियाए- -دریائے दरियाए- +دریائے दरयाए- خدائے ख़ुदाए- عصائے असाए- سزائے सज़ाए- @@ -12,7 +12,6 @@ کارہائے कारहाए- ماورائے मावराए- اِبتدائے इब्तिदाए- -ابتدائے इब्तिदाए- بنائے बनाए $बिनाए- گھبرائے घबराए برائے बराए- diff --git a/data/special.ur_hi.txt b/data/special.ur_hi.txt @@ -19,4 +19,3 @@ اشیائے अश्याए- سالہ -साला با बा- - بہ ब diff --git a/data/verbs/irregular.txt b/data/verbs/irregular.txt @@ -340,3 +340,5 @@ سہنے सहने سہنی सहनी سہئے सहिए +مسیحا मसीहा +جریکو जेरिको diff --git a/data/verbs/regular_consonant_ending.txt b/data/verbs/regular_consonant_ending.txt @@ -1,4 +1,3 @@ - ابال उबाल اُبال उबाल ابل उबल @@ -301,7 +300,7 @@ ڈھانک ढाँक ڈھک ढक ڈھل ढल -ڈھونڈ ढ़ूँड +ڈھونڈ ढूँड ڈوب डूब رچ रच رَچ रच @@ -494,3 +493,4 @@ ہڑپ हड़प ہل हिल ہنس हँस +تھم थम diff --git a/data/verbs/regular_ending_in_a_o.txt b/data/verbs/regular_ending_in_a_o.txt @@ -167,8 +167,6 @@ دھمکا धमका دھندلا धुँधला دھو धो -دہرایا दोहरा -دُہرایا दोहरा دہرا दोहरा دُہرا दोहरा دوڑا दौड़ा