transliterate_data

Data for Urdu<->Hindi transliteration
git clone git://lumidify.org/transliterate_data.git
Log | Files | Refs | README

commit 0134ecc2e136b2c595ac166995590a73ac7f20e9
parent 3e7caf3978c6756444a4e3f3b4448c595d1ec43f
Author: lumidify <nobody@lumidify.org>
Date:   Fri,  3 Apr 2020 11:11:58 +0200

Update data files (especially for hi->ur)

Diffstat:
Mconfig.hi_ur | 39+++++++++++++++++++++++----------------
Mconfig.ur_hi | 8++++----
Adata/be.hi_ur.txt | 19+++++++++++++++++++
Adata/misc_beginword.hi_ur.txt | 2++
Rdata/misc_beginword.txt -> data/misc_beginword.ur_hi.txt | 0
Mdata/nouns_adjectives/ahmasc.txt | 2+-
Mdata/nouns_adjectives/cfem.txt | 4++--
Mdata/nouns_adjectives/cmasc.txt | 17++++++++++-------
Mdata/nouns_adjectives/ifem.txt | 4++--
Mdata/nouns_adjectives/irregular.txt | 33++++++++++++++++++++++++++-------
Mdata/nouns_adjectives/o_a_staysmasc.txt | 2+-
Adata/special.hi_ur.txt | 22++++++++++++++++++++++
Rdata/special.txt -> data/special.ur_hi.txt | 0
13 files changed, 112 insertions(+), 40 deletions(-)

diff --git a/config.hi_ur b/config.hi_ur @@ -5,10 +5,10 @@ beforeword "[-?,;।\s\\۔،؟!—‘’“”:؛()[\]{}%]" afterword "[-?,;।\s\\۔،؟!—‘’“”:؛()[\]{}%]" ignore "data/ignore.txt" -table misc_beginword "data/misc_beginword.txt" nodisplay revert +table misc_beginword.hi_ur "data/misc_beginword.hi_ur.txt" nodisplay revert table misc_endword "data/misc_endword.txt" nodisplay revert -table special "data/special.txt" nodisplay revert - +table special.hi_ur "data/special.hi_ur.txt" nodisplay revert +table be.hi_ur "data/be.hi_ur.txt" revert # Verbs @@ -81,29 +81,34 @@ expand na_ui_oi_ai_mascfem na_ui_oi_ai_mascfem_forms noroot # Conversion rules -match "(?<=ی) و " "ओ-" -match "(?<=[ہی])ٔ" "ए-" endword -match "(?<=[ہی])ِ" "ए-" endword -match "(?<=ا) و " "ओ-" -match "(?<=[0123456789])واں" "वाँ" -match "(?<=[0123456789])ویں" "वें$वीं" -match "(?<=[0123456789])ء" " ई." -match "(?<![0123456789]):" " :" +group +replace special.hi_ur +endgroup + +group beginword endword +replace be.hi_ur +endgroup + +match "(?<=ी)ओ-" " و " +match "(?<=ा)ए-" "ٔ " +match "(?<=ी)ए-" "ِ " +match "(?<=ा)ओ-" " و " +match "(?<=[0123456789])वाँ" "واں" endword +match "(?<=[0123456789])वें" "ویں" endword +match "(?<=[0123456789])वीं" "ویں" endword +match "(?<=[0123456789]) ई." "ء" endword +match "(?<![0123456789]) :" ":" endword matchignore "[0123456789]+" beginword endword group beginword -replace misc_beginword +replace misc_beginword.hi_ur endgroup group endword replace misc_endword endgroup -group -replace special -endgroup - group beginword endword replace na_ifemshort replace na_adjectiveregular_a_i @@ -130,3 +135,5 @@ endgroup group replace punctuation endgroup + +targetdiacritics "ُ" "ِ" "ّ" "َ" diff --git a/config.ur_hi b/config.ur_hi @@ -5,9 +5,9 @@ beforeword "[-\s\\۔،؟!—‘’“”:؛()[\]{}%]" afterword "[-\s\\۔،؟!—‘’“”:؛()[\]{}%]" ignore "data/ignore.txt" -table misc_beginword "data/misc_beginword.txt" nodisplay +table misc_beginword.ur_hi "data/misc_beginword.ur_hi.txt" nodisplay table misc_endword "data/misc_endword.txt" nodisplay -table special "data/special.txt" nodisplay +table special.ur_hi "data/special.ur_hi.txt" nodisplay # Verbs @@ -93,7 +93,7 @@ match "(?<![0123456789]):" " :" matchignore "[0123456789]+" beginword endword group beginword -replace misc_beginword +replace misc_beginword.ur_hi endgroup group endword @@ -101,7 +101,7 @@ replace misc_endword endgroup group -replace special +replace special.ur_hi endgroup group beginword endword diff --git a/data/be.hi_ur.txt b/data/be.hi_ur.txt @@ -0,0 +1,19 @@ +آمنے سامنے आमने-सामने +بیٹا बेटा +بیٹے बेटे +بیتوں बेटों +بیٹی बेटी +بیٹیاں बेटियाँ +بیٹیوں बेटियों +بہتر बेहतर +بہترین बेहतरीन +بیروتا बेरोता +بیریہ बेरिया +بیل شضر बेलशज़्ज़र +بیل شَضَر बेलशज़्ज़र +بیل طشَضَر बेलशज़्ज़र +بیواؤں बेवाओं +بیوائیں बेवाएँ +بیوہ बेवा +لمبے چوڑے लंबे-चौड़े + diff --git a/data/misc_beginword.hi_ur.txt b/data/misc_beginword.hi_ur.txt @@ -0,0 +1,2 @@ +بے बे +غیر ग़ैर diff --git a/data/misc_beginword.txt b/data/misc_beginword.ur_hi.txt diff --git a/data/nouns_adjectives/ahmasc.txt b/data/nouns_adjectives/ahmasc.txt @@ -147,7 +147,7 @@ خط ख़ित्त خِط ख़ित्त خلاص ख़ुलास -خواج ख़्वाज +خواج ख़ाज خوج ख़ोज خودساخت ख़ुदसाख़्त خورد ख़ुरद diff --git a/data/nouns_adjectives/cfem.txt b/data/nouns_adjectives/cfem.txt @@ -359,8 +359,8 @@ خلوت खलवत خلیج ख़लीज خندق ख़ंदक़ -خواب گاہ ख़्वाबगाह -خواہش ख़्वाहिश +خواب گاہ ख़ाबगाह +خواہش ख़ाहिश خوراک ख़ुराक خوشامد ख़ुशामद خیریت ख़ैरियत diff --git a/data/nouns_adjectives/cmasc.txt b/data/nouns_adjectives/cmasc.txt @@ -818,9 +818,9 @@ خمیر ख़मीर خم ख़म خنجر ख़ंजर -خواب ख़्वाब -خوار ख़्वार -خواہش مند ख़्वाहिशमंद +خواب ख़ाब +خوار ख़ार +خواہش مند ख़ाहिशमंद خوب صورت ख़ूबसूरत خوبصورت ख़ूबसूरत خود اعتماد ख़ुदएतमाद @@ -1314,7 +1314,7 @@ شیخ शेख़ شیر ببر शेर-बबर شیرببر शेरबबर -شیرخوار शीरख़्वार +شیرخوار शीरख़ार شیر دل शेरदिल شیر शेर شیطان शैतान @@ -1536,7 +1536,7 @@ قانون क़ानून قبرستان क़ब्रिस्तान قبیح क़बीह -قتل क़तल +قتل क़त्ल قحط कह्त قدر क़दर قدم क़दम @@ -1547,7 +1547,7 @@ قرار क़रार قربان क़ुरबान قرب क़ुर्ब -قرض خواہ क़र्ज़ख़्वाह +قرض خواہ क़र्ज़ख़ाह قرض دار क़र्ज़दार قریب تر क़रीबतर قریب क़रीब @@ -1983,7 +1983,7 @@ معبود माबूद معتبر मोतबर معتقد मोतक़िद -معذرت خواہ माज़रत-ख़्वाह +معذرت خواہ माज़रत-ख़ाह معذور माज़ूर معزز मुअज़्ज़ज़ معصوم मासूम @@ -2138,6 +2138,7 @@ مینیجر मैनेजर نائب नायब نااُمید ना-उम्मीद +ناامید ना-उम्मीद ناانصاف ना-इनसाफ़ نابود नाबूद ناپائیدار ना-पायदार @@ -2330,3 +2331,5 @@ یقین यक़ीन یک دل यकदिल یوم यौम +مُقدر मुक़द्दर +مُقدّر मुक़द्दर diff --git a/data/nouns_adjectives/ifem.txt b/data/nouns_adjectives/ifem.txt @@ -341,7 +341,7 @@ خنجر ख़ंजर خندہ پیشان ख़ंदापेशान خنک ख़ुनक -خواب ख़्वाब +خواب ख़ाब خوبصورت खूबसूरत خوب صورت ख़ूबसूरत خوب ख़ूब @@ -801,7 +801,7 @@ واپس वापस واد वाद ورد वरद -وظیفہ خوان वज़ीफ़ाख़्वान +وظیفہ خوان वज़ीफ़ाख़ान وفادار वफ़ादार وقوف वुक़ूफ یاددہان याददिहान diff --git a/data/nouns_adjectives/irregular.txt b/data/nouns_adjectives/irregular.txt @@ -529,7 +529,7 @@ اسکریوتی इस्करियोती اسکندریہ इस्कंदरिया اسکہ इसका -اِسکہ इसका +اِسکہ इस्का اس کو इसको اِس کو इसको اس کو उसको @@ -2613,10 +2613,10 @@ خمسہ ख़मसा خنک ख़ुनुक خواتین ख़वातीन -خواہاں ख़्वाहाँ -خواہشات ख़्वाहिशात -خواہ مخواہ ख़्वाहमख़्वाह -خواہ ख़्वाह +خواہاں ख़ाहाँ +خواہشات ख़ाहिशात +خواہ مخواہ ख़ाहमख़ाह +خواہ ख़ाह خوبہ ख़ूबा خوب ख़ूब خوتام ख़ूताम @@ -5031,7 +5031,7 @@ مجموعی मजमुई مجموعے मजमुए مجموع मजमुआ -مجھ سے मझसे +مجھ سے मुझसे مجھ کو मुझको مجھ ہی मुझी مجھے मुझे @@ -5560,7 +5560,7 @@ نخشتان नख़ुश्तान نخُشتان नख़ुश्तान نخلامی नख़लामी -نخواستہ नख़्वास्ता +نخواستہ नख़ास्ता نداب नदाब ندبیاہ नदबियाह ندب नदब @@ -6202,3 +6202,22 @@ یویریب यूयारीब یویقیم यूयक़ीम ے ये +ابی مَلک अबीमलिक +سُوتونیس सूतोनियुस +سوتونِیس सूतोनियुस +سُوتونِیُس सूतोनियुस +اُس میں उसमें +اِس میں इसमें +مجھ میں मुझमें +تجھ میں तुझमें +ہم میں हममें +تم میں तुममें +اُن میں उनमें +اِن میں इनमें +جس میں जिसमें +جن میں जिनमें +کس میں किसमें +کن میں किनमें +سب میں सबमें +بر बर्र +بنا बिना diff --git a/data/nouns_adjectives/o_a_staysmasc.txt b/data/nouns_adjectives/o_a_staysmasc.txt @@ -9,7 +9,7 @@ حیا हया خدا ख़ुदा خلا ख़ला -خواجہ سرا ख़्वाजासरा +خواجہ سرا ख़ाजासरा دانا दाना دروغ گو दरोग़गो دریا दरिया diff --git a/data/special.hi_ur.txt b/data/special.hi_ur.txt @@ -0,0 +1,22 @@ +ِ े- + و ो- +ذرائعِ ज़राएये- +انبیائے अंबियाए- +دریائے दरियाए- +خدائے ख़ुदाए- +عصائے असाए- +سزائے सज़ाए- +ایشیائے एशियाए- +دعائے दुआए- +علمائے उलमाए- +کارہائے कारहाए- +ماورائے मावराए- +اِبتدائے इब्तिदाए- +ابتدائے इब्तिदाए- +بنائے बनाए $बिनाए- +گھبرائے घबराए +برائے बराए- +رُوئے زمین रूए-ज़मीन +اشیائے अश्याए- + سالہ -साला + با बा- diff --git a/data/special.txt b/data/special.ur_hi.txt