Used by DictionaryImporter.

2004-06-18 03:54:28 +00:00 · 2004-06-18 03:54:28 +00:00 · de4fffcd97
commit de4fffcd97
parent 5f00794b0f
1 changed files with 382 additions and 0 deletions
--- a/src/java/org/thdl/tib/scanner/Manipulate.java
+++ b/src/java/org/thdl/tib/scanner/Manipulate.java
@ -0,0 +1,382 @@
 /*
 The contents of this file are subject to the AMP Open Community License
 Version 1.0 (the "License"); you may not use this file except in compliance
 with the License. You may obtain a copy of the License on the AMP web site 
 (http://www.tibet.iteso.mx/Guatemala/).
 Software distributed under the License is distributed on an "AS IS" basis, 
 WITHOUT WARRANTY OF ANY KIND, either express or implied. See the 
 License for the specific terms governing rights and limitations under the 
 License. 
 The Initial Developer of this software is Andres Montano Pellegrini. Portions
 created by Andres Montano Pellegrini are Copyright 2001 Andres Montano
 Pellegrini. All Rights Reserved. 
 Contributor(s): ______________________________________.
 */
 package org.thdl.tib.scanner;
 import java.io.*;
 import org.thdl.util.*;
 /** Miscelaneous static methods for the manipulation of Tibetan text.
    @author Andr&eacute;s Montano Pellegrini
 */
 public class Manipulate
 {
 	/* public static String[] parseFields (String s, char delimiter)
 	{
 	    int pos;
 	    String field;
 	    SimplifiedLinkedList ll = new SimplifiedLinkedList();
 	    while ((pos = s.indexOf(delimiter))>=0)
 	    {
 	        field = s.substring(0, pos).trim();
 	        ll.addLast(field);
 	        s = s.substring(pos+1);
 	    }
 	    ll.addLast(s.trim());
 	    return ll.toStringArray();
 	}*/  
 	public static String replace(String linea, String origSub, String newSub)
 	{
 		int pos, lenOrig = origSub.length();
      while ((pos = linea.indexOf(origSub))!=-1)
 		{
 			linea = linea.substring(0, pos).concat(newSub).concat(linea.substring(pos+lenOrig));
 		}
 		return linea;
 	}
 	public static boolean isVowel (char ch)
 	{
 	    ch = Character.toLowerCase(ch);
 	    return ch=='a' || ch=='e' || ch=='i' || ch=='o' || ch=='u';
 	}
 	public static String wylieToAcip(String palabra)
 	{
 		// DLC FIXME: for unknown things, return null.
 		if (palabra.equals("@##")) return "#";
 		if (palabra.equals("@#")) return "*";
 		if (palabra.equals("!")) return "`";
 		if (palabra.equals("b+h")) return "BH";
 		if (palabra.equals("d+h")) return "DH";
 		if (palabra.equals("X")) return null;
                if (palabra.equals("iA")) return null;
                if (palabra.equals("ai")) return "EE";
                if (palabra.equals("au")) return "OO";
                if (palabra.equals("$")) return null;
 		if (palabra.startsWith("@") || palabra.startsWith("#"))
 			return null; // we can't convert this in isolation!  We need context.
 		char []caract;
 		int i, j, len;
 		String nuevaPalabra;
 		caract = palabra.toCharArray();
 		len = palabra.length();
 		for (j=0; j<len; j++)
 		{
 			i = j;
 			/*ciclo:
 			while(true) // para manejar excepciones; que honda!
 			{
 			switch(caract[i])
 			{
 			case 'A': 
 			if (i>0)
 			{
 			i--;
 			break;
 			}
 			default:*/
 			if (Character.isLowerCase(caract[i]))
 				caract[i] = Character.toUpperCase(caract[i]);
 			else if (Character.isUpperCase(caract[i]))
 				caract[i] = Character.toLowerCase(caract[i]);
 			/*						break ciclo;
 			}
 			}*/
 		}
 		nuevaPalabra = new String(caract);
 		//			nuevaPalabra = palabra.toUpperCase();
 		// ahora hacer los cambios de Michael Roach
 		nuevaPalabra = replace(nuevaPalabra, "TSH", "TQQ");
 		nuevaPalabra = replace(nuevaPalabra, "TS", "TZ");
 		nuevaPalabra = replace(nuevaPalabra, "TQQ", "TS");
 		nuevaPalabra = replace(nuevaPalabra, "a", "'A");
 		nuevaPalabra = replace(nuevaPalabra, "i", "'I");
 		nuevaPalabra = replace(nuevaPalabra, "u", "'U");
 		nuevaPalabra = replace(nuevaPalabra, "-I", "i");
 		nuevaPalabra = replace(nuevaPalabra, "/", ",");
 		nuevaPalabra = replace(nuevaPalabra, "_", " ");
 		nuevaPalabra = replace(nuevaPalabra, "|", ";");
 		nuevaPalabra = fixWazur(nuevaPalabra);
 		return nuevaPalabra;
 	}
 	public static String acipToWylie(String linea)
 	{
 		char caract[], ch, chP, chN;
 		String nuevaLinea;
 		int i, len;
 		boolean open;
 		caract = linea.toCharArray();
 		len = linea.length();
 		for (i=0; i<len; i++)
 		{
 			if (Character.isLowerCase(caract[i]))
 				caract[i] = Character.toUpperCase(caract[i]);
 			else if (Character.isUpperCase(caract[i]))
 				caract[i] = Character.toLowerCase(caract[i]);
 		}
 		nuevaLinea = new String(caract);
 		/* ahora hacer los cambios de Michael Roach ts -> tsh, tz -> ts, v -> w,
 		TH -> Th, kSH, kaSH -> k+Sh, SH -> Sh, : -> H, dh -> d+h, gh -> g+h, bh -> b+h, dzh -> dz+h,
 	    aa -> a, a'a -> A, ai->i, aee ->ai, au->u, aoo->au, ae->e,
 		ao->o, ee->ai, oo->au, 'I->-I I->-i,  a'i->I, a'u->U, a'e->E, a'o->O,
 		a'i->I, a'u->U, a'e->E, a'o->O, ,->/, # -> @##, * -> @#, \ -> ?, ` -> !,
 		/-/ -> (-), ga-y -> g.y, g-y -> g.y, na-y -> n+y */
 		nuevaLinea = replace(nuevaLinea, "ts", "tq");
 		nuevaLinea = replace(nuevaLinea, "tz", "ts");
 		nuevaLinea = replace(nuevaLinea, "tq", "tsh");
 		nuevaLinea = replace(nuevaLinea, "v", "w");
 		nuevaLinea = replace(nuevaLinea, "TH", "Th");
 		nuevaLinea = replace(nuevaLinea, "kSH", "k+Sh");
 		nuevaLinea = replace(nuevaLinea, "kaSH", "k+Sh");
 		nuevaLinea = replace(nuevaLinea, "SH", "Sh");
 		nuevaLinea = replace(nuevaLinea, ":", "H");
 		nuevaLinea = replace(nuevaLinea, "dh", "d+h");
 		nuevaLinea = replace(nuevaLinea, "gh", "g+h");
 		nuevaLinea = replace(nuevaLinea, "bh", "b+h");
 		nuevaLinea = replace(nuevaLinea, "dzh", "dz+h");
 		nuevaLinea = replace(nuevaLinea, "aa", "a");
 		nuevaLinea = replace(nuevaLinea, "ai", "i");
 		nuevaLinea = replace(nuevaLinea, "aee", "ai");
 		nuevaLinea = replace(nuevaLinea, "au", "u");
 		nuevaLinea = replace(nuevaLinea, "aoo", "au");
 		nuevaLinea = replace(nuevaLinea, "ae", "e");
 		nuevaLinea = replace(nuevaLinea, "ao", "o");
 		nuevaLinea = replace(nuevaLinea, "ee", "ai");
 		nuevaLinea = replace(nuevaLinea, "oo", "au");
 		nuevaLinea = replace(nuevaLinea, "\'I", "\'q");
 		nuevaLinea = replace(nuevaLinea, "I", "-i");
 		nuevaLinea = replace(nuevaLinea, "\'q", "-I");
 		nuevaLinea = replace(nuevaLinea, "\\", "?");
 		nuevaLinea = replace(nuevaLinea, "`", "!");
 		nuevaLinea = replace(nuevaLinea, "ga-y", "g.y");
 		nuevaLinea = replace(nuevaLinea, "g-y", "g.y");
 		nuevaLinea = replace(nuevaLinea, "na-y", "n+y");
 		len = nuevaLinea.length();
 		for (i=0; i<len; i++)
 		{
 		    ch = nuevaLinea.charAt(i);
 		    switch(ch)
 		    {
 		        case '#':
 		          nuevaLinea = nuevaLinea.substring(0,i) + "@##" + nuevaLinea.substring(i+1);
 		          i+=3;
 		          len+=2;
 		        break;
 		        case '*':
 		          nuevaLinea = nuevaLinea.substring(0,i) + "@#" + nuevaLinea.substring(i+1);
 		          i+=2;
 		          len++;
 		        break;
 		        case '\'':
 		          if (i>0 && i<len-1)
 		          {
 		            chP = nuevaLinea.charAt(i-1);
 		            chN = nuevaLinea.charAt(i+1);
 		            if (Character.isLetter(chP) && !isVowel(chP) && isVowel(chN))
 		            {
 		                nuevaLinea = nuevaLinea.substring(0, i) + Character.toUpperCase(chN) + nuevaLinea.substring(i+2);
 		                len--;
 		            }
 		          }
 		        break;
 		        case 'a':
 		          if ((i<len-3 && nuevaLinea.charAt(i+1)=='\'' && isVowel(nuevaLinea.charAt(i+2))) && (i==0 || !Character.isLetter(nuevaLinea.charAt(i-1))))
 		          {
 		            nuevaLinea = nuevaLinea.substring(0, i) + Character.toUpperCase(nuevaLinea.charAt(i+2)) + nuevaLinea.substring(i+3);
 		            len-=2;
 		          }
 		    }
 		}
 		open = false;
 		for (i=0; i<len; i++)
 		{
 		    ch = nuevaLinea.charAt(i);
 		    if (ch=='/')
 		    {
 		        if (open)
 		        {
 		          nuevaLinea = nuevaLinea.substring(0, i) + ")" + nuevaLinea.substring(i+1);
 		          open = false;		            
 		        }
 		        else
 		        {
 		          nuevaLinea = nuevaLinea.substring(0, i) + "(" + nuevaLinea.substring(i+1);
 		          open = true;
 		        }
 		    }
 		}
 		nuevaLinea = replace(nuevaLinea, ",", "/");
 		return nuevaLinea;
 	}
 	public static String fixWazur(String linea)
 	{
 		int i;
 		for (i=1; i<linea.length(); i++)
 		{
 			if (linea.charAt(i)=='W')
 			{
 				if (Character.isLetter(linea.charAt(i-1)))
 					linea = linea.substring(0,i) + 'V' + linea.substring(i+1);					
 			}
 		}
 		return linea;
 	}
 	/** Returns the base letter of a syllable. Does not include the vowel!
 	Ignoring cases for now. */
 	public static String getBaseLetter (String sil)
 	{
 	    sil = sil.toLowerCase();
 	    int i=0;
 	    char ch, ch2;
 	    while (!isVowel(sil.charAt(i))) i++;
 	    if (i==0) return "";
 	    i--;
 	    if (i==-1) return "";
 	    if (sil.charAt(i)=='-') i--;
 	    ch = sil.charAt(i);
 	    // check to see if it is a subscript (y, r, l, w)
 	    if (i>0)
 	    {
 	        switch (ch)
 	        {
 	            case 'r': case 'l': case 'w': i--;
 	            break;
 	            case 'y':
    	            ch2 = sil.charAt(i-1);
    	            switch (ch2)
    	            {
    	                case '.': return "y";
    	                case 'n': return "ny";
    	                default: i--;
    	            }
 	        }
 	    }
 	    if (i==0) return sil.substring(i,i+1);
 	    ch = sil.charAt(i);
 	    ch2 = sil.charAt(i-1);
 	    switch(ch)
 	    {
 	        case 'h':
                switch (ch2)
       	        {
                    case 'k': case 'c': case 't': case 'p': case 'z':
                        return sil.substring(i-1,i+1);
                    case 's':
   	                    if (i-2>=0 && sil.charAt(i-2)=='t') return "tsh";
       	                else return "sh";
                    default: return "h";
                }
 	        case 's':
 	            if (ch2=='t') return "ts";
 	            else return "s";
 	        case 'g':
 	            if (ch2=='n') return "ng";
 	            else return "g";
 	        case 'z':
 	            if (ch2=='d') return "dz";
 	            else return "z";
 	    }
 	    return sil.substring(i,i+1);
 	}
    public static String deleteQuotes(String s)
    {
        int length = s.length();
        if (length>2)
        {
        if ((s.charAt(0)=='\"') && (s.charAt(length-1)=='\"'))
            return s.substring(1,length-1);
        }
        return s;
    }	
 	/** Syntax: java Manipulate [word-file] < source-dic-entries > dest-dic-entries
    Takes the output of ConsoleScannerFilter
 	(in RY format), converts the Wylie to Acip
 	and displays the result in csv format.	 
 	arch-palabras es usado solo cuando deseamos las palabras cambiadas
 	a otro archivo.
 	public static void main (String[] args) throws Exception												   
 	{
 		String linea, palabra, definicion, nuevaPalabra;
 		int marker;
 		PrintWriter psPalabras = null;
 		BufferedReader keyb = new BufferedReader(new InputStreamReader(System.in));
 		if (args.length==1)
 			psPalabras = new PrintWriter(new FileOutputStream(args[0]));		
 		while ((linea=keyb.readLine())!=null)
 		{
 			if (linea.trim().equals("")) continue;
 			marker = linea.indexOf('-');
 			if (marker<0) // linea tiene error
 			{
 				palabra = linea;
 				definicion = "";
 			}
 			else
 			{
 				palabra = linea.substring(0, marker).trim();
 				definicion = linea.substring(marker+1).trim();
 			}
 			nuevaPalabra = wylieToAcip(palabra);
 			if (psPalabras!=null)
 				psPalabras.println(nuevaPalabra);
 			else System.out.print(nuevaPalabra + '\t');
 			if (definicion.equals(""))
 				System.out.println(palabra);
 			else
 				System.out.println(palabra + '\t' + definicion);
 		}
      if (psPalabras!=null) psPalabras.flush();
 	}*/	
 }