Jskad/source/org/thdl/lucene/EdgeTshegTrimmer.java

package org.thdl.lucene;

import org.apache.lucene.analysis.*;
import org.apache.lucene.analysis.Token;
import java.io.*;
import java.net.*;
import java.util.*;

/**
 * Trims excess tshegs and other punctuation from Tibetan
 * words, leaving them in their proper citation form.
 *
 * @author Edward Garrett
 */
public class EdgeTshegTrimmer extends TokenFilter {
    public EdgeTshegTrimmer(TokenStream input) {
        super(input);
    }
    
    /**
     * @return next token in TokenStream, stripped of superfluous
     * tshegs
     */
    public Token next() throws IOException {
        while (true) {
            Token token = input.next();
            if (token == null)
                return null;
            int length=token.termText().length();
            int start=0;
            while (start<length && !TshegBarTokenizer.isPartOfTshegBar(token.termText().charAt(start))) start++;
            int end=length-1;
            while (end>-1 && !TshegBarTokenizer.isPartOfTshegBar(token.termText().charAt(end))) end--;
            if (start<=end) {
                return new Token(addFinalTshegIfNecessary(token.termText().substring(start,end+1)), token.startOffset(), token.endOffset());
            }
        }
    }
    
    /**
     * Adds a tsheg to a <code>String</code> that doesn't 
     * already end in one.
     *
     * @return original <code>String</code> with final tsheg 
     * added if necessary
     */
    public static String addFinalTshegIfNecessary(String s) {
        if (s.charAt(s.length()-1) == '\u0F0B')
            return s;
        else
            return s += "\u0F0B";
       // if (last == '\u0F42' || last == '\u0F0B')
       //     return s;
       // else
    }
}
added lucene & solr libraries as well as initial tibetan language processing code + new build file 2007-05-14 11:40:24 +00:00			`package org.thdl.lucene;`

			`import org.apache.lucene.analysis.*;`
			`import org.apache.lucene.analysis.Token;`
			`import java.io.*;`
			`import java.net.*;`
			`import java.util.*;`

			`/**`
			`* Trims excess tshegs and other punctuation from Tibetan`
			`* words, leaving them in their proper citation form.`
			`*`
			`* @author Edward Garrett`
			`*/`
			`public class EdgeTshegTrimmer extends TokenFilter {`
			`public EdgeTshegTrimmer(TokenStream input) {`
			`super(input);`
			`}`

			`/**`
			`* @return next token in TokenStream, stripped of superfluous`
			`* tshegs`
			`*/`
			`public Token next() throws IOException {`
			`while (true) {`
			`Token token = input.next();`
			`if (token == null)`
			`return null;`
			`int length=token.termText().length();`
			`int start=0;`
			`while (start<length && !TshegBarTokenizer.isPartOfTshegBar(token.termText().charAt(start))) start++;`
			`int end=length-1;`
			`while (end>-1 && !TshegBarTokenizer.isPartOfTshegBar(token.termText().charAt(end))) end--;`
			`if (start<=end) {`
			`return new Token(addFinalTshegIfNecessary(token.termText().substring(start,end+1)), token.startOffset(), token.endOffset());`
			`}`
			`}`
			`}`

			`/**`
			`* Adds a tsheg to a <code>String</code> that doesn't`
			`* already end in one.`
			`*`
			`* @return original <code>String</code> with final tsheg`
			`* added if necessary`
			`*/`
			`public static String addFinalTshegIfNecessary(String s) {`
			`if (s.charAt(s.length()-1) == '\u0F0B')`
			`return s;`
			`else`
			`return s += "\u0F0B";`
			`// if (last == '\u0F42' \|\| last == '\u0F0B')`
			`// return s;`
			`// else`
			`}`
			`}`