Basic Working Version

Rudimentary version controlled with in-code statements. Fetched contents of kanji.csv from www.tonypottier.info and converted them into a csv. Other csv's are based unicode ranges from wikipedia.
7 years ago · c94a2ea418
parent a32d18c6d9
commit c94a2ea418
7 changed files with 29906 additions and 0 deletions
--- a/Alphabet.py
+++ b/Alphabet.py
@ -0,0 +1,186 @@
 from bs4 import BeautifulSoup
 import csv
 import os
 class Alphabet:
    def __init__(self, name: str, file_path: str = "", data: list=None):
        if not os.path.isfile(file_path) and file_path != "":
            raise FileNotFoundError("File has not been found")
        self._name = name
        self._file_path = file_path
        self._parsed_html = None
        self._legend = None
        if data is not None:
            self._data = data
            return
        if file_path == "":
            self._data = []
            print("Warning: Empty Alphabet!")
            return
        self._stream = open(file_path, "r")
        file_name, file_extension = os.path.splitext(self._file_path)
        if file_extension == '.html':
            self._data = self.import_from_html()
        elif file_extension == '.csv':
            self._data = self.import_from_csv()
        else:
            raise Exception("Unknown file extension!")
    def __len__(self):
        return len(self._data)
    def get_data(self) -> list:
        return self._data
    def get_name(self) -> str:
        return self._name
    def get_unique(self):
        """
        Check if each entry is unique
        Uses Unicode number for comparison
        :return:
        """
        characters = set()
        for entry in self._data:
            characters.add(entry['Decimal'])
        Alphabet.generate_from_numbers(self._name, list(characters))
    @staticmethod
    def generate_from_numbers(name: str, numbers: list):
        """
        Generate alphabet from a list of unicode numbers
        :param name:
        :param numbers:
        :return:
        """
        data = []
        for n in numbers:
            entry = {}
            entry['Char'] = chr(n)
            entry['Unicode (hex)'] = "U+" + hex(n)[2:]
            entry['Decimal'] = n
            entry['Learning Order'] = None
            data.append(entry)
        return Alphabet(name=name, data=data)
    def import_from_csv(self) -> list:
        """
        Import file from csv
        """
        reader = csv.reader(self._stream)
        self._legend = next(reader)
        data = []
        for row in reader:
            entry = {}
            for i in range(len(row)):
                entry[self._legend[i]] = row[i]
            data.append(entry)
        return data
    def import_from_html(self) -> list:
        """
        Import file as html table of characters
        """
        html = ""
        for line in self._stream:
            html += line
        self._parsed_html = BeautifulSoup(html, features="html.parser")
        entries = self._parsed_html.find_all('tr')
        self._legend = []
        for legend_data in entries[0].find_all('td'):
            self._legend.append(legend_data.string)
        data = []
        for entry in entries[1:]:
            parsed_table_data = entry.find_all('td')
            table_data = {}
            for i in range(len(parsed_table_data)):
                table_data[self._legend[i]] = parsed_table_data[i].string
            data.append(table_data)
        return data
    def export_csv(self, file_path: str):
        assert(file_path != self._file_path)
        file_name, file_extension = os.path.splitext(file_path)
        if file_extension != '.csv':
            file_path = file_name + '.csv'
        stream = open(file_path, 'w')
        writer = csv.writer(stream)
        writer.writerow(self.get_data()[0].keys())
        for entry in self.get_data():
            writer.writerow([entry[key] for key in entry.keys()])
        stream.close()
    def append_entry(self, unicode_num: int):
        uni_hex = hex(unicode_num)
        char = chr(unicode_num)
        print("Appending Chr:{0} Num:{1} Hex:{2} to {3}".format(char, unicode_num, uni_hex, self._name))
        entry = {}
        entry['Char'] = char
        entry['Unicode (hex)'] = "U+"+uni_hex[2:]
        entry['Decimal'] = unicode_num
        entry['Learning Order'] = None
        self._data.append(entry)
    def append_entry_hex(self, uni_hex: str):
        self.append_entry(int(uni_hex, 0))
 if __name__ == "__main__":
    kanji = Alphabet("Kanji", "kanji.csv")
    hiragana = Alphabet("Hiragana", "hiragana.csv")
    katakana = Alphabet("Katakana", "katakana.csv")
    print("Kanji:{0} Hiragana:{1} Katakana:{2}".format(len(kanji.get_data()),
                                                       len(hiragana.get_data()),
                                                       len(katakana.get_data(),
                                                           )))
    # Generate kanji2 from ranges
    start = 0x4e00
    end = 0x9fa0
    n = [x for x in range(start, end)]
    start = 0x3400
    end = 0x4dbf
    n += [x for x in range(start, end)]
    n = list(set(n))
    k2 = Alphabet.generate_from_numbers("Kanji2", n)
    print("Kanji2: {0}".format(len(k2)))
    #k2.export_csv("kanji2.csv")
--- a/Detector.py
+++ b/Detector.py
@ -0,0 +1,93 @@
 from Alphabet import Alphabet
 class Detector:
    def __init__(self):
        self._alphs = None
    def add_alphabet(self, alph: Alphabet):
        if self._alphs is None:
            self._alphs = []
        self._alphs.append(alph)
    def match_text(self, text: str) -> dict:
        """
        Determine if a given text uses some characters from any alphabet
        :param text:
        :return:
        """
        results = {}
        for alph in self._alphs:
            results[alph.get_name()] = [[]]  # [matches], percentage
        results['Unknown'] = [[]]
        for c in text:
            if c == "\n":  # ignoring whitespace
                continue
            found = False
            for alph in self._alphs:
                for entry in alph.get_data():
                    if c == entry['Char']:
                        results[alph.get_name()][0].append(c)
                        found = True
            if not found:
                results['Unknown'][0].append(c)
        # Create statistics
        for key in results.keys():
            results[key].append(len(results[key][0])/float(len(text)))
        return results
    @staticmethod
    def pretty_result(result: dict, small: bool=False):
        s = ""
        longest_name = max([len(key) for key in result.keys()])
        longest_match = max([len(m[0]) for m in result.values()])
        for key in result.keys():
            name = key + ": "
            while len(name) <= 2+longest_name:
                name += " "
            match_list = result[key][0]
            while len(match_list) <= longest_match:
                match_list.append(" ")
            matches = ""
            for m in match_list:
                matches += m
            percentage = round(result[key][1]*100, 2)
            if not small:
                s += name + "Matches: " + matches + " MatchPercent: " + str(percentage) + "\n"
            else:
                s += name + str(percentage) + "\n"
        return s
 if __name__ == "__main__":
    kanji = Alphabet("Kanji (small)", "kanji.csv")
    kanji2 = Alphabet("Kanji (big)", "kanji2.csv")
    hiragana = Alphabet("Hiragana", "hiragana.csv")
    katakana = Alphabet("Katakana", "katakana.csv")
    print(kanji.get_name(), len(kanji.get_data()))
    print(kanji2.get_name(), len(kanji2.get_data()))
    print(hiragana.get_name(), len(hiragana.get_data()))
    print(katakana.get_name(), len(katakana.get_data()))
    print()
    d = Detector()
    d.add_alphabet(kanji)
    d.add_alphabet(kanji2)
    d.add_alphabet(hiragana)
    d.add_alphabet(katakana)
    text = ""
    for line in open("./sample-text.txt", 'r'):
        text += line
    print("Matches: \n{0}".format(d.pretty_result(d.match_text(text), small=True)))
--- a/hiragana.csv
+++ b/hiragana.csv
@ -0,0 +1,90 @@
 Char,Unicode (hex),Decimal,LearningOrder
 ぁ,U+3041,12353,
 あ,U+3042,12354,
 ぃ,U+3043,12355,
 い,U+3044,12356,
 ぅ,U+3045,12357,
 う,U+3046,12358,
 ぇ,U+3047,12359,
 え,U+3048,12360,
 ぉ,U+3049,12361,
 お,U+304a,12362,
 か,U+304b,12363,
 が,U+304c,12364,
 き,U+304d,12365,
 ぎ,U+304e,12366,
 く,U+304f,12367,
 ぐ,U+3050,12368,
 け,U+3051,12369,
 げ,U+3052,12370,
 こ,U+3053,12371,
 ご,U+3054,12372,
 さ,U+3055,12373,
 ざ,U+3056,12374,
 し,U+3057,12375,
 す,U+3059,12377,
 ず,U+305a,12378,
 せ,U+305b,12379,
 ぜ,U+305c,12380,
 そ,U+305d,12381,
 ぞ,U+305e,12382,
 た,U+305f,12383,
 だ,U+3060,12384,
 ち,U+3061,12385,
 ぢ,U+3062,12386,
 っ,U+3063,12387,
 つ,U+3064,12388,
 づ,U+3065,12389,
 て,U+3066,12390,
 で,U+3067,12391,
 ど,U+3069,12393,
 な,U+306a,12394,
 に,U+306b,12395,
 ぬ,U+306c,12396,
 ね,U+306d,12397,
 の,U+306e,12398,
 は,U+306f,12399,
 ば,U+3070,12400,
 ぱ,U+3071,12401,
 ひ,U+3072,12402,
 び,U+3073,12403,
 ぴ,U+3074,12404,
 ふ,U+3075,12405,
 ぶ,U+3076,12406,
 ぷ,U+3077,12407,
 べ,U+3079,12409,
 ぺ,U+307a,12410,
 ほ,U+307b,12411,
 ぼ,U+307c,12412,
 ぽ,U+307d,12413,
 ま,U+307e,12414,
 み,U+307f,12415,
 む,U+3080,12416,
 め,U+3081,12417,
 も,U+3082,12418,
 ゃ,U+3083,12419,
 や,U+3084,12420,
 ゅ,U+3085,12421,
 ゆ,U+3086,12422,
 ょ,U+3087,12423,
 ら,U+3089,12425,
 り,U+308a,12426,
 る,U+308b,12427,
 れ,U+308c,12428,
 ろ,U+308d,12429,
 ゎ,U+308e,12430,
 わ,U+308f,12431,
 ゐ,U+3090,12432,
 ゑ,U+3091,12433,
 を,U+3092,12434,
 ん,U+3093,12435,
 ゔ,U+3094,12436,
 ゕ,U+3095,12437,
 ゖ,U+3096,12438,
 ゙,U+3099,12441,
 ゚,U+309a,12442,
 ゛,U+309b,12443,
 ゜,U+309c,12444,
 ゝ,U+309d,12445,
 ゞ,U+309e,12446,
 ゟ,U+309f,12447,
--- a/kanji.csv
+++ b/kanji.csv
--- a/kanji2.csv
+++ b/kanji2.csv
--- a/katakana.csv
+++ b/katakana.csv
@ -0,0 +1,97 @@
 Char,Unicode (hex),Decimal,LearningOrder
 ゠,U+30a0,12448,
 ァ,U+30a1,12449,
 ア,U+30a2,12450,
 ィ,U+30a3,12451,
 イ,U+30a4,12452,
 ゥ,U+30a5,12453,
 ウ,U+30a6,12454,
 ェ,U+30a7,12455,
 エ,U+30a8,12456,
 ォ,U+30a9,12457,
 オ,U+30aa,12458,
 カ,U+30ab,12459,
 ガ,U+30ac,12460,
 キ,U+30ad,12461,
 ギ,U+30ae,12462,
 ク,U+30af,12463,
 グ,U+30b0,12464,
 ケ,U+30b1,12465,
 ゲ,U+30b2,12466,
 コ,U+30b3,12467,
 ゴ,U+30b4,12468,
 サ,U+30b5,12469,
 ザ,U+30b6,12470,
 シ,U+30b7,12471,
 ジ,U+30b8,12472,
 ス,U+30b9,12473,
 ズ,U+30ba,12474,
 セ,U+30bb,12475,
 ゼ,U+30bc,12476,
 ソ,U+30bd,12477,
 ゾ,U+30be,12478,
 タ,U+30bf,12479,
 ダ,U+30c0,12480,
 チ,U+30c1,12481,
 ヂ,U+30c2,12482,
 ッ,U+30c3,12483,
 ツ,U+30c4,12484,
 ヅ,U+30c5,12485,
 テ,U+30c6,12486,
 デ,U+30c7,12487,
 ト,U+30c8,12488,
 ド,U+30c9,12489,
 ナ,U+30ca,12490,
 ニ,U+30cb,12491,
 ヌ,U+30cc,12492,
 ネ,U+30cd,12493,
 ノ,U+30ce,12494,
 ハ,U+30cf,12495,
 バ,U+30d0,12496,
 パ,U+30d1,12497,
 ヒ,U+30d2,12498,
 ビ,U+30d3,12499,
 ピ,U+30d4,12500,
 フ,U+30d5,12501,
 ブ,U+30d6,12502,
 プ,U+30d7,12503,
 ヘ,U+30d8,12504,
 ベ,U+30d9,12505,
 ペ,U+30da,12506,
 ホ,U+30db,12507,
 ボ,U+30dc,12508,
 ポ,U+30dd,12509,
 マ,U+30de,12510,
 ミ,U+30df,12511,
 ム,U+30e0,12512,
 メ,U+30e1,12513,
 モ,U+30e2,12514,
 ャ,U+30e3,12515,
 ヤ,U+30e4,12516,
 ュ,U+30e5,12517,
 ユ,U+30e6,12518,
 ョ,U+30e7,12519,
 ヨ,U+30e8,12520,
 ラ,U+30e9,12521,
 リ,U+30ea,12522,
 ル,U+30eb,12523,
 レ,U+30ec,12524,
 ロ,U+30ed,12525,
 ヮ,U+30ee,12526,
 ワ,U+30ef,12527,
 ヰ,U+30f0,12528,
 ヱ,U+30f1,12529,
 ヲ,U+30f2,12530,
 ン,U+30f3,12531,
 ヴ,U+30f4,12532,
 ヵ,U+30f5,12533,
 ヶ,U+30f6,12534,
 ヷ,U+30f7,12535,
 ヸ,U+30f8,12536,
 ヹ,U+30f9,12537,
 ヺ,U+30fa,12538,
 ・,U+30fb,12539,
 ー,U+30fc,12540,
 ヽ,U+30fd,12541,
 ヾ,U+30fe,12542,
 ヿ,U+30ff,12543,
--- a/sample-text.txt
+++ b/sample-text.txt
@ -0,0 +1,5 @@
 会市屋詩
 ヷムペヺ
 ぅぴ