net.moraleboost.junsai.dictionary
クラス Dictionary

java.lang.Object
  上位を拡張 net.moraleboost.junsai.dictionary.Dictionary

public class Dictionary
extends java.lang.Object

メイン辞書クラス


フィールドの概要
static int MAGIC
           
static int MIN_FILE_SIZE
           
static int TYPE_SYS_DIC
           
static int TYPE_UNK_DIC
           
static int TYPE_USR_DIC
           
static int VERSION
           
 
コンストラクタの概要
Dictionary(java.lang.String filename)
          Dictionary(String, boolean)において、 mapをtrueに指定した場合と同じ。
Dictionary(java.lang.String filename, boolean map)
          コンパイル済み辞書ファイルをオープンしてDictionaryオブジェクトを構築する。
 
メソッドの概要
static int baseIndex(Trie.Result r)
          rの示す表層形を持つTokenのうち、最初のもののインデックスを取得する。
 int commonPrefixSearch(java.lang.CharSequence key, int offset, int len, Trie.Result[] result, int rlen)
          key内の位置offsetから長さlenまでの部分文字列で始まる見出しを持つ、 辞書エントリを検索する。
 boolean exactMatchSearch(java.lang.CharSequence key, Trie.Result r)
          keyと完全に一致する見出しを持つ辞書エントリを検索する。
 java.lang.String feature(Token t)
          Tokenに対応する素性を取得する。
 int getDsize()
          この辞書ファイル内の、double-array領域のサイズ(バイト数)を取得する。
 java.lang.String getFilename()
          辞書ファイルのパスを取得する。
 int getFsize()
          この辞書ファイル内の、素性領域のサイズ(バイト数)を取得する。
 int getLexsize()
          辞書見出し数を取得する。
 int getLsize()
          接続コスト行列の左サイズを取得する。
 int getRsize()
          接続コスト行列の右サイズを取得する。
 int getTsize()
          この辞書ファイル内の、token領域のサイズ(バイト数)を取得する。
 int getType()
          辞書のタイプを取得する。
 int getVersion()
          辞書のバージョンを取得する。
 boolean isCompatible(Dictionary d)
          dとこの辞書の互換性をチェックする。
static int makeTokenValue(int baseIndex, int numTokens)
          トークンのインデックスとトークン数から、Trieに格納する値を算出する。
static int numTokens(Trie.Result r)
          rの示す表層形を持つ単語の数を取得する。
 void token(int idx, Token token)
          Token配列内のインデックスを直接指定して読む。
 void token(Trie.Result r, int offset, Token token)
          rの指す表層形を持つ最初のTokenから数えて、offset番目のTokenを読む。
 
クラス java.lang.Object から継承されたメソッド
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
 

フィールドの詳細

TYPE_SYS_DIC

public static final int TYPE_SYS_DIC
関連項目:
定数フィールド値

TYPE_USR_DIC

public static final int TYPE_USR_DIC
関連項目:
定数フィールド値

TYPE_UNK_DIC

public static final int TYPE_UNK_DIC
関連項目:
定数フィールド値

MIN_FILE_SIZE

public static final int MIN_FILE_SIZE
関連項目:
定数フィールド値

MAGIC

public static final int MAGIC
関連項目:
定数フィールド値

VERSION

public static final int VERSION
関連項目:
定数フィールド値
コンストラクタの詳細

Dictionary

public Dictionary(java.lang.String filename)
           throws DictionaryException,
                  java.io.IOException
Dictionary(String, boolean)において、 mapをtrueに指定した場合と同じ。

パラメータ:
filename -
例外:
DictionaryException
java.io.IOException

Dictionary

public Dictionary(java.lang.String filename,
                  boolean map)
           throws DictionaryException,
                  java.io.IOException
コンパイル済み辞書ファイルをオープンしてDictionaryオブジェクトを構築する。

パラメータ:
filename - コンパイル済み辞書ファイルのパス
map - trueなら、メモリマップトファイルを用いてデータを読み込む。 falseなら、最初にすべてのデータをメモリ上にロードする。
例外:
DictionaryException
java.io.IOException
メソッドの詳細

getFilename

public java.lang.String getFilename()
辞書ファイルのパスを取得する。

戻り値:

getVersion

public int getVersion()
辞書のバージョンを取得する。

戻り値:

getType

public int getType()
辞書のタイプを取得する。 TYPE_SYS_DIC, TYPE_USR_DIC, TYPE_UNK_DICのいずれか。

戻り値:

getLexsize

public int getLexsize()
辞書見出し数を取得する。

戻り値:

getLsize

public int getLsize()
接続コスト行列の左サイズを取得する。

戻り値:

getRsize

public int getRsize()
接続コスト行列の右サイズを取得する。

戻り値:

getDsize

public int getDsize()
この辞書ファイル内の、double-array領域のサイズ(バイト数)を取得する。

戻り値:

getTsize

public int getTsize()
この辞書ファイル内の、token領域のサイズ(バイト数)を取得する。

戻り値:

getFsize

public int getFsize()
この辞書ファイル内の、素性領域のサイズ(バイト数)を取得する。

戻り値:

isCompatible

public boolean isCompatible(Dictionary d)
dとこの辞書の互換性をチェックする。

パラメータ:
d -
戻り値:

token

public void token(Trie.Result r,
                  int offset,
                  Token token)
rの指す表層形を持つ最初のTokenから数えて、offset番目のTokenを読む。

パラメータ:
r - [in] Trieの検索結果
offset - [in] オフセット
token - [out] 読み込んだ情報を格納するトークン

token

public void token(int idx,
                  Token token)
Token配列内のインデックスを直接指定して読む。

パラメータ:
idx - [in] インデックス
token - [out] 読み込んだ情報を格納するトークン

numTokens

public static int numTokens(Trie.Result r)
rの示す表層形を持つ単語の数を取得する。

パラメータ:
r - Trieの検索結果
戻り値:

baseIndex

public static int baseIndex(Trie.Result r)
rの示す表層形を持つTokenのうち、最初のもののインデックスを取得する。

パラメータ:
r - Trieの検索結果
戻り値:

makeTokenValue

public static int makeTokenValue(int baseIndex,
                                 int numTokens)
トークンのインデックスとトークン数から、Trieに格納する値を算出する。

パラメータ:
baseIndex - 同じ見出しを持つTokenの最初のものの位置
numTokens - 同じ見出しを持つTokenの数
戻り値:

feature

public java.lang.String feature(Token t)
Tokenに対応する素性を取得する。

パラメータ:
t -
戻り値:
素性文字列

exactMatchSearch

public boolean exactMatchSearch(java.lang.CharSequence key,
                                Trie.Result r)
keyと完全に一致する見出しを持つ辞書エントリを検索する。

パラメータ:
key - [in] 見出し語
r - [out] 検索結果
戻り値:
完全一致するエントリが見つかればtrue。見つからなければfalse。

commonPrefixSearch

public int commonPrefixSearch(java.lang.CharSequence key,
                              int offset,
                              int len,
                              Trie.Result[] result,
                              int rlen)
key内の位置offsetから長さlenまでの部分文字列で始まる見出しを持つ、 辞書エントリを検索する。

パラメータ:
key - [in] 見出し語のprefixを含むシーケンス
offset - key内のprefixが始まる位置
len - key内のprefixの長さ
result - 検索結果
rlen - resultに検索結果を格納する数の上限
戻り値: