Kategori arşivi: Weka

StringToWordVector Desc

Common

minTermFreq

The minimum (per-class) word frequency. Sets the minimum term frequency. This is enforced(impose) on a per-class basis.

wordsToKeep

This parameter basically determines the size of the dictionary (see method “determineDictionary()”) storing the tokenized substrings.

Less frequent substrings (must meet minTermFreq) will be pruned to cut down the size of dictionary. Duplicates across class labels will be removed from all but the first label it was encountered for as well.

The number of words in the output vector (per class if assigned).

The default number of words (per class if there is a class attribute assigned) to attempt to keep.

Approximate number of word attributes to create. Surplus(extra,additional,unused) words will be discarded. (default: 1000)

Restricts number of words to keep per class, thus for 2 classes, setting wordsToKeep to 50 gives you limit of a 100

It is not a strict constraint and it only affects where to prune the sorted occurences list, this can be altered:

// sort the array
sortArray(array);
if (array.length < m_WordsToKeep) {
// if there aren't enough words, set the threshold to
// minFreq
prune[z] = m_minTermFreq;
  } else {
// otherwise set it to be at least minFreq
prune[z] = Math.max(m_minTermFreq, 
    array[array.length - m_WordsToKeep]);
  }

 DoNotOperateOnPerClassBased değerine göre:
true için; her bir class sözcükleri ve tekrar sayıları bir dizide toplanır. Dizi kelime tekrar sayılarına göre desc sıralanır. Dizi uzunluğu wordstokeep değerinden küçükse mintermfreq dikkate alınarak, classlar içindeki sözcüklerden mintermfreq sayısınca tekrar edenler ve üstündekler attribute olarak alınır. Dizi uzunluğu wordstokeep değerinden büyükse, sıralı dizideki workdstokeep indisine denk gelen tekrar sayısı ve üstündeki sözcükler attribute olarak alınır (vektör olarak belirlenir).
false ise, tüm sözcükler dizi olarak tekrar sayısına göre desc sıralanır ve true için olan işlem uygulanır.

DoNotOperateOnPerClassBased = true (not based on class)

minTermFreq = N
If a term(word, ext.) count is not equal or greater then the minTermFreq (N in this case) inside corpus (all documents terms list) that term will be discarded from attributes.

C adet class olsun. Bir terimin(kelime) attribute listesinde olması için; C adet classın tüm sözcükleri içinde en az N defa geçmesi gerekir.

wordsToKeep = N
If wordsToKeep has value N, only the top-N most common tokens in all the string attribute values are kept, plus any tokens that are as common as the least common token amongst the top-N (i.e. ties aren’t broken).

DoNotOperateOnPerClassBased = false (based on class)

minTermFreq = N
C adet class olsun. Bir terimin(kelime) attribute listesinde olması için; C adet classın herhangi birisinin içinde >=N adet geçmesi gerekiyor.

wordsToKeep = N
A separate list is computed per class value using this process and subsequently the lists are merged.

Java snowball turkish to weka

Pages related to the subject:
https://weka.wikispaces.com/Stemmers
https://weka.wikispaces.com/Unofficial+packages+for+WEKA+3.7
https://github.com/fracpete/snowball-stemmers-weka-package
https://github.com/fracpete/snowball-stemmers-weka-package/releases

Download to Weka 3.7 : https://github.com/fracpete/snowball-stemmers-weka-package/releases -> snowball-stemmers-1.0.1.zip

Open weka package manager and install new zip package from top right file section
Now you can use this stemmers from stringtowordvector filter options. dont forget to select stemmer turkish