1

... ничего не дал default/big_smile Вероятность угадывания, что на ТИМам, что по дихотомиям - на уровне шума default/smile

а что за анализ такой?

3

По дихотомиям Зевс, посты которого не участвовали в настройке весовых коэффициентов, получился неярко выраженным Робом default/big_smile

4

zverek пишет:

а что за анализ такой?

Частотный анализ употребляемости тех или иных слов. По которому спаммеров сейчас любят ловить default/smile

...

Кстати, ты не мог бы таблицу постингов из БД форума сбросить и мне прислать? А то приходится из онлайна тягать - долго, и твоему серверу лишняя нагрузка default/smile Таблица posts.

А то я тут сейчас думаю на счёт нормирования слов, так опять тащить придётся через онлайн всё :-/

5

zverek пишет:

а что за анализ такой?

Кстати, ты тоже Робом вышел default/big_smile Что-то я Бальзаков мало внёс в список. Сейчас уточним default/smile

Balancer пишет:
zverek пишет:

а что за анализ такой?

Кстати, ты не мог бы таблицу постингов из БД форума сбросить и мне прислать? А то приходится из онлайна тягать - долго, и твоему серверу лишняя нагрузка default/smile Таблица posts.

кинул тебе на мыло адрес.

Balancer пишет:
zverek пишет:

а что за анализ такой?

Кстати, ты тоже Робом вышел default/big_smile

семейное проклятье default/smile

8

Скачал.

Кстати, в чтих ТИМах ты тут уверен? А то у меня пока только 10 человек для начального анализа.

(Сейчас мучаю вариант анализа прямо по аспектам - получается лучше всего, вроде бы)

9

Примеров набралось только на 7 аспектов в базе и на 6 - в творческой.

Нет в тестах базовых ЧИ и творческих БЛ и ЧЭ.

Образцовых Донов, Есей, Гексли и Жуков в студию! default/smile

10

Самое трудное - избавляться от многократных цитат. А избавиться от цитирования чужих текстов без их выделения автоматически вообще невозможно default/sad

Balancer пишет:

Самое трудное - избавляться от многократных цитат.

а чего там трудного, выкидывать все [ quote]*[/ quote]

Balancer пишет:

Примеров набралось только на 7 аспектов в базе и на 6 - в творческой.

Нет в тестах базовых ЧИ и творческих БЛ и ЧЭ.

Образцовых Донов, Есей, Гексли и Жуков в студию! default/smile

я думаю лучше взять оргийскую базу default/smile там материала наберется выше крыши default/smile

ЗЫ. это не ты там оргии парсишь так что они аж легли? default/smile

Balancer пишет:

Скачал.

Кстати, в чтих ТИМах ты тут уверен? А то у меня пока только 10 человек для начального анализа.

(Сейчас мучаю вариант анализа прямо по аспектам - получается лучше всего, вроде бы)

а первоначально по дихотомиям было?

я думаю лучше в качестве исходных данных брать анкеты чебурашек default/smile там все достаточно упорядоченно.

14

zverek пишет:
Balancer пишет:

Самое трудное - избавляться от многократных цитат.

а чего там трудного, выкидывать все [ quote]*[/ quote]

Проблема с вложенными цитатами:

111
quote
 222
 quote
  333
 /quote
 444
/quote
555
quote
 666
/quote
777

При жадном захвате (от первых quote до последних /quote) останется только 111 и 777 (сейчас такой метод использую)

При нежадном (от первых quote до первых /quote) останется:

111
quote
 444
/quote
555
777

Правда, потом ещё раз пройти можно, но там другие проблемы могут полезть. Проще пока пользоваться жадным методом default/smile

15

zverek пишет:

я думаю лучше взять оргийскую базу default/smile там материала наберется выше крыши default/smile

ЗЫ. это не ты там оргии парсишь так что они аж легли? default/smile

Нет, не я default/smile Мысль Байеса попробовать только сегодня в голову пришла. А легли они - заранее default/big_smile

Беда в том, что фиг мне кто ту базу даст. Там же Миша! default/big_smile А по URL тянуть... Это только если оно оправдано будет default/big_smile

16

zverek пишет:

а первоначально по дихотомиям было?

я думаю лучше в качестве исходных данных брать анкеты чебурашек default/smile там все достаточно упорядоченно.

Первоначально сразу ТИМ пытался выявить default/smile Впрочем, я сейчас, приведя к исходным формам слова в текстах ("нееееет ,  если у вас быть есть опыт и метода метод борьбы с последствиями ,  любой последствия не быть иметь катастрофический силы .  если же оный нет ,  то первый же прорвавшийся сквозь заслон предусмотрительности форсмажор быть иметь характер катастрофа .") ещё снова попробую default/big_smile

А с чебурашек толку мало. Нужны постинги свободного и длительного общения default/smile

Balancer пишет:

При жадном захвате (от первых quote до последних /quote) останется только 111 и 777 (сейчас такой метод использую)

ну да, надо все выкидывать.

Balancer пишет:

Беда в том, что фиг мне кто ту базу даст. Там же Миша! default/big_smile А по URL тянуть... Это только если оно оправдано будет default/big_smile

ну можно и не всю. делаешь серверный скрипт, ставишь на ночь, утром что скачалось - все твое default/smile качать кстати можно версии "для печати", они легче.

а какие факторы используются?

20

Balancer пишет:

При жадном захвате (от первых quote до последних /quote) останется только 111 и 777 (сейчас такой метод использую)

Меж тем как при правильном методе должно остаться 111, 555 и 777.

Правильный метод - это
Glub=0;
While (есть что читать)
{прочитать_микрокусок_входного_текста;
  if (попалось [/ quote]) Glub--
  else if (попалось [ quote]) Glub++;
  if (Glub==0) вывести_содержимое_на_выход
  else if (Glub<0) сообщить_об_ошибке;
}