О записи
Реклама


Полезные ссылки

Синонимизация. Мы ее теряем :)

Есть новый сайт (скажу его лишь тем кто хочет поучавствовать в создании синонимайзера), который я хочу попробовать протолкнуть. Единственное чего ему сейчас не хватает - уникального контента. А так как я синонимайзер еще ранее хотел написать, под другой сайт, разработке которого я наконец-то сейчас могу уделить внимание, так как закончилась сессия и мое время снова со мной, я решил попробовать сделать его сейчас.

Все казалось достаточно простым для меня. Первый взгляд на технологию синонимазации текста я описал в одном из предыдущих постов. Сегодня же все таки закончил делать первоначальную базу и получил:

  • 15 тысяч разных слов
  • связи и синонимы на каждое из этих слов

Выборка для синонимов для любого слова:

select t1.word, t3.word from words as t1
right join sinon as t2 on t2.word_id=t1.id
left join words as t3 on t3.id=t2.sinon_id
where t1.word='слово'

порядка 0.05 секунд даже на моем компе, это значит, что можно увеличить количество слов на поряд и скорость выборки не значительно увеличится. Это очень хорошо.

С другой стороны, я решил попробовать заменять каждое прилагательное слово в небольшом абзаце:

Сон, в котором Вы наслаждаетесь уютом домашнего очага, сидя под абажуром, означает, что Вас ожидают перемены в личной жизни. Нельзя исключать скорое вступление в брак. Для молодой женщины сон, в котором она сама делает абажур, означает, что она будет хорошей хозяйкой, способной создать уют в доме. Если во сне Вам подарили абажур, то наяву особа противоположного пола будет оказывать Вам знаки пристального внимания.

В результате синонимизация(уникализация) текса повернулась ко мне мне своим истинным лицом - практически ни одного слова, которое можно было бы заменить синонимом в базе для этого абзаца нет, а не некоторые слова(ключевые) заменять и во все нельзя. Выводы:

  • База должна быть оптимизированна и дополнена данными о суфиксах, окончаниях и корне слов для возможности найти это слово в тексте. Сделать это крайне сложно.
  • Дополнить синонимайзер функцией перемешивания предложений.
  • Для качественной уникализации текста - лучше сделать синонимайзер в полуавтоматическом режиме.

Продолжаю работать в этом направлении :)

А также - раздобыл все таки AllSubmitter 4.7 и активно начинаю его юзать для получения бэков на свои проекты. $0.15 с сателлита PR1 тИЦ10 в день сейчас, подожду индексации ссылок, после автоматического рега по базе в несколько тысяц каталогов - примерно 400+ успешных ответных мейлов.

CTRL+C устраивает конкурс аля "Наша Раша", а вот блоговар почему-то помер, хотя отличный источник трафика и ссылок был... iThorn рассказывает секреты попадания в топы социалки Toodoo, а Роман Настенко расскажет все секреты секса в Интернете. s13 наталкивает и мотивирует всеже на создание синонимайзера, как бы сложно это не было...

Добавить пост в: Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru