Вы читаете “ Синонимизация. Мы ее теряем :)”, в блоге cross{blog}
- Опубликовано:
- 01.26.08 / 9pm
- Рубрика:
- Разработка сайтов
Реклама
Полезные ссылки
Синонимизация. Мы ее теряем :)
Есть новый сайт (скажу его лишь тем кто хочет поучавствовать в создании синонимайзера), который я хочу попробовать протолкнуть. Единственное чего ему сейчас не хватает - уникального контента. А так как я синонимайзер еще ранее хотел написать, под другой сайт, разработке которого я наконец-то сейчас могу уделить внимание, так как закончилась сессия и мое время снова со мной, я решил попробовать сделать его сейчас.
Все казалось достаточно простым для меня. Первый взгляд на технологию синонимазации текста я описал в одном из предыдущих постов. Сегодня же все таки закончил делать первоначальную базу и получил:
- 15 тысяч разных слов
- связи и синонимы на каждое из этих слов
Выборка для синонимов для любого слова:
select t1.word, t3.word from words as t1
right join sinon as t2 on t2.word_id=t1.id
left join words as t3 on t3.id=t2.sinon_id
where t1.word='слово'
порядка 0.05 секунд даже на моем компе, это значит, что можно увеличить количество слов на поряд и скорость выборки не значительно увеличится. Это очень хорошо.
С другой стороны, я решил попробовать заменять каждое прилагательное слово в небольшом абзаце:
Сон, в котором Вы наслаждаетесь уютом домашнего очага, сидя под абажуром, означает, что Вас ожидают перемены в личной жизни. Нельзя исключать скорое вступление в брак. Для молодой женщины сон, в котором она сама делает абажур, означает, что она будет хорошей хозяйкой, способной создать уют в доме. Если во сне Вам подарили абажур, то наяву особа противоположного пола будет оказывать Вам знаки пристального внимания.
В результате синонимизация(уникализация) текса повернулась ко мне мне своим истинным лицом - практически ни одного слова, которое можно было бы заменить синонимом в базе для этого абзаца нет, а не некоторые слова(ключевые) заменять и во все нельзя. Выводы:
- База должна быть оптимизированна и дополнена данными о суфиксах, окончаниях и корне слов для возможности найти это слово в тексте. Сделать это крайне сложно.
- Дополнить синонимайзер функцией перемешивания предложений.
- Для качественной уникализации текста - лучше сделать синонимайзер в полуавтоматическом режиме.
Продолжаю работать в этом направлении
А также - раздобыл все таки AllSubmitter 4.7 и активно начинаю его юзать для получения бэков на свои проекты. $0.15 с сателлита PR1 тИЦ10 в день сейчас, подожду индексации ссылок, после автоматического рега по базе в несколько тысяц каталогов - примерно 400+ успешных ответных мейлов.
CTRL+C устраивает конкурс аля "Наша Раша", а вот блоговар почему-то помер, хотя отличный источник трафика и ссылок был... iThorn рассказывает секреты попадания в топы социалки Toodoo, а Роман Настенко расскажет все секреты секса в Интернете. s13 наталкивает и мотивирует всеже на создание синонимайзера, как бы сложно это не было...

Синонимизация. Мы ее теряем :)
Комментарии (3)Оставить комментарий |