Генерация уникального синтаксически правильного текста на основе доргена DMI3 Static

Тема в разделе "Генерация Контента", создана пользователем Art, 7 июл 2017.

  1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  1. Art

    Art Участник

    23 фев 2017
    28
    9
    Мужской
    php\html\css developer
    #1 Art, 7 июл 2017
    Последнее редактирование: 7 июл 2017
    Привет.
    Недавно встретил запись выступления Максима Пшенникова на семинаре SEMPRO 2015

    Он там на 43й минуте рассказывает про генератор текста DMI3 Static и про то что у него эти тексты заходят в Гугле хорошо.)
    В общем загорелся я этой идеей, нашел этот генератор, переписал код с Python на Php и сделал плагин для Thunder 3. И плюс еще добавил несколько фичей для улучшения.
    Есть пару минусов, что там скрипт для русского текста не работает (у меня не получилось создать словарь). Но зато точно работает English. Также там есть поддержка (French, German, Italian, Spanish, Dutch) но их я еще не тестил.
    Еще этот генератор может добавлять ссылки и ключевые слова в текстовку по указанным параметрам.
    В итоге процесс генерации такой:
    1. Парсинг нужной тематики текста (для дальнейшей переработки)
    2. Создания словаря через родные скрипты на python, perl и бинарный скрипт.
    3. Генерация текстовики из словаря (+ добавление ссылок и кеев) через плагин для Thunder 3
    4. Обработка полученной текстовики (пару фичей от contentyoda.com )
    5. Удаление грамматически неправильных слов (Yandex Speller)

    Пару недель назад начал заливать доры с этим текстом под бурж. По результатам напишу отчет.
    Что скажете? Эта тема еще актуальна?

    P.s. Если кто хочет потестить этот генератор пишите в личку - договоримся о условиях.
     
    Bill, ritfeet, Glokken и 2 другим нравится это.
  2. amness

    amness Активный Участник

    11 апр 2016
    241
    84
    Мужской
    Смотрел это видео год назад, тоже заинтересовало, но найти сам DMI3 Static в паблике так и неудалось(наверное плохо искал). Ты-б самим доргеном поделился. Оч любопытно, что там внутри и почему не пользовался спросом.
    По поводу "заходят в Гугле хорошо", сейчас и марковка заходит, но только вопрос как долго она там остаётся.
     
  3. Art

    Art Участник

    23 фев 2017
    28
    9
    Мужской
    php\html\css developer
    Ну если надолго то это надо не доры делать, а нормальные сайты, на мой взгляд.) Если, конечно, как то хитро от асессора не замаскировать генеренку.
    Я покупал его на nullseo.com .
     
    amness нравится это.
  4. heyner

    heyner Участник

    25 янв 2016
    218
    43
    Ты бы уж всем условия обозначил. Без личных встреч. Давай на общак раздербань.
     
  5. Art

    Art Участник

    23 фев 2017
    28
    9
    Мужской
    php\html\css developer
    Так, а че там дербанить? ) Это ж не моя разработка, я просто переписал с питона на пхп. У меня договоренностей с автором DMI3 нет - в паблик не хочу.
    Тем кто хочет сэкономить время на собственные разработки могу продать плагин генарации для Thunder 3 , но этого не достаточно, т.к. нужно словари создавать с помощью DM3 скриптов. Тем кто не боится палить свои ниши и текстовку я могу эти словари создавать за недорого.)
    Если этот вариант не подходит, тогда можете приобрести сам дорген DMI3 и настроить и модифицировать его. Там нужно питоновские скрипты переписать немного. Могу с этим тоже помочь, но в личке.))
     
  6. Firestarter

    Firestarter Администратор
    Команда форума

    26 окт 2015
    1.210
    550
    Я закончу с ремонтом в доме и, возможно, приделаю. Ничего там такого сверхестественного нету.
    В индекс входит все, но трафа нету)))
     
    Art, Predator и heyner нравится это.
  7. Art

    Art Участник

    23 фев 2017
    28
    9
    Мужской
    php\html\css developer
    Ок, довольно интересно посмотреть Ваш вариант решения. Там под каждый язык отдельные шаблоны (регулярки определяющие свойство слова - сущ., гл., прилаг. и т.п.), по которому происходит создание словаря. И как это решить по-другому, и надо ли это вобще решать по-другому я знаю.
    По трафу пока вобще непонятно - через 3-4 месяца должно что-то проясниться.
     
  8. pavel92

    pavel92 Новичок

    24 янв 2017
    8
    2
    Мужской
    Плохо искал https://yadi.sk/d/3xxmwV2M3973Lc . Сам не пользовался, че и как.
     
  9. Vova

    Vova Новичок

    15 сен 2016
    9
    3
    Мужской
    Кто-то затестировал этот алгоритм уже? Какие результаты?
    Прежде чем лепить к доргену, может попробуем затестить вначале?
    Все-таки в 2015 году и замес со сниппетов залетал на ура в Гугл. Как сегодня с этим обстоят дела?
     
  10. Reset

    Reset Новичок

    23 июн 2016
    9
    1
    Мужской
    В гугле другая проблема - без ссылок не будет нормального трафа, недавно на БДД об этом говорили, поэтому траф будет литься только на супер НЧ,
    но в тоже время для супер НЧ уник весьма критичен, поэтому лично мне такой алгоритм кажется перспективным.
     
  11. rutin1984

    rutin1984 Новичок

    24 июл 2017
    27
    1
    Мужской
    Я для гугла сейчас взял супер НЧ - 1-50 показа в месяц, чисто для эксперимента, посмотрим как будут индексироваться
     
    Vova нравится это.
  12. Vova

    Vova Новичок

    15 сен 2016
    9
    3
    Мужской
    Очень интересно. Особенно в первые дни интересно понаблюдать реакцию гугла.
     
    rutin1984 нравится это.
  13. rutin1984

    rutin1984 Новичок

    24 июл 2017
    27
    1
    Мужской
    посмотри только начал, этому гуглу вообще непонятно, что нужно. Яндекс намного проще пережевывает, правда и выплевывает но все таки
     
  14. Vova

    Vova Новичок

    15 сен 2016
    9
    3
    Мужской
    Опиши подробнее процесс.
    Создавал ли ты словари или брал готовые? Сколько доров, линковал ли их между собой, делал ли пинг, пришел ли бот в первый день, много ли страниц обошел, много ли в индекс поставил?
     
  15. Vova

    Vova Новичок

    15 сен 2016
    9
    3
    Мужской
    Приветствую. Ну как успехи с индексацией? Есть результаты?
     
  16. ntro123

    ntro123 Новичок

    3 окт 2017
    6
    0
    Мужской
  17. yurik

    yurik Участник

    19 фев 2016
    24
    5
    Мужской
    А чем плох - нужно пандору и плагин брать + контент бокс или пропарсер | апарсер - каждому свое!
     
  18. ntro123

    ntro123 Новичок

    3 окт 2017
    6
    0
    Мужской
    Окей, согласен, интересует на самом деле, идентичны ли они или нет, если смотреть english.par то его размер около 14мб, а если смотреть в пандоре dict.en.dll около 3 мб.

    Следовательно общие базы словарей у пандоры меньше.

    Вот и спрашиваю с технической точки зрения кто-то пробовал и тот и другой вариант?
     
  19. Vova

    Vova Новичок

    15 сен 2016
    9
    3
    Мужской
    #19 Vova, 4 окт 2017
    Последнее редактирование: 4 окт 2017
    Проводил разные тесты на этом алгоритме, результат печальный. уж как по мне, так лучше просто парсить тексты с помощью Тандера (get_article_v3) и замешивать их. Вполне возможно, что правильный синтаксис - не панацея. Нужно чтобы слова были как-то связаны между собой. А именно, необходимо чтобы они были связаны по смыслу, хотя-бы в пределах нескольких слов. Возможно нужен алгоритм Маркова в связке с DMI.
    Алгоритм DMI работает по следующему принципу:
    Сперва парсится текстовка. Затем алгоритм создает словарь, который выглядит следующим образом:
    1) Паттерны. Общий вид: {Существительное} {Прилагательне} {Дополнение} {Обстоятельство} и т.д.
    2) Таблица в столбик всех существительных, таблица Всех прилагательных, Дополнений и т.д.
    Затем алгоритм берет любой паттерн из таблицы паттернов, и вставляет туда рандомные элементы. Этот рандом приводит к тому, что тексты получаются не естественными, и если разбивать сгенеренный текст на составляющие, то вы в природе таких словосочетаний не найдете).
     
  20. ntro123

    ntro123 Новичок

    3 окт 2017
    6
    0
    Мужской
    Цепи маркова в связке с синтаксическим разбором (DMI) получаться самые обычные цепи Маркова.
    Да словосочетаний нет, за счет этого и достигается уникальность текста с одной стороны, с другой стороны правильные синтаксические конструкции.
    "Алгоритм DMI работает по следующему принципу:"
    как он работает я думаю все уже поняли, точно также должен работать SyntaxTextGen, а что там на деле это я и пытаюсь выяснить.