Генератор контента от самого... Google

Тема в разделе "Генерация Контента", создана пользователем Firestarter, 8 май 2017.

  1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Приветствую. В всязи с ситуацией на рынке валют, демпнгую))

    Всего 7 дней скидка 30% "для своих":

    Из Новостей на 13 августа 2018, у меня:

    Бесплатный дорген AttoGen

    MassSiteProxy 1х. Скриипт массового копирования сайтов > MassSiteProxy 1.06. Куча новых Фишек

    CPA GEN 1х. Скрипт генерации белых дорвеев подарю 2 красивых шаблона новым клиентам

    Thunder 3.x Генератор дорвеев > Новые отзывы

    Скрипт безлимитного переводчика

    Скрипт купонного сайта на Wordpress

    Промо коды пачка на Всех))) Действительны всего 7 дней.

    E6696751CFD64F82
    23B34C0DFD234071
    494676AF930746E2
    61333A5E926F4AF2
    A2C5D28D9E1647E2
    3177B1018BF244ED
    A0027E48A18045D5
    33247242204D4BC0
    CF432FC5AE894BBA
    DE80241C027B44DB
    F4346CBB0AE94C14
    A10DAB0667844775

    Большая просьба, написать, кто какой ипользовал

    Партнерская программа для блогеров-дорвейщиков - до 30% с продажи.

  1. Firestarter

    Firestarter Администратор
    Команда форума

    26 окт 2015
    1.188
    550
    #1 Firestarter, 8 май 2017
    Последнее редактирование: 8 май 2017
    Приветствую. Давно хотел рассказать, и видимо, пришел час, поехали.

    Будем генерировать контента для доров на основе машинного обучения с помощью мощнейшего инструмента Google Tensorflow.

    Что такое машинное обучение
    Что такое Google Tensorflow

    Пруф что это работает
    Второй пруф

    Примеры доров на таком контенте:
    http://www.kvn2000.ru/
    http://www.nepi.su/
    Это мои доры, по своей невнимательности, закупился доменам уже после доров, так что им ничего не светит.

    Размер текстов под обучение 80 МБ, размер модели после обучения, 5,6Гб. Время обучения 10 дней на древнем ПК i5 Первого поколения+6Гб оперативки

    От себя: не стоит сильно переживать, если не поняли каких то технических деталей, мы будет, просто брать и использовать.

    Плюсы такой варианта создания контента:
    - Не нужно думать о том будет это работать или нет, берем контент, который уже "работает" в ПС и (пробуем) обучаем сеть писать такой же.
    - Качество полученного контента зависит только от качества исходных текстов, так же время обучения.
    - Нет предела совершенству: взяли 100 МБ ру текста, обучили, получили Говнотекст, но вероятно он будет работать. Но если взяли 4 ГБ тематического текста - обучили неделю вторую, то качество будет намного выше.

    Минусы:
    - Мы не решаем полной СЕО составляющей, такой как "войдет не войдет" в силу еще кучи аспектов от ПС
    - Это дорого или долго, см системные требования

    Требования для СЕОшника
    - владение основами(установить Python из консоли) администрирования Linux системами, хотя и на Windows 10 это работает
    - владение основами работы с командной строкой

    Системные требования для генератора
    - Чем выше ваша Видеокарта в списке тем лучше
    - Если нету ее в списке, смотрим чтобы количество попугев было выще чем на моем. ПС у всех новых ПК их будет намного больше))))
    На видеокартах скорость обучения иногда в 10 раз быстрее чем на процессорах.
    - Ubuntu 16 в идеале, можно Windows 10
    - Python 3.5 и выше

    Установка:
    Установка на Windows
    На Ubuntu 16 уже стоит Python 3.5.1

    Установите Pip
    Установка на Windows
    Установка на Ubuntu:
    sudo apt-get update
    sudo apt-get -y install python3-pip

    Установите Google Tensorflow под вашу ОС:
    https://www.tensorflow.org/install/


    Генератор контента
    Отступление:
    Сам скрипт - это более продвинутая версия такой шутки как Char RNN
    Супер статья на эту тему на английском и пару слов на русском
    Char RNN - Учится воспроизводить последовательность символов. Но к сожалению, кирилица ей дается плохо(кучи ошибок допускает).
    Более продвинутая версия(Word RNN) умеет воспроизводить цепочки слов, грубо говоря тексты. Это как раз то что нам нужно.

    Установка самого генератора текста:

    Идем сюда:
    - https://github.com/hunkim/word-rnn-tensorflow

    - Кто умеет работать с Git клонируем репозиторий, кто нет, просто качайте архив, и распакуйте в удобном для вас месте.
    Мануал лежит там же, но давайте обучим ее писать тексты на русском.

    - Парсим текст под вашу тематику, любым знакомым вам способом. Объем чем больше тем лучше, для теста, пойдет 20-30 Мб. У кого мощная Nvidia видеокарта, можно начинать с 100 Мб.

    Внимание: для более менее читаемого текста, размер файла под обучение, должен значительно превышать 1ГБ. На обучение, уйдут недели на дорогих 1080. Я же говорил что это дорого)))

    - Чистим текст от запятых и других спец символов, кроме знаков конца предложения.

    Обучение первой модели

    - В папке data создаем свою папку, например "ru_download_text"
    - В папке "ru_download_text" создаем файл input.txt и туда кладем наш текст

    В консоли пишем так:
    python3 train.py --data_dir="./data/ru_download_text"

    Ждем, минуты, часы и возможно недели, если оборудование позволяет.

    Все параметры для скрипта train.py:
    --data_dir
    - "путь к файлу с данными для обучения"
    --input_encoding - "кодировка файла с текстом для обучения"
    --log_dir - "путь куда записывать логи обучения"
    --save_dir - "путь куда сохранять модель для обучения"
    --rnn_size
    --num_layers
    --model
    --batch_size
    --seq_length
    --num_epochs
    --save_every -
    "Через сколько итераций сохранять модель"
    --grad_clip
    --learning_rate
    --decay_rate
    --gpu_mem -
    "какой процент оперативки видеокарты использовать для обучения"
    --init_from - "путь к файлу с которого продолжить обучение"

    В консоли будет нечто похожее на :
    [​IMG]

    Так вот самое главное, чем меньше train_loss или weight_loss тем лучше, читай так "тем ближе по качеству наш текст к тем, на которых мы обучались."

    Генерируем первую статью

    python3 sample.py --n=200 --prime="тут ключевик"
    где
    --n=200 - сколько слов генерировать
    --prime="Ключ" - по какому ключу генрировать

    Все параметры для скрипта sample.py:
    --save_dir -
    "путь к модели для генерации текста"
    --n - "сколько слов генерировать"
    --prime - "ключевое слово с которого начать генерацию"
    --pick
    --width
    --sample
     
    mnogomest, Amg, KMiNT21 и 6 другим нравится это.
  2. BRAVO

    BRAVO Новичок

    31 дек 2016
    1
    0
    Из рекомендуемых видеокарт как обычно идёт NVIDIA GPU - а Intel видеокарты не пойдут, а то у меня ноут ОС виндовс 10, мамка и видюха Интел???
     
  3. Firestarter

    Firestarter Администратор
    Команда форума

    26 окт 2015
    1.188
    550
    Можно попробовать поставить версию под видеокарты. У меня на убунте тоже intel графика и тензорфлов пишет, что предпочтительнее использовать версию под видуху, но я ещё не ставил
     
    BRAVO нравится это.
  4. heyner

    heyner Участник

    25 янв 2016
    217
    43
    А на виртуальном диске такое крутится будет ?
     
  5. Firestarter

    Firestarter Администратор
    Команда форума

    26 окт 2015
    1.188
    550
    Да, должно работать.
     
    heyner нравится это.
  6. shepikakaalexr

    shepikakaalexr Новичок

    1 янв 2017
    1
    2
    Админ, огромный респект
     
    heyner и Firestarter нравится это.
  7. user2289

    user2289 Участник

    26 ноя 2015
    74
    21
    Мужской
    Сейчас бы в 2017 на статью из 2015 опираться.
    Нужен пруф того, что не банят сразу за такой генеренный говнотекст (иначе его не назовешь), чтобы столько усилий потратить на его создание.
     
  8. ddn128

    ddn128 Опытный Пользователь

    31 дек 2015
    509
    233
    Мужской
    ага-ага. Не делай ничего - жди пруфы :)
     
  9. user2289

    user2289 Участник

    26 ноя 2015
    74
    21
    Мужской
    Для того, чтобы работало машинное обучение на этом фреймворке нужна видеокарта от нвидиа. Лично у меня амд. Соответственно, чтобы начать этим заниматься надо как минимум сменить видюху. Делать это на основе чужих домыслов о трафе недальновидно.
     
  10. ddn128

    ddn128 Опытный Пользователь

    31 дек 2015
    509
    233
    Мужской
    поэтому
     
  11. KMiNT21

    KMiNT21 Новичок

    14 май 2017
    7
    1
    Мужской
    Блин, интересная тема.

    И то что на питоне (как раз хотелось бы его чаще применять).

    И то что это под GPU. Я как раз месяца три назад одну фиговинку делал для FIFA17 (перебор комбинаций).... так пришлось питоновкий код переписать на си, причем под GPU (используя CUDA-библиотеку).

    И то что нейросети. :) Вот с ними я еще не пробовал баловаться.
     
  12. KMiNT21

    KMiNT21 Новичок

    14 май 2017
    7
    1
    Мужской
    Кстати, английская грамматика ж намного проще. Есть вот такие вот платные сервисы уже, которые ИИ задействуют для генерации контента:

    http://chimprewriter.com/
    https://www.spinrewriter.com/
    https://wordai.com/

    Интересно насколько хорошо прокачены их нейросети . :)
     
  13. zlodeyua

    zlodeyua Новичок

    21 янв 2016
    18
    2
    Мужской
    Напишите кто нибудь ман если несложно, я не осилил установку всего этого добра под 10 кой, Google Tensorflow вообще непонятно как ставить
     
  14. Firestarter

    Firestarter Администратор
    Команда форума

    26 окт 2015
    1.188
    550
    На какую ОС хотите ставить?
     
  15. zlodeyua

    zlodeyua Новичок

    21 янв 2016
    18
    2
    Мужской
  16. zlodeyua

    zlodeyua Новичок

    21 янв 2016
    18
    2
    Мужской
    Питон и пип встали, проблема с тенсофлоу, он еневстаёт невкакую
     
  17. KMiNT21

    KMiNT21 Новичок

    14 май 2017
    7
    1
    Мужской
    Я не представляю какие нужны ресурсы, чтобы "взять" такой объем. Я пробовал входной файлик на 150Мб. Его еще получилось запустить (rnn_size=700 --num_layers=3). Но не видно вообще каких-то перспектив, чтобы оно в обозримом будущем хоть куда-то продвинулось в обучении до нормальных значений. :) Размер модели, кстати, на этих входных данных - 32 гига. :)
     
    Firestarter нравится это.
  18. Firestarter

    Firestarter Администратор
    Команда форума

    26 окт 2015
    1.188
    550
    А чего пишет, куда ставите?
     
  19. KMiNT21

    KMiNT21 Новичок

    14 май 2017
    7
    1
    Мужской
    Вот и думай теперь то ли входные данные должны быть хорошие, то ли еще что-то..... Похоже, пошло "переобучение" сети, работающей недели 3. Train/Loss коэффициент, вместо того чтобы продолжать уменьшаться (он был уже ниже 2), какое-то количество дней назад начал стабильно увеличиваться.

    train_loss = 3.070,
    train_loss = 3.311,
    train_loss = 3.227,
    train_loss = 2.925,
    train_loss = 2.680,
    train_loss = 2.930,
    train_loss = 3.000,
    train_loss = 3.063,
    train_loss = 3.184,
    train_loss = 2.714,
    train_loss = 2.830,
    train_loss = 2.791,
    train_loss = 3.271,
    train_loss = 2.505,
    train_loss = 2.628,
    train_loss = 2.965,
    train_loss = 2.785,
    train_loss = 2.558,
    train_loss = 2.920,
    train_loss = 2.662,
    train_loss = 2.967,

    А размер модели стал 102 гига при тех же входных данных на 20М.
    --rnn_size=420 --num_layers=2

    Задумался.
     
  20. rekill

    rekill Участник

    25 апр 2016
    112
    48
    Мужской
    Потому что машинное обучение это отдельный пласт науки, и лишь косвенно касающийся искуственного интеллекта. Я когда то читал статьи чуваков, которые решали ту или иную проблему. Так там бывало, что они только 2-3 месяца подбирали способ, как учить сеть и потом столько же ее учили.
    А тут сразу 3 слоя и вперед...
     

Поделиться этой страницей