Конкурс от Билайна, МИФИЧЕСКИЙ приз 500 тыс. руб. !

  1. 9 г. назад

    Ну что есть кто желающие ?

    jsmith82 давай блесни своими мега способностями по программированию BIGDATA ))))

    http://special.habrahabr.ru/beeline/

  2. В этом
    задании вам предстоит попытаться определить возраст
    абонента по имеющимся данным.

    у них же есть данные на каждого абонента, нафига эти пляски?

    Ответы: (2)
  3. andrewks у них же есть данные на каждого абонента, нафига эти пляски?

    Ну что как маленький ищут они крутых программеров, а тут тестовое задание выполнишь лучше всех получишь 500 килорублей, что бы не ныли как NcSteel типа вот билайн мне тестовое задание прислал на обработку биллинга на 500 млрд строк )))) я потратил на них 100 часов )))

    Ответы: (3)
  4. Будущий_Олигарх ищут они крутых программеров

    ну, тут задание не столько на программирование, сколько на построение статистической модели

    Ответы: (4)
  5. (3) биг дата это и есть на 50% статистика

  6. ну кстати они не плохо придумали. за 500т рублей собрать "пул" потенциальных сотрудников)) и пятерку первых можно сразу браьт на работу

    Ответы: (6)
  7. (5) Да еще бы получить гарантию что 500 тонн упадет кому надо, а то казачок засланный будет, а вот со 2 по 30 место будет нормальный список мощных товарищей и бесплатно !)))

    Ответы: (7) (8) (64) (94)
  8. (6) ты опытный

    Ответы: (8)
  9. andrewks (6) ты опытный

    А то ))) [smile=^_^]

  10. Давайте по существу по обсуждаем имеющиеся данные и что можно сделать ?

    Ответы: (13)
  11. будем время - прогоню через дефолтную стат модель от сапа
    будет интересно посмотреть на результат

  12. У нас же тут БешНог спец по BIGDATA

    Ответы: (14)
  13. Я статистику в последний раз в институте изучал. На практике почти не применял.

  14. (9) все hex захэшировать, все float методом наименьших квадратов подгонять

    Ответы: (15)
  15. (11) я еще не дошел до машинного обучения. даже хз с какого края подступиться...

    Ответы: (15)
  16. (14) ну самое простое - присвоить всем нечисленным параметрам статистические веса и по весу смотреть. Надо почитать на самом деле на эту тему...
    (13) они вроде уже захэшированы

  17. короче поковырял как смог, понял что нихера не понял

  18. вообщем нужно каким-то образом получить закономерности для каждой группы. типа у группы 2 показатель Х37 в 95% случаев больше 3. найти побольше таких "предположений" и "машинным обучением" выявить какие "закономерности" самые точные.
    а потом полученные закономерности "надеть" тестовые данные...

    Ответы: (20)
  19. А говоришь ничего не понял )))

    Ответы: (19)
  20. (18) так а как делать то?))))

  21. (17) я думаю, что более правильным подходом было бы заставить машину саму найти эти самые "предположения"

    Ответы: (21)
  22. (20) каким образом?

    Ответы: (22)
  23. (21) думаю. Я же говорю, попробую саповский стандарт на эти данные натравить - посмотрю че получится. Как время будет

    Ответы: (23)
  24. (22) давай, не тяни)))

  25. Кстати они процент попадания сразу присылают ? Хотя там конечно они берут всего 30% то есть овер дохера попыток если сделать ? То есть грубо говоря вообще забить на эти таблички а слать им результирующую табличку меняя порционно там значения, сколько нужно итераций долбануть интересно ?

  26. а я про попытки ваще не понял. как это работает? я понял присылаешь им результирующую таблицу, он проверяют данные и выдают процент. причем здесь попытки?

  27. у нас 50 тыс. абонентов и 7 возрастных категорий от 0 до 6, сколько вариаций табличек можно сделать ? Но такая схема сработала бы если бы они брали таблицу и давали 100% значение попадания по всей таблице.

  28. Что-то типа кластерного анализа нужно сделать по файлу?

    Ответы: (31)
  29. каждый абонент - это точка в 60ти мерном пространстве

  30. Нужно эту таблицу подсунуть обучалке для нейросети, и просто ждать пока она обучается до конца конкурса, и в последний момент посчитать и залить результат.

    Ответы: (37)
  31. спейшиализды блеять

  32. (27) че то сап считает, что кластерный анализ по недискретным значениям строить небогоугодно. Буду пробовать Decision tree обучать

  33. а я буду ждать ноября, когда очередь курса по машинному обучению подойдет...

    Ответы: (33)
  34. (32) самообучение обычно куда эффективнее обучения на курсах. Если бы я хотел научиться машинному обучению, для меня этот конкурс от билайна был бы идеальным модельным заданием

    Ответы: (34)
  35. (33) структурированная подача материала все же несет больше пользы чем гуглинг отдельных статей и примеров. кстати на курсесе появился отдельный курс по машинному обучению от какого-то вашингтонского универа

    Ответы: (35)
  36. (34) каждому свое. Я куда лучше обучаюсь решая задачу чем слушая скучные курсы. Но это наверное индивидуально

    Ответы: (36)
  37. (35) ну курсы кстати не скучные. хотя да, иногда бывают такие моменты

  38. (29) непонятно, как ты будешь определять качество каждого нового поколения и направление мутации

    Ответы: (38) (40)
  39. (37) Чем больше процент угадывания, тем выше качество, очевидно же.

    Ответы: (39) (40) (42)
  40. (38) а, т.е. по 99% учишься, по 1% - проверяешь

    Ответы: (41)
  41. admin govnoforuma (37) Чем больше процент угадывания, тем выше качество, очевидно же.

    Так тебе нужно каждый цикл заливать и получать ответ и сУвать его программе, что бы она учитывала результаты.

  42. (39) зачем разделять? По 100% учишься и проверяешь.

  43. (38) Ты не сможешь проверить результат не закачав на их сервер ответ. А с такой скоростью нейросеть не построишь

    Ответы: (44) (45)
  44. Ту проблема в том, что существует стопицот разных алгоритмов кластерного анализа

  45. (42) смогу

    Ответы: (45)
  46. admin govnoforuma (42) смогу

    Как ?

    Ответы: (47)
  47. ну так есть же трейн дата. половину для обучения, половину для тестов

    Ответы: (47)
  48. (45) Ты условия задачи внимательно читал?
    (46) Зачем половину? Можно целиком.

    Ответы: (48)
  49. (47) Вроде бы да, но я буду премного благодарен если Вы расскажите как можно определить на 100% попадание ?

    Ответы: (53)
  50. Построить модель на основе данных из выборки train.csv, разметить выборку test.csv и предоставить файл, содержащий строки, такие как: ID из файла test.csv, предсказанная возрастная группа. Файл sol.csv содержит формат, в котором нужно загружать решение.

    блин, каждый божий день такой херней занимаюсь...

    Ответы: (50) (51)
  51. (49) не [...]?

  52. (49) кем работаешь? где учился?

    Ответы: (52)
  53. (51) Очевидно, работает в билайне, подготавливает предложения для разных возрастных групп.

    Ответы: (54) (57)
  54. (48) На 100% никак не определишь попадание. Наверное около 70% - это предел.

    Ответы: (57)
  55. (52) Какой Билайн?!

    Ответы: (55)
  56. (54) Который в заголовке темы.

    Ответы: (57)
  57. 500 000 рублей / 50 000 строк = 10 рублей за каждую строку.
    если в день минимум по 100 строк отсортировывать, то за 10 дней от 1000 строк можно отсортировать, от 10 000р. заработать.
    Для решения задачи за 10 дней нужно до 500 человек.
    Можно на мисте тему создать, набрать желающих подзаработать.

    Ответы: (57)
  58. (55)(52) не билайн, а просто с бигдата работает
    (56) а причем здесь сортировка?

    admin govnoforuma Наверное около 70% - это предел.

    наверное, попадание определяется примененными алгоритами. чем ближе примененное решение к примененному решению постановщиков задачи - тем выше процент.

    Ответы: (58) (59)
  59. sf а причем здесь сортировка?

    ну там задание такое. Нужно по возрастным группам раскидать строки.

    sf наверное, попадание определяется примененными алгоритами

    Так и есть. А так же случайным отклонением входных параметров от ожидаемых значений.

  60. sf наверное, попадание определяется примененными алгоритами. чем ближе примененное решение к примененному решению постановщиков задачи - тем выше процент.

    я думаю, что у них уже есть информация о возрасте - в конце концов, паспорт то все абоненты предъявляют. Так что проверка будет вестись по реальным данным, а не на предмет алгоритма

    Ответы: (63)
  61. Че, кто-нибудь вгрузил дату?
    Я в регистр сведений залил, сделал скриптом один огромный запрос угадывающий возростную группу и подсчитывающий количество угадываний, получилось всего 38%. Маловато что-то. Правда я использовал только колонки СМС, Интернета, местных и зарубежных звонков, абонентской платы. Короче все более менее понятные и числовые колонки. Нечисловые типа тарифного плана, а так же числовые типа гео координат вообще не использовал. Наверное из-за этого такая неточность. Да и алгоритм самый простой придумал. А, и еще вес колонок не задавал.

    Ответы: (61)
  62. (60) DTшник выложишь ?

    Ответы: (62) (70)
  63. (61) Нет! Пол ляма дарить не собираюсь. Я кажется понял как значительно улучшить процент попаданий.

    Ответы: (64) (70)
  64. ЗлобнийМальчик Так что проверка будет вестись по реальным данным

    это попахивает! хотя билайн может...

    Ответы: (65) (69)
  65. (62) Не будет никаких пол ляма, смотри (6), там даже в правилах написано что мы выберем кого посчитаем нужным.
    билайн.jpg

    Ответы: (66) (94)
  66. (63) Так фамилий же нет.

  67. (64) Ахаха! :)

  68. Добавил весА, точность попаданий на 30% увеличилась. Нормально

    Ответы: (68)
  69. (67) Давай, давай, болеем за тебя ! получишь приз, подаришь хостинг Андрюхе и на штаны джейсмиту даш ))) ;)

    Ответы: (72)
  70. sf это попахивает! хотя билайн может...

    не понял, чем? вы сами мне только недавно рассказывали про обработку от 1С которая замещает персональную информацию в базе перед отправкой базы 1С. Почему билайн так сделать не может?

    Ответы: (71)
  71. admin govnoforuma (61) Нет! Пол ляма дарить не собираюсь.

    Ох ты и жмот!

  72. (69) да билайн еще те жлобы. с учетом того, что у них слив базы был уже не раз, обфусцированные реальные дата для конкурса, вряд ли выложили....
    хотя это же билайн!

  73. 01.10.2015 18:34:58 отредактировано admin govnoforuma

    (68) Ну ок, подскажите тогда. Я не учился такому. Как сложить вероятности правильно? Пример задачи понятными словами:
    источник 1 утверждает что: Смит сегодня будет смотреть фильм, вероятность 99%, потому что он видел как Смит добыл деньги и ходил в магазин и купил диск с фильмом.
    источник 2 утверждает что: Смит сегодня будет смотреть фильм, вероятность 10%, потому что он знает что Смит любит фильмы.
    Итого у нас две вероятности: 99% + 10%. Какова общая вероятность? Просто сложить их нельзя, получится больше 100%. Какая правильная формула дополнения этих вероятностей?

  74. События ни несовместные, ни зависимые, ни независимые
    Тут формализовать надо правильно...

  75. 01.10.2015 18:48:32 отредактировано jsmith82

    А нельзя как сумму совместных событий? Или это херня выйдет? 0,991

    Ответы: (76)
  76. Всё-таки, наверно, сумма совместных событий, ибо для сторонних наблюдателей эти события соместные. Зависимыми их назвать нельзя.
    Тогда P(A+B) = P(A)+P(B)-P(AB)

    Ответы: (79)
  77. (74)0,991 - похоже на правду. Как получилось?

    Ответы: (79)
  78. https://www.kaggle.com/c/titanic/details/getting-started-with-excel
    jsmith82 переведи статью

    Ответы: (78) (81)
  79. (77) Сам не могёшь?

    Ответы: (81)
  80. (76)(75)

  81. То есть экспертные оценки одного и того же события должны складываться по формуле сложения совместных событий. Я такой вывод сделал.

  82. jsmith82 (77) Сам не могёшь?

    А даже в гугл транслейт разобраться не могу ((( хуле, в детский сад не ходил, школу прогулял, даже в каблуху поступить не смог. Всю жизнь с 1С блять.

    Ответы: (82)
  83. (81) Ну, так-то могу, если реально надо.

  84. Я-то в английском как рыба в воде :)

  85. 02.10.2015 10:39:00 отредактировано jsmith82

    Титаник: машинное обучение на примере катастрофы
    Знакомство с Иксель
    Знакомство с Иксель: конкурс по Титанику от Кэггл

  86. Продолжать?

  87. Под переводом я имел ввиду не просто тупо перевод, а сделать все как в статье, только данные подсунуть билайновские и своими мыслями дополнить.

  88. Ааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааа вот я лох

  89. Я же не шарю в биг дейта :(

  90. Ну так там как бы много информации на этом ресурсе, по читай и вдруг чего интересного родишь. [smile=^_^]

  91. Э нах мне это, я тут по 1с не успеваю, и по вебу, а вы ещё хотите ширануть меня в совершенно иную сферу приложения аналитических скиллов.

    Ответы: (91) (92)
  92. 02.10.2015 12:45:32 отредактировано admin govnoforuma

    (90) за пол ляма че бы не выучить что-то новое? Деньги пробухаешь, знания останутся.

    Ответы: (92)
  93. admin govnoforuma (90) за пол ляма че бы не выучить что-то новое?

    Задрал ты с этими пол-ляма, не буит никаких ни пол, даже шишечки не будет. Но для общего развития и в резюме указать принимал участие в таком-то конкурсе попал в ТОП10 - это то же определенная стоимость.

    Ответы: (93)
  94. (92) А вдруг будет. Это же билайн, они щедрые, от них всего можно ожидать. Может скажут что так как участников было очень мало, то передумали и решили дать всем кто участвовал по пол ляма.

  95. Будущий_Олигарх Не будет никаких пол ляма, смотри (6), там даже в правилах написано что мы выберем кого посчитаем нужным.

    Да и конкурса никакого нет. Это на хабре прикол такой сделали.

  96. Итого, остановился ровно на 50% угадываний, и больше не занимался этой задачей. Хотя четко знаю как значительно улучшить процент угадываний, но некогда было делать, занимался более реальными делами. А время уже подходит к концу, так что даже не буду пытаться ничего улучшать. Темку можно закрывать.

    Ответы: (96)
  97. admin govnoforuma Итого, остановился ровно на 50% угадываний, и больше не занимался этой задачей. Хотя четко знаю как значительно улучшить процент угадываний, но некогда было делать, занимался более реальными делами. А время уже подходит к концу, так что даже не буду пытаться ничего улучшать. Темку можно закрывать.

    Лишь бы только по закрывать чего нибудь. Будет победитель будет решение, будем обсуждать. Мне тема интересна.

  98. на приз пох. попадание в топ - дает шанс на работу в билайне, и через пару лет можно будет проситься в гугло-фейсбуки.

    Ответы: (98) (100) (102)
  99. (97) наифф.
    Гоголь сам периодически кидает задачки

    Ответы: (99)
  100. (98) че?

    Ответы: (101)
  101. Новее ›

или зарегистрируйтесь чтобы ответить!