Gunosy Inc., Япония

анонимизиране

Gunosy Inc., Япония

RIKEN Center for Advanced Intelligence Project, Япония

RIKEN Center for Advanced Intelligence Project, Япония

Добавено е ново предупреждение за цитиране!

Този сигнал е добавен успешно и ще бъде изпратен на:

Ще бъдете уведомени всеки път, когато е цитиран запис, който сте избрали.

За да управлявате вашите предпочитания за предупреждения, щракнете върху бутона по-долу.

Сигнал за ново цитиране!

Запазване в Binder
RecSys '20: Четиринадесета конференция на ACM за препоръчващи системи

РЕЗЮМЕ

Тази статия показва метод за изграждане и публикуване на набори от данни в търговски услуги. Наборите от данни допринасят за развитието на научните изследвания в областта на машинното обучение и препоръчителните системи. По-специално, тъй като препоръчителните системи играят централна роля в много търговски услуги, публикуването на набори от данни от услугите е в голямо търсене от общността на препоръчващите системи. Публикуването на набори от данни от търговски служби обаче може да има някои бизнес рискове за тези компании. За да публикувате набор от данни, това трябва да бъде одобрено от бизнес мениджър на услугата. Тъй като много бизнес мениджъри не са специалисти в системите за машинно обучение или препоръчителни системи, изследователите са отговорни да им обяснят рисковете и ползите.

Първо обобщаваме три предизвикателства при изграждането на набори от данни от търговски услуги: (1) анонимизираме бизнес метриките, (2) поддържаме справедливост и (3) намаляваме пристрастията към популярността. След това формулираме проблема за изграждането и публикуването на набори от данни като проблем за оптимизация, който търси теглото на извадката на потребителите, където предизвикателствата са кодирани като подходящи функции за загуба. Приложихме метода си за изграждане на набори от сурови данни на нашата реална услуга за мобилни доставки на новини. Суровите данни имат повече от 1 000 000 потребители със 100 000 000 взаимодействия. Всеки набор от данни е изграден за по-малко от 10 минути. Обсъдихме свойствата на нашия метод, като проверихме статистиката на наборите от данни и ефективността на типичните препоръчителни системни алгоритми.