Имам част от тренировъчен комплект

това е връзка между url и категория. Освен това имам тестов набор и трябва да получа категория до всеки url.

Не знам какъв алгоритъм да използвам, за да реша тази задача. Имам нужда от най-добрия начин да получа най-голяма точност. И мисля, че е проблем, че имам няколко категории.

Опитвам първо да анализирам заглавието на html тагове, защото мисля, че мога да определя категорията само с url .

текста

1 отговор 1

По принцип ще класифицирате низовете в категории. Следователно ще използвате класификатор. Но вие не просто ще използвате един класификатор, а по-скоро ще тествате няколко и ще изберете най-точния.

И все пак първо, ще трябва да помислите за характеристиките на всеки URL адрес. Очаквам, че няма да постигнете голяма точност, ако просто подавате URL адреса като низ и като единствена функция.

По-скоро ще обработвате предварително всеки URL адрес за извличане на функции. Изборът на подходящи/полезни функции силно зависи от домейна. Една функция може да бъде:

първата дума до точката като: facebook за "facebook.com"

дължината на целия низ

представете си, че дефинирате ключови думи за всеки клъстер, като например за "онлайн пазаруване" -кластер, който ще определите [промоция, покупка, пазаруване, продажба, цена], след което можете да изчислите броя на ключовите думи, които се срещат в низа за всеки клъстер като особеност

Следователно първо ще трябва да продължите с конструиране на функции и второ с сравнително представяне на класификатора.

EDIT: Пример

още решения от тук на Eiyrioü von Kauyf

И все пак всички тези примери са много прости функции, които не покриват семантичното съдържание на URL адреса. В зависимост от дълбочината/сложността на вашите целеви променливи (клъстери), може да се наложи да използвате функции, базирани на n-gram функции, като тук