Предприемач

Интернет, какво ми казваш?

Българската компания Identrics обучава машини, за да извлича полезна информация за бизнесите в интернет

Йоан Запрянов

Моят Капитал

Най-важното от света на личните финанси, пазарите и управлението на спестяванията.

Интернет, подобно на Вселената, постоянно се разширява, при това все по-бързо. От социални мрежи до традиционни медии, днес всичко е насочено към вече клиширания израз "създаване на съдържание". Освен създаването му обаче все по-ключови стават разглеждането, структурирането и извличането на най-важното от него. И с големият интерес логично идват и възможностите той да бъде претворен в наука (data science) и в бизнес. Тук на сцената излизат компании като българската Identrics. Тя използва изкуствен интелект, за да извлича знания от неструктуриран текст и казано най-накратко, да каже на бизнесите какво точно казва за тях интернет – или поне потребителите му.

"Ние събираме информация от публични форуми, така че да разберем какво се говори за нашите клиенти в естествена среда", казва Владимир Петков, изпълнителен директор на Identrics. "Интересът ни е към органичните разговори, а не към платени постове или кампании, които очевидно не биха били представителни. За да разберат нашите клиенти какво се говори за тях, трябва да бъдат прочетени милиони на брой документи. Ние автоматизираме този процес."

За 2018 г. дружеството "Айдентрикс" има приходи от 267 хил. лв. и 43 хил. лв. печалба. Потенциалът за растеж в сектора обаче е, меко казано, огромен именно заради постоянно увеличаващото се количество информация, както и желанието на все повече бизнеси да разберат какво наистина се говори за тях в мрежата.

Слуша интернет

Владимир Петков вероятно е по-известен като един от двамата водещи на подкаста "Говори интернет", но като изпълнителен директор на Identrics той е по-заинтересован не да говори, а да слуша какво се случва в интернет. Управляваната от него компания най-често работи за три типа клиенти: доставчици на бизнес информация, фирми за медийно разузнаване и такива за бизнес разузнаване, които използват услугите на компании за анализ на големи данни, за да разберат, когато има съмнения за измами като пране на пари или други бизнес рискове. Съответно Identrics често работи за клиенти на клиенти.

"Задачите пред нас често са сравнително тривиални: например да намериш нещо конкретно в три милиона документа, което всъщност е малък набор от информация. От тези милиони документи или публикации ние чрез изкуствен интелект откриваме колко процента са по една тема, колко по друга, в колко процента се споменава дадено име или продукт", казва Петков.

В момента в компанията работят малко над десет души, но дори и този брой не е лесен за намиране в този сектор в България. "Над половината хора, които работят за нас, са завършили в чужбина и са се върнали в страната. Стажантите, които сме имали досега, пък са изцяло завършили извън България", казва Васил Шивачев, оперативен директор в компанията. "Потенциалът обаче е голям, защото специалистите в страната са на много високо ниво, а този тип бизнес дава възможност да се печелят клиенти отвсякъде по света."

Основно от чужбина идват и клиентите на компанията. Това е лесно обяснимо: българската част на интернет просто не произвежда толкова много информация на ден, за да се налага използването на подобен тип услуги от страна на българските компании и брандове. "Обикновено компании, които имат проблем с автоматизацията на събиране на данни, са големи като размер и имат цели екипи, които се занимават с този тип предизвикателства", казва Петков. Заради естеството на работа, макар да става дума за извличане на информация от публични форуми и сайтове, клиентите на компанията предпочитат да са анонимни.

Кога си заслужава да учиш машината

Компаниите като Identrics, казано най-общо, обучават машини, така че те да могат да "виждат" и да вземат решения, базирани на неструктуриран текст, което в интернет се равнява на естествен разговор. Алгоритмите на Identrics например работят с най-простата скала – позитивно, негативно и неутрално. "Ако се наложи, има и скала със 7 степени", казва Петков. "Въпросът е къде има смисъл въобще да се използва машина. Наскоро при нас например дойде клиент с 18 хил. документа, на когото казахме, че е по-добре да не се обучава машина с толкова малък набор от информация."

Едно от най-големите предизвикателства, не само пред Identrics, но и пред целият глобален научен и бизнес сектор, свързан с науката за данни, е как една машина да бъде обучена така, че да може да пресъздаде един текст не като папагал, а с реален интелект. "Въпросът е как да дадем на една машина книга, която тя след това да резюмира. Това е и проблемът с най-голям потенциал за бизнес растеж", казва Петков. Подобно решение например може да се използва от медии, които правят свои бюлетини и се опитват да не нарушават авторски права, докато го правят.

"Тази задача е трудна, защото означава да бъде създаден изкуствен интелект, който мисли като човек, чрез аналогии. Има много опити в тази сфера, но проблемът остава нерешен. Ние инвестираме в тази посока", добавя Петков. Друга насока, в която инвестира Identrics, е разпознаването на определени именувани обекти и хора в неструктуриран текст. "Ако става дума за конкретен човек, алгоритъмът да може да го открие в текст и да свърже името му с Wikipedia например."

Целта обаче е постижима. Вече съществуват научни трудове, които доказват, че подобно ниво на изкуствен интелект е възможно в обозримото бъдеще. Проблемът обаче не е само в това да се достигне до достатъчно голям брой данни, както и да се напише достатъчно добър код, а и в това решението да бъде достатъчно бързо и икономически ефективно. Такъв няма да бъде случаят например, ако за подобно решение се изисква силата на суперкомпютър, защото то ще достига до силно ограничен брой бизнеси и хора.

Данните в бъдеще

Identrics има познати проблеми в българската IT индустрия и най-общо казано, пазар на труда - липсата на хора. "В България със сигурност няма достатъчно добър източник на таланти, когато става дума за науката на данни. Хората, които работят това в България, най-често го правят в научни центрове като БАН, казва Шивачев. Затова се налага да залагаме много на развитието на хората в самата компания. Много често се налага да вземем човек, който допълнително да бъде обучен, но това има и плюс, защото привлича хората и ги задържа при нас."

Въпросът как трябва да изглежда и къде трябва да бъде Identrics дори след три години е труден за Петков и Шивачев. "След три години Identrics трябва да бъде поне десет пъти по-голяма като оборот, или поне за това работя аз като изпълнителен директор, казва Петков. Ако ние решим големите проблеми пред нас и индустрията, ще успеем да го направим."

Петков обаче не харесва подобни погледи в бъдещето, защото досега опитът му винаги е показвал, че особено по отношение на технологиите, те много рядко се оказват верни. Или, казано накратко и на езика на науката за данни, в момента няма достатъчно информация, за да бъде направена точна прогноза.

Изцяло ваша ли е технологията?

ВП: Ние често стъпваме върху раменете на гиганти. Това са научни центрове, които са направили пробив и са го разпространили като свободен софтуер, или големи корпорации, които извършват изследвания в тази област. Много често техните платформи за невронни мрежи се разпространяват под свободен лиценз. В такъв смисъл ние сме и компания, която решава и проблема да интегрира решения от различни доставчици – университети и компании например – така че да обучим машините да вземат решения.

Колко е голямо търсенето на вашите решения?

ВШ: Хоризонтът пред Identrics е малко или много необятен. Голяма част от компаниите имат нужда от подобни услуги. Друга голяма част от бизнеса скоро ще осъзнае, че също има нужда от такива услуги, защото информацията в интернет става все по-ценна и нараства във всеки един момент.