Quantumrun

КРЭДЫТ ВЫЯВЫ:

Istock

Аналіз вэб-кантэнту: асэнсаванне інтэрнэт-кантэнту

Аналіз вэб-кантэнту можа дапамагчы сканаваць і кантраляваць аб'ёмы інфармацыі ў Інтэрнэце, у тым ліку выяўляць мову варожасці.

аўтар:
імя аўтара
Quantumrun Foresight
Лістапада 7, 2023

Кароткі агляд

Машыннае навучанне і штучны інтэлект змяняюць спосабы аналізу велізарных аб'ёмаў інтэрнэт-кантэнту. Інтэрнэт-кантэнт-аналіз, больш шырокая форма традыцыйнага кантэнт-аналізу, выкарыстоўвае такія метады, як апрацоўка натуральнай мовы (NLP) і аналіз сацыяльных сетак (SNA) для класіфікацыі і разумення інтэрнэт-дадзеных. Гэта не толькі дапамагае пазначаць шкоднае змесціва, напрыклад, распальванне нянавісці, але і дае каштоўную інфармацыю аб фінансавых злачынствах, што значна скарачае час аналізу. Тым не менш, гэтая тэхналогія таксама выклікае занепакоенасць з нагоды распаўсюджвання глыбокага падробленага кантэнту і прапаганды. Развіваючыся, гэта мае больш шырокія наступствы, у тым ліку паляпшэнне моўнага перакладу, выяўленне прадузятасці і пашыраныя меры кібербяспекі.

Кантэкст вэб-кантэнт-аналізу

Інтэрнэт-кантэнт-аналіз - гэта больш маштабная версія кантэнт-аналізу. Гэты працэс уключае ў сябе вывучэнне моўных элементаў, асабліва структурных характарыстык (напрыклад, даўжыня паведамлення, размеркаванне пэўных кампанентаў тэксту або выявы) і семантычных тэм або сэнсу ў камунікацыі. Мэта складаецца ў тым, каб выявіць заканамернасці і тэндэнцыі, якія могуць дапамагчы штучнаму інтэлекту лепш класіфікаваць інфармацыю і прызначыць ёй каштоўнасць. Аналіз вэб-кантэнту выкарыстоўвае AI/ML для аўтаматызацыі працэсу з дапамогай апрацоўкі натуральнай мовы (NLP) і аналізу сацыяльных сетак (SNA).

NLP выкарыстоўваецца для разумення тэксту на сайтах, у той час як SNA выкарыстоўваецца для вызначэння адносін паміж гэтымі сайтамі ў асноўным праз гіперспасылкі. Гэтыя метады могуць дапамагчы ідэнтыфікаваць мову нянавісці ў сацыяльных сетках і вывучыць акадэмічную якасць і фарміраванне супольнасці праз паведамленні ў Інтэрнэце, каментарыі і ўзаемадзеянне. У прыватнасці, НЛП можа разбіць тэкст на асобныя словы, а затым прааналізаваць іх адпаведна. Акрамя таго, гэты алгарытм можа ідэнтыфікаваць пэўныя ключавыя словы або фразы ў змесціве вэб-сайта. ШІ таксама можа вызначыць, наколькі часта выкарыстоўваюцца пэўныя словы і ў пазітыўным ці адмоўным кантэксце яны выкарыстоўваюцца.

Разбуральнае ўздзеянне

Некаторыя навукоўцы сцвярджаюць, што паколькі вэб-кантэнт экспанентна павялічваецца і становіцца ўсё больш неарганізаваным і некантралюемым, павінен існаваць стандартызаваны метад таго, як алгарытмы могуць індэксаваць і асэнсоўваць усю гэтую інфармацыю. Нягледзячы на тое, што аўтаматызаваны аналіз кантэнту з дапамогай кадавання існуе дзесяцігоддзямі, ён у асноўным прытрымліваецца састарэлага пратакола: проста падлічваюць частату выкарыстання слоў і апрацоўваюць тэкставыя файлы. Глыбокае навучанне і НЛП могуць зрабіць нашмат больш, навучаючы штучны інтэлект разумець кантэкст і матывы паведамленняў. Фактычна, НЛП настолькі добра разабраўся ў аналізе слоў і катэгарызацыі, што спарадзіў віртуальных памочнікаў па напісанні, якія могуць імітаваць тое, як людзі арганізуюць словы і сказы. На жаль, той самы прарыў цяпер выкарыстоўваецца для напісання глыбокага фэйку, напрыклад артыкулаў і паведамленняў, прызначаных для прасоўвання прапаганды і дэзінфармацыі.

Тым не менш, вэб-кантэнт-аналіз становіцца ўсё больш добрым у выяўленні нянавісці і гвалтоўных выказванняў, а таксама ў выяўленні ліхадзейцаў у сацыяльных сетках. Усе платформы сацыяльных сетак абапіраюцца на нейкую сістэму праверкі змесціва, якая можа дакладна вызначыць тых, хто прапагандуе незаконную дзейнасць або кібер-здзекі. Акрамя мадэрацыі кантэнту, вэб-аналіз можа ствараць навучальныя даныя, якія дапамагаюць алгарытмам ідэнтыфікаваць фінансавыя злачынствы, такія як адмыванне грошай, ухіленне ад выплаты падаткаў і фінансаванне тэрарызму. Па дадзеных кансультацыйнай кампаніі FTI, у 2021 годзе штучны інтэлект скараціў час, неабходны для аналізу фінансавых злачынстваў, з 20 тыдняў (эквівалентна працы аднаго чалавека-аналітыка) да 2 тыдняў.

Наступствы аналізу вэб-кантэнту

Больш шырокія наступствы вэб-аналізу кантэнту могуць уключаць:

Прагрэс у тэхналогіях моўнага перакладу з-за шырокай базы дадзеных ІІ слоў і іх культурнага значэння.
Інструменты, якія могуць выяўляць і ацэньваць разнастайнасць і прадузятасці ў маўленні і іншых тыпах кантэнту. Гэтая функцыя можа быць карыснай для ацэнкі сапраўднасці публікацый і артыкулаў.
Палепшаны аналіз настрояў, які выходзіць за межы прысваення тэксту адмоўных або станоўчых ключавых слоў і ўваходзіць ва ўсе паводзіны карыстальнікаў у Інтэрнэце.
Палепшанае выяўленне патэнцыйных кібератак, паколькі тэхналогія можа ідэнтыфікаваць словы і коды, якія выкарыстоўваюцца хакерамі.
Лепшае індэксаванне і арганізацыя вялікага кантэнту на працягу доўгага перыяду часу, што можа быць карысным для дзяржаўных і даследчых архіваў.