ai marketing italia

la prima agenzia dedicata a far crescere la tua pmi con l'intelligenza artificiale

Baidu impedisce a Google e Bing di prelevare contenuti per l’addestramento dell’intelligenza artificiale

Il provider cinese di ricerche su internet Baidu ha aggiornato il suo servizio Baike, simile a Wikipedia, per impedire a Google e Microsoft Bing di effettuare lo scraping dei suoi contenuti.

Questo cambiamento è stato osservato nell’ultimo aggiornamento del file robots.txt di Baidu Baike, che nega l’accesso ai crawler Googlebot e Bingbot.

Secondo Wayback Machine, la modifica è avvenuta l’8 agosto. In precedenza, i motori di ricerca Google e Bing potevano indicizzare l’archivio centrale di Baidu Baike, che comprende quasi 30 milioni di voci, anche se alcuni sottodomini del sito web erano limitati.

Questa azione di Baidu si inserisce nel contesto di una crescente domanda di grandi set di dati utilizzati per l’addestramento di modelli e applicazioni di intelligenza artificiale. Segue mosse simili da parte di altre aziende per proteggere i loro contenuti online. A luglio, Reddit ha bloccato l’indicizzazione dei suoi post e delle sue discussioni a diversi motori di ricerca, ad eccezione di Google. Google, come Reddit, ha un accordo finanziario con Reddit per l’accesso ai dati per addestrare i suoi servizi di intelligenza artificiale.

Secondo le fonti, l’anno scorso Microsoft ha preso in considerazione la possibilità di limitare l’accesso ai dati di ricerca su internet per gli operatori dei motori di ricerca rivali, soprattutto per coloro che utilizzano i dati per i chatbot e i servizi di IA generativa.

Nel frattempo, la Wikipedia cinese, con i suoi 1,43 milioni di voci, rimane disponibile per i motori di ricerca. Un’indagine condotta dal South China Morning Post ha rilevato che le voci di Baidu Baike appaiono ancora nelle ricerche di Bing e Google. Forse i motori di ricerca continuano a utilizzare i vecchi contenuti in cache.

Questa mossa sta emergendo in un contesto in cui gli sviluppatori di IA generativa di tutto il mondo collaborano sempre più spesso con gli editori di contenuti nel tentativo di accedere a contenuti di altissima qualità per i loro progetti. Ad esempio, relativamente di recente, OpenAI ha firmato un accordo con la rivista Time per accedere all’intero archivio, risalente al primo giorno di pubblicazione della rivista, oltre un secolo fa. Una partnership simile è stata siglata con il Financial Times ad aprile.

La decisione di Baidu di limitare l’accesso ai contenuti di Baidu Baike per i principali motori di ricerca evidenzia la crescente importanza dei dati nell’era dell’intelligenza artificiale. Poiché le aziende investono massicciamente nello sviluppo dell’IA, il valore dei dataset curati e di grandi dimensioni è aumentato in modo significativo. Questo ha portato a un cambiamento nel modo in cui le piattaforme online gestiscono l’accesso ai propri contenuti: molte scelgono di limitare o monetizzare l’accesso ai propri dati.

Con l’evoluzione dell’industria dell’intelligenza artificiale, è probabile che un numero sempre maggiore di aziende riesamini le proprie politiche di condivisione dei dati, portando potenzialmente a ulteriori cambiamenti nelle modalità di indicizzazione e di accesso alle informazioni su Internet.

Leggi di più su www.artificialintelligence-news.com