A segunda maior Wikipedia do mundo é escrita quase inteiramente por um bot

Kyle Wilson é um gestor na Wikipedia em inglês e um renamer global de usuários. Ele não recebe pagamento da Wikimedia Foundation nem participa de edições pagas, amplamente interpretadas. Você pode segui-lo no Twitter @kwilsonmg.

O finalidade fundamental da Wikipedia é disponibilizar gratuitamente o conhecimento on-line no maior número provável de idiomas. Até o momento, isso tem sido principalmente em inglês. Diferentes idiomas na Wikipedia são chamados de "edições", e a edição em inglês ultrapassou recentemente 6 milhões de artigos. Possuir mais de um milhão de artigos é um feito que unicamente 16 das 309 edições realizaram.

A Wikipedia Cebuano é a segunda maior edição da Wikipedia, ficando detrás da versão em inglês por pouco mais de 630 {mil} artigos e primeiro das edições sueca e alemã em mais de 1,64 e 2,98 milhões de artigos, respectivamente. Seu posicionamento é bastante peculiar, uma vez que, de harmonia com a Enciclopédia Britânica, existem unicamente aproximadamente 16,5 milhões de falantes da língua nas Filipinas. Apesar de possuir mais de 5,37 milhões de artigos, possui unicamente 6 administradores e 14 usuários ativos. A edição em inglês, em conferência, possui 1.143 administradores e 137.368 usuários ativos em mais de 6 milhões de artigos, no momento da redação deste item.

De harmonia com pesquisas da Motherboard e comentários de vários administradores globais, usuários altamente confiáveis, especializados no combate ao vandalismo nas edições da Wikipedia, isso se deve ao uso de bots, ferramentas automatizadas que executam principalmente tarefas repetitivas e mundanas, porém da mesma forma podem ser usadas para gerar entradas da Wikipedia. De harmonia com um item publicado na revista Proceedings of the ACM on Human-Computer Interaction, existem aproximadamente 1.601 desses bots nas edições da Wikipedia. Enquanto a Wikipedia em inglês e outras edições usam essas ferramentas para executar tarefas repetitivas e mundanas, algumas edições começaram a usá-las para redigir teor.

Embora isso possa não parecer um problema, quando a maioria do teor de uma edição é escrita por um único bot, ela pode afetar negativamente a qualidade da edição. O bot em pessoal que está escrevendo a edição de Cebuano é chamado "Lsjbot" e foi criado pelo físico sueco Sverker Johansson. Sua geração é responsável por mais de 24 das 29,5 milhões de edições da edição e, de harmonia com pesquisa feita por Guilherme Morandini, outro gestor global, criou 5.331.028 dos 5.378.570 artigos da edição, ou 99,12% de suas criações. De harmonia com a mesma pesquisa, todos, exceto cinco dos 35 principais editores da edição, são robôs, sem editores humanos no top 10. Com base nisso, Morandini argumentou que os robôs substituíram a edição Cebuano de editores humanos.

"Bots são o resultado de pessoas", disse Vermont, um gestor global de longa data que pediu para ser chamado pelo nome de usuário da Wikipedia. “Eles não assumiram nenhum projeto; em vez disso, eles simplesmente desincentivaram a geração de artigos com grandes quantidades de esboço [articles]. ”Vermont da mesma forma apontou que Lsjbot fez“ mais edições … do que há falantes de Cebuano ”.

Riley Huntley, um novo gestor global, compilou uma exemplar de 1.000 artigos aleatórios criados pelo Lsjbot. A partir da seleção aleatória desses 1.000 resultados que a Motherboard analisou, a maioria foi surpreendentemente muito construída.

Segundo Johansson, seu bot opera usando os seguintes princípios básicos: para inaugurar, ele seleciona um domínio semântico – uma dimensão de significado e as palavras usadas para descrevê-lo. Por exemplo, o domínio "corpo" incluiria "pé", "mão", "rosto" e deste modo por diante. A próxima lanço do processo é encontrar bancos de dados legíveis por máquina que abranjam o domínio; elas fornecerão os fatos básicos sobre cada subtópico – pé, mão, face etc. – a serem incluídos nos artigos. O banco de dados legível por máquina que o Lsjbot usou para artigos baseados em geografia, por exemplo, é chamado GeoNames.

Depois que essas informações são obtidas, o próximo passo é redigir frases modeladas, genéricas e reutilizáveis ​​com pontos para informações específicas; isto expressará, no texto, os vários fatos de cada item. O bot logo preenche essas frases com as informações dos bancos de dados legíveis por máquina e adiciona infoboxes ({como} as barras laterais vistas nas biografias mais desenvolvidas da Wikipedia), categorias e links para outros artigos, de acordo com tempestivo. Quando tudo estiver concluído, o último passo é salvar a edição, fazendo o upload do teor para a edição da Wikipedia em questão.

Johansson disse – e a Motherboard verificou o log de contribuições do bot – que o Lsjbot está presentemente fazendo trabalhos de manutenção na Wikipedia Cebuano e que "nenhum projeto significativo" de geração de artigos está em curso.

Lsjbot é responsável pela geração de artigos sobre várias espécies nas Wikipédias Cebuano, Sueca e Waray-Waray. Quando perguntado por que o Lsjbot interrompeu a geração de artigos, Johansson respondeu que "as opiniões mudaram" na comunidade sueca da Wikipedia e que os editores da Waray-Waray não conseguiram formar um consenso sobre a geração automática de artigos.

Quando procurada para comentar, a Wikimedia Foundation – a instituição de filantropia responsável pela manutenção dos servidores, software e alcance da Wikipedia – reconheceu a vácuo de conhecimento presente entre as edições, o que limita o entrada às informações para quem fala unicamente idiomas com baixa representação. Em um e-mail para a Motherboard, Adora Svitak, da Wikimedia Foundation, afirmou que a Instauração está tentando resolver isso "fornecendo às comunidades de idiomas locais ferramentas, recursos e parcerias". Isso inclui o fornecimento de recursos e plataformas, {como} o Wikimedia Cloud Sers, para desenvolvedores. desejando fabricar bots e outras ferramentas. De harmonia com Svitak, no entanto, as políticas sobre bots e seus usos permitidos são estritamente de responsabilidade das próprias comunidades. Ele da mesma forma falou de desenvolvimentos técnicos para ajudar a mitigar o fardo dos editores que traduzem teor, principalmente a instrumento "tradução de teor", que foi usada para publicar mais de 500.000 artigos.

Quando perguntado {como} ele se sentia sobre o trabalho da Wikimedia Foundation em abordar essas questões e a disparidade entre as edições, Vermont afirmou que, embora realizem divulgação, "realmente fazendo qualquer tipo de diferença" com fatores socioeconômicos, impedindo a imposto dos usuários é "inexistente".

Com essa falta de base percebida, as comunidades passaram a gerar teor por vários meios. Alguns optaram por se concentrar fortemente na qualidade, enquanto outros preferem possuir artigos curtos de uma ou duas frases sobre o supremo provável. Quando traduções automáticas, {como} as criadas com a instrumento de tradução de teor, são deixadas sem edição, isso pode provocar problemas. Por exemplo, "{bomba} da vila", quando colocada no Google Translate, pode se tornar "{bomba} na vila" em português. Embora esse exemplo tenha sido para uma consulta da comunidade Wikimedia, erros {como} esse podem finalizar com a mesma facilidade em artigos da Wikipedia "ao vivo". "O consenso da Wikipedia é que uma tradução automática não editada, deixada {como} item da Wikipedia, é pior que {nada}", de harmonia com o guia de tradução da Wikipedia em inglês.

O Lsjbot não é a única maneira automatizada ou necessariamente a melhor para ajudar as pessoas a fabricar artigos da Wikipedia em diferentes idiomas. Outra instrumento, que depende de mais contribuições humanas, foi criada em 2018 por João Alexandre Peschanski e Érica Azzellini, que da mesma forma co-escreveu um item sobre bots de transclusão de teor.

A instrumento de Peschanski e Azzellini, Mbabel, gera involuntariamente rascunhos de artigos com base nas informações armazenadas no "banco de dados semântico da web", Wikidata – um banco de dados online franco, hospedado pela Wikimedia Foundation, projetado para ser legível por software automatizado. Ao contrário da instrumento de tradução de teor da Instauração, o Mbabel não permite a publicação direta de artigos. Em vez disso, coloca o teor gerado em uma "página de teste do usuário na Wikipedia", com a intenção de que os usuários expandam as informações básicas de padrão fornecidas pela Mbabel.

O item de prova criado usando Mbabel que Azzellini compartilhou com a Motherboard é sobre o Museu Paulista em São Paulo, Brasil e está na Wikipedia em português. Foi gerado exclusivamente a partir do teor disponível em sua ingresso do Wikidata. Mbabel da mesma forma é capaz de compilar informações de várias entradas diferentes do Wikidata, {como} foi feito para esse item nas eleições brizilianas de 2016.

Essa abordagem, no entanto, tem suas desvantagens. Devido à sua poderoso obediência das entradas do Wikidata, a qualidade do teor produzido é fortemente influenciada pela qualidade do Wikidata disponível.

“É {claro} que cada comunidade deve determinar {como} aguentar com o teor escrito por bot, porém, do meu ponto de vista, não é proveitoso para o projeto da Wikipedia entregar esse tipo de texto. [using the kind of templated information Mbabel creates] no domínio principal {como} um pouco equivalente a um item enciclopédico ", disse Azzellini." Ele pode desacreditar outras entradas da Wikipedia relacionadas à geração automática de teor ou mesmo à qualidade da Wikipedia ".

Ainda há espaço para melhorias quando se trata de realizar suas entradas parecerem mais humanas e convencionar a gramática e os pronomes. Por exemplo, inserir uma frase em português para expressar que alguém era diretor de cinema pode permanecer complicado. Enquanto em inglês o sexo do diretor não altera a estrutura da frase, em português a estrutura depende muito do contexto sexual. Isso forçou Azzellini a redigir esse tipo de frase na voz passiva, jogando-o "seguro" com as traduções. Ao expressar isso, no entanto, ela enfatizou que "Mbabel não funciona {como} bot e depende diretamente da edição humana a ser publicada".

Na sua puerícia, a Wikipedia em inglês era semelhante ao que é a edição de Cebuano agora – embora com significativamente menos artigos. Um grande número de seus artigos da mesma forma foi gerado por bot. Desde 2006, a Wikipedia em inglês possui um "grupo de aprovações de bot" que supervisiona a aprovação de bots com permissão para realização e ajuda a utilizar a política de bot, criada originalmente em 2002. Desde 2010, a política de bot da Wikipedia em inglês incluiu uma seção impedindo o uso de bots para gerar teor na grande maioria dos casos.

Possuir a maioria do teor de uma edição escrita por um único bot é uma faca de dois gumes. Pode levar a preocupações credíveis sobre sua qualidade, porém da mesma forma é sem incerteza melhor do que {nada}. Por término, são necessários mais editores humanos com conhecimento em vários idiomas para ajudar na expansão do teor e revisar, melhorar e limpar artigos criados por bots. No momento, essa é uma tarefa assustadora e, uma vez que a edição Cebuano tem unicamente 148 usuários ativos e 5.331.028 artigos criados por bot.

"O problema para mim não é se deve ou não usar … uma informação de padrão", disse Azzellini. "Porém não pensar criticamente sobre de onde ela vem e responsabilizar no padrão {como} um texto definitivo, em vez de expandir e melhorar o teor com suas capacidades humanas de pesquisa, siso crítico, estudo e revisão ".

No final das contas, Vermont vê a edição da Cebuano na Wikipedia {como} uma espécie de “wiki piloto” para a “teoria de um robô instituidor de artigos”. Ele acredita firmemente que é necessário mais trabalho para sublimar a capacidade dos bots de redigir. No porvir próximo, disse ele, os humanos são uma premência para controlar o teor e a qualidade dos artigos. "Sou da opinião de que os robôs podem, em qualquer momento, realizar tudo o que um ser humano pode".

Like
Like Love Haha Wow Sad Angry

© 2020 Dudu Alló | TOR | Alló Game | Privacidade | Contato | Sobre |

Todos os direitos reservados. Desenvolvido por Luís Eduardo Alló