Exame Logo

Dados de redes sociais podem ser alternativa a estudos

A grande quantidade de informações fornecida pelos usuários do Foursquare ajudou a definir hábitos culturais de diferentes cidades

TV e redes sociais (Divulgação/AdNews)
DR

Da Redação

Publicado em 1 de junho de 2014 às 14h01.

Uma pesquisa de origem brasileira ganhou repercussão fora do país recentemente. Desenvolvido nos últimos três anos por um grupo de quatro pesquisadores da Universidade Federal de Minas Gerais, junto de mais um da Inglaterra, o estudo “You Are What You Eat” usou o Foursquare praticamente como uma solução de big data. A grande quantidade de informações fornecida pelos usuários da rede social ajudou a definir hábitos culturais de diferentes cidades, e os resultados se saíram bem quando comparados até aos de pesquisas mais tradicionais, como a World Values Survey.

Mas a análise usando o Foursquare é apenas parte de toda uma tese de doutorado, como contou a INFO o pesquisador Thiago Silva, 31, um dos responsáveis pelo projeto. Segundo ele, além de hábitos alimentares, o grande volume de dados ainda revela pontos de interesse, rotinas e outras informações diversas nas cidades e fora delas – e pode sair de diferentes redes sociais.

“É uma pesquisa em andamento, e já existem várias outras frentes para novas dissertações e trabalhos de graduação”, disse o doutorando, destacando a repercussão da tese dentro (e até fora) da UFMG. Para entender melhor o objetivo de Silva e do grupo com o trabalho, confira na íntegra, a seguir, a entrevista concedida por ele a INFO.

INFO: Como você e seu grupo começaram esse estudo de big data proveniente de redes sociais?

Thiago Silva: A pesquisa, na verdade, é parte da minha tese de doutorado, e ao longo dos anos já utilizamos as bases dela para diversos estudos. Mas sempre com o intuito de tentar entender melhor as dinâmicas das cidades, o que as pessoas fazem nas cidades. Então, é só um fragmento. O princípio básico da nossa pesquisa, da minha tese, é pegar diversos pontos de dados provenientes de redes sociais – Instagram, Foursquare, Waze – e encará-los como um novo tipo de sensor, um sensor social. O que poderíamos fazer com esse novo tipo de dado?

Assim, tivemos todo o trabalho para entender as possibilidades, até que vimos que os dados eram muito bons para tentar entender alguma dinâmica dentro da cidade, um comportamento urbano. Isso guiou a pesquisa para diversas frentes. A gente percebeu, por exemplo, que usando os dados do Foursquare, podíamos extrair mais facilmente os locais aos quais as pessoas iam para comer ou beber. Esse é um ponto que consideramos que mostra bem as diferenças culturais – e por isso utilizamos como exemplo de frente.

E como foi o processo para chegar a essas frentes diferentes? Quais outras ainda surgiram?

Encaramos os usuários com um dispositivo móvel como “sensores participativos”, que contribuem ativamente com dados. Como fizemos vários trabalhos, que mostravam diferentes propriedades, o primeiro passo foi caracterizá-las, sempre enxergando esse tipo de sistema como uma rede de sensores. A partir daí, identificamos algumas das particularidades: por exemplo, o momento em que as pessoas compartilham os dados é muito relacionado com as próprias rotinas.

Peguemos o caso do Forsquare: o histograma de contribuição mostra um pico muito grande no café da manhã, no horário de almoço e depois do trabalho, aproximadamente às 18h. Outra propriedade que é até intuitiva: existem lugares muito ou pouco populares em cada cidade. Em Nova York, Times Square tem muito movimento, ou seja, muitas pessoas compartilham informações naquela área. Em outras, residenciais, por exemplo, poucas enviam dados. Existe uma discrepância muito grande. Isso tudo também reflete a própria organização da cidade, e a gente espera esse tipo de diferença mesmo. Seria muito estranho se toda contribuição fosse homogênea.

Em suma, extraímos várias propriedades, e a conclusão que tiramos é a de que esses dados são muito bons para medir como as cidades funcionam e por que as pessoas têm determinados comportamentos. Para uso prático, aplicamos o algoritmo que criamos para checar pontos de interesse e turísticos de Belo Horizonte, por exemplo – e a taxa de acerto foi muito boa, mostrando o potencial dessa rede de sensores.

A pesquisa de hábitos de alimentação baseada no Foursquare foi comparada até a uma mais tradicional, a World Values Survey. Você vê, de fato, essa análise de dados de redes sociais como uma alternativa viável a estudos longos como o WVS?

Bem, para isso é preciso explicar a trajetória do nosso trabalho. No processo de investigação das propriedades, da rede de sensores, vimos que havia boas diferenças entre algumas cidades, e indícios mostravam que elas eram boas para distinguir hábitos culturais. Então, nos aprofundamos um pouco mais e percebemos que, caso focássemos em hábitos alimentares e de consumo de bebidas, as informações poderiam ser melhores.

Apostamos nisso, e os resultados que obtivemos faziam muito sentido intuitivamente. Só que precisávamos validar, para saber se tudo batia com algum outro estudo já feito – e esse World Values Survey é um dos mais populares, talvez o maior já feito em larga escala para verificar diferenças culturais. Comparamos nossos dados com os deles, e surpreendentemente o que conseguimos foi muito bom. E isso nos leva a acreditar que a pesquisa pode ser sim ser uma alternativa para, num futuro próximo, realizar estudos dessa natureza com um custo menor. Eu acredito, sim, que pode ser uma alternativa viável.

Mas ainda há um aspecto que limita o alcance, que é o de uso dos aplicativos. No caso do Foursquare, por exemplo, a adoção dele não é tão alta. Como superar esse ponto?

Exato, existe essa dúvida em relação a nem todo mundo usar o Foursquare. Mas se consideramos outras fontes de informação, os resultados vão melhorar ainda mais. E é nessa direção que estamos trabalho agora. Criamos um conceito chamado de “camadas de sensoriamento”, que são dados provenientes de uma fonte – o Foursquare é uma delas, mas outra camada por representar outra origem. A ideia do nosso modelo é criar um arcabouço, e de forma mais fácil, trabalhar com diversas dessas fontes para um só objetivo, como melhorar a identificação de diferenças culturais ou qualquer um de nossos outros resultados. Já até fizemos algumas validações com isso, como nos pontos turísticos que identificamos para BH – se utilizamos apenas os dados do Instagram, temos um resultado que é bom. Mas se usamos também as informações do Foursquare, conseguimos uma melhora.

A questão da privacidade não pode trazer algum tipo de problema para o desenvolvimento da pesquisa no futuro?

Privacidade é um assunto muito sério, mas não tratamos na tese, realmente. Mas de qualquer forma, utilizamos apenas dados que não expõem os usuários individualmente. Só consideramos os atos coletivos. Um dia, o que pode acontecer é as pesquisas e estudos terem seu desenvolvimento dificultado, especialmente as que envolvem algum sistema de recomendação – elas analisam usuários específicos, e o trabalho tende a ser o mais prejudicado.

Mas o que fazemos aqui sofre menos com essa questão. Vamos supor, por exemplo, que o Twitter pare de disponibilizar os IDs dos usuários, um ponto sério de privacidade. O tipo de pesquisa que realizamos não vai sofrer tanto, porque o que precisamos é o ato coletivo mesmo. Ter os IDs ajuda em alguns pontos, mas tanto faz se pegarmos um ID aleatório. Mas eu sempre tenho o cuidado de mencionar, nas palestras que damos par apresentar nosso trabalho, que a privacidade é tratada – mas não deixa de ser um assunto sério e que gera muitos campos de pesquisa.

Veja também

Uma pesquisa de origem brasileira ganhou repercussão fora do país recentemente. Desenvolvido nos últimos três anos por um grupo de quatro pesquisadores da Universidade Federal de Minas Gerais, junto de mais um da Inglaterra, o estudo “You Are What You Eat” usou o Foursquare praticamente como uma solução de big data. A grande quantidade de informações fornecida pelos usuários da rede social ajudou a definir hábitos culturais de diferentes cidades, e os resultados se saíram bem quando comparados até aos de pesquisas mais tradicionais, como a World Values Survey.

Mas a análise usando o Foursquare é apenas parte de toda uma tese de doutorado, como contou a INFO o pesquisador Thiago Silva, 31, um dos responsáveis pelo projeto. Segundo ele, além de hábitos alimentares, o grande volume de dados ainda revela pontos de interesse, rotinas e outras informações diversas nas cidades e fora delas – e pode sair de diferentes redes sociais.

“É uma pesquisa em andamento, e já existem várias outras frentes para novas dissertações e trabalhos de graduação”, disse o doutorando, destacando a repercussão da tese dentro (e até fora) da UFMG. Para entender melhor o objetivo de Silva e do grupo com o trabalho, confira na íntegra, a seguir, a entrevista concedida por ele a INFO.

INFO: Como você e seu grupo começaram esse estudo de big data proveniente de redes sociais?

Thiago Silva: A pesquisa, na verdade, é parte da minha tese de doutorado, e ao longo dos anos já utilizamos as bases dela para diversos estudos. Mas sempre com o intuito de tentar entender melhor as dinâmicas das cidades, o que as pessoas fazem nas cidades. Então, é só um fragmento. O princípio básico da nossa pesquisa, da minha tese, é pegar diversos pontos de dados provenientes de redes sociais – Instagram, Foursquare, Waze – e encará-los como um novo tipo de sensor, um sensor social. O que poderíamos fazer com esse novo tipo de dado?

Assim, tivemos todo o trabalho para entender as possibilidades, até que vimos que os dados eram muito bons para tentar entender alguma dinâmica dentro da cidade, um comportamento urbano. Isso guiou a pesquisa para diversas frentes. A gente percebeu, por exemplo, que usando os dados do Foursquare, podíamos extrair mais facilmente os locais aos quais as pessoas iam para comer ou beber. Esse é um ponto que consideramos que mostra bem as diferenças culturais – e por isso utilizamos como exemplo de frente.

E como foi o processo para chegar a essas frentes diferentes? Quais outras ainda surgiram?

Encaramos os usuários com um dispositivo móvel como “sensores participativos”, que contribuem ativamente com dados. Como fizemos vários trabalhos, que mostravam diferentes propriedades, o primeiro passo foi caracterizá-las, sempre enxergando esse tipo de sistema como uma rede de sensores. A partir daí, identificamos algumas das particularidades: por exemplo, o momento em que as pessoas compartilham os dados é muito relacionado com as próprias rotinas.

Peguemos o caso do Forsquare: o histograma de contribuição mostra um pico muito grande no café da manhã, no horário de almoço e depois do trabalho, aproximadamente às 18h. Outra propriedade que é até intuitiva: existem lugares muito ou pouco populares em cada cidade. Em Nova York, Times Square tem muito movimento, ou seja, muitas pessoas compartilham informações naquela área. Em outras, residenciais, por exemplo, poucas enviam dados. Existe uma discrepância muito grande. Isso tudo também reflete a própria organização da cidade, e a gente espera esse tipo de diferença mesmo. Seria muito estranho se toda contribuição fosse homogênea.

Em suma, extraímos várias propriedades, e a conclusão que tiramos é a de que esses dados são muito bons para medir como as cidades funcionam e por que as pessoas têm determinados comportamentos. Para uso prático, aplicamos o algoritmo que criamos para checar pontos de interesse e turísticos de Belo Horizonte, por exemplo – e a taxa de acerto foi muito boa, mostrando o potencial dessa rede de sensores.

A pesquisa de hábitos de alimentação baseada no Foursquare foi comparada até a uma mais tradicional, a World Values Survey. Você vê, de fato, essa análise de dados de redes sociais como uma alternativa viável a estudos longos como o WVS?

Bem, para isso é preciso explicar a trajetória do nosso trabalho. No processo de investigação das propriedades, da rede de sensores, vimos que havia boas diferenças entre algumas cidades, e indícios mostravam que elas eram boas para distinguir hábitos culturais. Então, nos aprofundamos um pouco mais e percebemos que, caso focássemos em hábitos alimentares e de consumo de bebidas, as informações poderiam ser melhores.

Apostamos nisso, e os resultados que obtivemos faziam muito sentido intuitivamente. Só que precisávamos validar, para saber se tudo batia com algum outro estudo já feito – e esse World Values Survey é um dos mais populares, talvez o maior já feito em larga escala para verificar diferenças culturais. Comparamos nossos dados com os deles, e surpreendentemente o que conseguimos foi muito bom. E isso nos leva a acreditar que a pesquisa pode ser sim ser uma alternativa para, num futuro próximo, realizar estudos dessa natureza com um custo menor. Eu acredito, sim, que pode ser uma alternativa viável.

Mas ainda há um aspecto que limita o alcance, que é o de uso dos aplicativos. No caso do Foursquare, por exemplo, a adoção dele não é tão alta. Como superar esse ponto?

Exato, existe essa dúvida em relação a nem todo mundo usar o Foursquare. Mas se consideramos outras fontes de informação, os resultados vão melhorar ainda mais. E é nessa direção que estamos trabalho agora. Criamos um conceito chamado de “camadas de sensoriamento”, que são dados provenientes de uma fonte – o Foursquare é uma delas, mas outra camada por representar outra origem. A ideia do nosso modelo é criar um arcabouço, e de forma mais fácil, trabalhar com diversas dessas fontes para um só objetivo, como melhorar a identificação de diferenças culturais ou qualquer um de nossos outros resultados. Já até fizemos algumas validações com isso, como nos pontos turísticos que identificamos para BH – se utilizamos apenas os dados do Instagram, temos um resultado que é bom. Mas se usamos também as informações do Foursquare, conseguimos uma melhora.

A questão da privacidade não pode trazer algum tipo de problema para o desenvolvimento da pesquisa no futuro?

Privacidade é um assunto muito sério, mas não tratamos na tese, realmente. Mas de qualquer forma, utilizamos apenas dados que não expõem os usuários individualmente. Só consideramos os atos coletivos. Um dia, o que pode acontecer é as pesquisas e estudos terem seu desenvolvimento dificultado, especialmente as que envolvem algum sistema de recomendação – elas analisam usuários específicos, e o trabalho tende a ser o mais prejudicado.

Mas o que fazemos aqui sofre menos com essa questão. Vamos supor, por exemplo, que o Twitter pare de disponibilizar os IDs dos usuários, um ponto sério de privacidade. O tipo de pesquisa que realizamos não vai sofrer tanto, porque o que precisamos é o ato coletivo mesmo. Ter os IDs ajuda em alguns pontos, mas tanto faz se pegarmos um ID aleatório. Mas eu sempre tenho o cuidado de mencionar, nas palestras que damos par apresentar nosso trabalho, que a privacidade é tratada – mas não deixa de ser um assunto sério e que gera muitos campos de pesquisa.

Acompanhe tudo sobre:EmpresasEmpresas de internetempresas-de-tecnologiaFoursquareInternetRedes sociais

Mais lidas

exame no whatsapp

Receba as noticias da Exame no seu WhatsApp

Inscreva-se

Mais de Tecnologia

Mais na Exame