Introdução aos DataFrames do BigQuery

O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto que lhe permitem tirar partido do processamento de dados do BigQuery através de APIs Python familiares. O BigQuery DataFrames oferece um DataFrame Pythonic com tecnologia do motor do BigQuery e implementa as APIs pandas e scikit-learn ao transferir o processamento para o BigQuery através da conversão SQL. Isto permite-lhe usar o BigQuery para explorar e processar terabytes de dados, bem como preparar modelos de aprendizagem automática (AA), tudo com APIs Python.

O diagrama seguinte descreve o fluxo de trabalho dos DataFrames do BigQuery:

Fluxo de trabalho do BigQuery DataFrames

Vantagens dos DataFrames do BigQuery

O BigQuery DataFrames faz o seguinte:

  • Oferece mais de 750 APIs pandas e scikit-learn implementadas através da conversão transparente de SQL para as APIs BigQuery e BigQuery ML.
  • Adia a execução de consultas para um desempenho melhorado.
  • Amplia as transformações de dados com funções Python definidas pelo utilizador para lhe permitir processar dados no Google Cloud. Estas funções são implementadas automaticamente como funções remotas do BigQuery.
  • Integra-se com o Vertex AI para lhe permitir usar modelos Gemini para a geração de texto.

Licenciamento

O BigQuery DataFrames é distribuído com a licença Apache-2.0.

O BigQuery DataFrames também contém código derivado dos seguintes pacotes de terceiros:

Para detalhes, consulte o diretório third_party/bigframes_vendored no repositório do GitHub do BigQuery DataFrames.

Quotas e limites

  • As cotas do BigQuery aplicam-se aos DataFrames do BigQuery, incluindo componentes de hardware, software e de rede.
  • É suportado um subconjunto de APIs pandas e scikit-learn. Para mais informações, consulte o artigo APIs pandas suportadas.
  • Tem de limpar explicitamente todas as funções do Cloud Run criadas automaticamente como parte da limpeza da sessão. Para mais informações, consulte o artigo APIs pandas suportadas.

Preços

  • O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto disponíveis para transferência sem custo adicional.
  • Os DataFrames do BigQuery usam o BigQuery, as funções do Cloud Run, o Vertex AI e outrosGoogle Cloud serviços, que incorrem nos seus próprios custos.
  • Durante a utilização normal, o BigQuery DataFrames armazena dados temporários, como resultados intermédios, em tabelas do BigQuery. Estas tabelas persistem durante sete dias por predefinição, e é-lhe cobrado o valor dos dados armazenados nas mesmas. As tabelas são criadas no conjunto de dados _anonymous_ no projeto que especificar na opção bf.options.bigquery.project. Google Cloud

O que se segue?