dayrize-usecase/etl/main.py

#!/usr/bin/env python

import logging

import apache_beam as beam

from apache_beam.options.pipeline_options import PipelineOptions

from helpers.data_io import ReadFromCsv, WriteToPostgreSQL
from helpers.parse_row import parse_row


#     def __init__(self, hostname, port, username, password, database):


class SustainabilityScoreOptions(PipelineOptions):
    """Options for this pipeline"""

    @classmethod
    def _add_argparse_args(cls, parser):
        parser.add_argument("--input", help="Input CSV file to process", type=str)
        parser.add_argument("--pg_hostname", help="Postgres hostname", type=str)
        parser.add_argument("--pg_port", help="Postgres port", type=str)
        parser.add_argument("--pg_username", help="Postgres username", type=str)
        parser.add_argument("--pg_password", help="Postgres password", type=str)
        parser.add_argument("--pg_database", help="Postgres database name", type=str)
        parser.add_argument("--pg_table", help="Postgres table name", type=str)


def main():
    """Construct and run the pipeline"""

    beam_options = PipelineOptions()
    opts = beam_options.view_as(SustainabilityScoreOptions)

    with beam.Pipeline(options=beam_options) as pipeline:
        # fmt: off
        pipeline \
            | beam.Create([opts.input]) \
            | beam.ParDo(ReadFromCsv()) \
            | beam.Map(parse_row) \
            | beam.ParDo(WriteToPostgreSQL(
                hostname=opts.pg_hostname,
                port=opts.pg_port,
                username=opts.pg_username,
                password=opts.pg_password,
                database=opts.pg_database,
                table=opts.pg_table,
                table_key="gtin13",
            ))
        # fmt: on


if __name__ == "__main__":
    logging.getLogger().setLevel(logging.INFO)
    main()
added skeleton for beam etl pipeline 2023-06-21 19:11:17 +02:00			`#!/usr/bin/env python`

			`import logging`

			`import apache_beam as beam`

			`from apache_beam.options.pipeline_options import PipelineOptions`

feat: import elements into database using beam 2023-06-23 18:02:01 +02:00			`from helpers.data_io import ReadFromCsv, WriteToPostgreSQL`
			`from helpers.parse_row import parse_row`


			`# def __init__(self, hostname, port, username, password, database):`

added skeleton for beam etl pipeline 2023-06-21 19:11:17 +02:00
			`class SustainabilityScoreOptions(PipelineOptions):`
			`"""Options for this pipeline"""`

			`@classmethod`
			`def _add_argparse_args(cls, parser):`
feat: import elements into database using beam 2023-06-23 18:02:01 +02:00			`parser.add_argument("--input", help="Input CSV file to process", type=str)`
			`parser.add_argument("--pg_hostname", help="Postgres hostname", type=str)`
			`parser.add_argument("--pg_port", help="Postgres port", type=str)`
			`parser.add_argument("--pg_username", help="Postgres username", type=str)`
			`parser.add_argument("--pg_password", help="Postgres password", type=str)`
			`parser.add_argument("--pg_database", help="Postgres database name", type=str)`
			`parser.add_argument("--pg_table", help="Postgres table name", type=str)`
added skeleton for beam etl pipeline 2023-06-21 19:11:17 +02:00

			`def main():`
feat: import elements into database using beam 2023-06-23 18:02:01 +02:00			`"""Construct and run the pipeline"""`

added skeleton for beam etl pipeline 2023-06-21 19:11:17 +02:00			`beam_options = PipelineOptions()`
			`opts = beam_options.view_as(SustainabilityScoreOptions)`

			`with beam.Pipeline(options=beam_options) as pipeline:`
			`# fmt: off`
			`pipeline \`
			`\| beam.Create([opts.input]) \`
feat: import elements into database using beam 2023-06-23 18:02:01 +02:00			`\| beam.ParDo(ReadFromCsv()) \`
			`\| beam.Map(parse_row) \`
			`\| beam.ParDo(WriteToPostgreSQL(`
			`hostname=opts.pg_hostname,`
			`port=opts.pg_port,`
			`username=opts.pg_username,`
			`password=opts.pg_password,`
			`database=opts.pg_database,`
			`table=opts.pg_table,`
feat: update table if there's a primary key conflict 2023-06-23 18:25:11 +02:00			`table_key="gtin13",`
feat: import elements into database using beam 2023-06-23 18:02:01 +02:00			`))`
added skeleton for beam etl pipeline 2023-06-21 19:11:17 +02:00			`# fmt: on`


			`if __name__ == "__main__":`
			`logging.getLogger().setLevel(logging.INFO)`
			`main()`