VPI tổng kết, trao giải cho 11 ý tưởng, giải pháp, sản phẩm dữ liệu

Ngày 9/2/2023, Viện Dầu khí Việt Nam (VPI) đã tổ chức tổng kết, đánh giá và trao giải cho 11 sản phẩm sáng tạo của đoàn viên thanh niên VPI trong chương trình đào tạo với chủ đề “Thanh niên VPI tiên phong trong sáng tạo sản phẩm dữ liệu”. 

Chương trình đào tạo với chủ đề “Thanh niên VPI tiên phong trong sáng tạo sản phẩm dữ liệu” được VPI tổ chức trong 2 tháng từ tháng 11/2022 với sự tham gia của 49 đoàn viên thanh niên, cung cấp kiến thức về xu hướng phát triển của thị trường phân tích dữ liệu, các nguồn và cấu trúc dữ liệu, các phương pháp và kỹ thuật phân tích dữ liệu; từ đó ứng dụng vào các công việc đang triển khai, góp phần nâng cao năng lực chuyên môn và lan tỏa nét văn hóa “Tự học hỏi, tự hoàn thiện bản thân”.

Giai đoạn 1 của chương trình đào tạo cung cấp kiến thức cơ bản về sản phẩm dữ liệu của VPI xây dựng từ Power BI và Python, phương pháp tiếp cận PMP (Pyramid, MECE, Pareto), cách xây dựng yêu cầu cần đạt của sản phẩm dữ liệu (problem statement) thông qua mẫu Miro, sơ đồ triển khai sản phẩm dữ liệu 3 lớp UAD (User, Analysis, Data) và cách áp dụng phương pháp PMP cùng công cụ Miro để xây dựng sơ đồ triển khai sản phẩm dữ liệu (bản đồ giải pháp – solution map), dataframe và cách chuyển từ range dữ liệu trong Excel qua dataframe, cách đưa dataframe vào PBI/Deepnote.

Ứng dụng các kiến thức được trang bị trong giai đoạn 1 và các khóa đào tạo nâng cao trên nền tảng đào tạo phân tích dữ liệu – Datacamp, trong giai đoạn 2 và 3, các đoàn viên thanh niên VPI đã thực hành xây dựng sản phẩm dữ liệu, xây dựng sơ đồ triển khai sản phẩm dữ liệu, nhập liệu vào mẫu dataframe (csv) và chuyển dataframe vào PBI service hay Deepnote dưới sự hướng dẫn, hỗ trợ và góp ý của các chuyên gia VPI (TS. Phan Ngọc Trung, TS. Nguyễn Hồng Minh, TS. Nguyễn Hữu Lương, ThS. Nguyễn Phương Thủy), Bộ phận Phân tích dữ liệu và Bộ phận Nắm thị trường của VPI.

Từ các sản phẩm dữ liệu do các đoàn viên thanh niên VPI xây dựng, ban tổ chức và các chuyên gia đã đánh giá và chọn ra 11 sản phẩm có chất lượng tốt nhất, trong đó 5 giải Nhất sẽ được VPI đầu tư phát triển trong thời gian tới gồm: “Ứng dụng ngôn ngữ lập trình Python để hiệu chỉnh (normalization) đường Gamma ray (GR) trong địa vật lý giếng khoan” của đoàn viên Nguyễn Thị Thanh; “Xây dựng công cụ dự báo sản lượng khai thác dầu sử dụng các thuật toán học sâu dựa trên cơ chế chú ý dựa trên cơ chế chú ý cho đối tượng móng nứt nẻ vòm Trung tâm, mỏ Bạch Hổ” của đoàn viên Trần Đăng Tú; “Chỉ số hydrogen Việt Nam (Vietnam’s hydrogen index)” của đoàn viên Trương Văn Nhân; “Tối ưu hóa (trực quan dữ liệu) dữ liệu hiện có tại phòng thí nghiệm” của đoàn viên Nguyễn Thị Thanh Ngà và “Bản đồ hóa các điểm dữ liệu” của đoàn viên Trần Xuân Quý.

Viện trưởng TS. Nguyễn Anh Đức và chuyên gia TS. Phan Ngọc Trung trao giải Nhất cho đoàn viên Nguyễn Thị Thanh và Trần Đăng Tú.

Chuyên gia TS. Nguyễn Hữu Lương trao giải Nhất cho đoàn viên Trương Văn Nhân và Nguyễn Thị Thanh Ngà.

2 giải Nhì đã được trao cho đoàn viên Lương Ngọc Thủy và Nguyễn Hùng Sơn

4 giải Ba đã được trao cho các đoàn viên Nguyễn Đức Khương Duy, Lê Minh Triết, Đỗ Hồng Hạnh và Phan Ngọc Quốc

Giới thiệu các sản phẩm đoạt giải

1 Ứng dụng ngôn ngữ lập trình Python để hiệu chỉnh (normalization) đường Gamma ray (GR) trong địa vật lý giếng khoan (đoàn viên Nguyễn Thị Thanh)  

Việc hiệu chỉnh (normalization) đường GR trong địa vật lý giếng khoan là rất cần thiết trước khi thực hiện minh giải và liên kết do các sai số về mặt kỹ thuật của thiết bị đo, ảnh hưởng của môi trường giếng lên giá trị đo, các loại thiết bị khác nhau hoặc do sai sót của người tiến hành đo ghi. Nếu không hiệu chỉnh thì việc liên kết giữa các giếng trong cùng khu vực sẽ trở nên khó khăn. Tuy nhiên, người minh giải hiện nay vẫn phải dùng các phần mềm chuyên ngành địa vật lý giếng khoan để hiệu chỉnh thủ công. Do đó, tác giả đã áp dụng ngôn ngữ lập trình Python để tạo công cụ hiệu chỉnh tự động đường gamma ray từ các tài liệu đo log của 9 giếng khoan trong khu vực mỏ Sư Tử Đen, Lô 15-1, bể Cửu Long. Kết quả cho thấy người minh giải có thể tiến hành hiệu chỉnh cho nhiều giếng khoan cùng lúc, thuận tiện hơn trong việc kiểm tra dữ liệu, phát hiện các giá trị dị thường với độ chính xác đạt trên 80%, đảm bảo tính linh hoạt, tiết kiệm thời gian hơn so với phương pháp truyền thống và dễ dàng tích hợp công cụ đi kèm hoặc thành các bước chuẩn bị tài liệu cho những công việc với các nền tảng khác.   

2   Xây dựng công cụ dự báo sản lượng khai thác dầu sử dụng các thuật toán học sâu dựa trên cơ chế chú ý cho đối tượng móng nứt nẻ vòm Trung tâm, mỏ Bạch Hổ (đoàn viên Trần Đăng Tú)  

Đối tượng móng có đặc điểm địa chất phức tạp, do đó, người điều hành mỏ đã thực hiện nhiều các phương pháp nhằm duy trì sản lượng khai thác như bơm ép nước, các giải pháp địa kĩ thuật, khoan đan dày… với sự hỗ trợ từ các công cụ truyền thống như: mô phỏng số và phân tích đường cong suy giảm. Tuy nhiên, hiệu quả dự báo khai thác từ các phương pháp này vẫn tồn tại nhiều hạn chế và độ tin cậy chưa cao. Để khắc phục các nhược điểm này, tác giả đã xây dựng công cụ dự báo sử dụng các thuật toán học sâu dựa trên cơ chế chú ý. Kết quả ban đầu khi sử dụng 1 thuật toán dựa trên cơ chế chú ý cho sai số ~10,7%, dự báo sản lượng khai thác dầu dựa trên dữ liệu khai thác trong quá khứ với độ chính xác đạt trên 70%. Việc ứng dụng cơ chế chú ý để đánh trọng số của các dữ liệu đầu vào trước khi đưa vào mô hình học sâu để huấn luyện có thể giúp nâng cao khả năng dự báo và tác giá kì vọng khi thử nghiệm, tối ưu các thuật toán dựa trên cơ chế chú ý có thể cho sai số < 8%. 

3  Chỉ số hydrogen Việt Nam (VN’s Hydrogen Index) (đoàn viên Trương Văn Nhân ) 

Chỉ số hydrogen Việt Nam (Hydrogen Index) là chỉ số thể hiện khả năng thâm nhập thị trường hydrogen sạch ở Việt Nam. Chỉ số càng lớn thể hiện khả năng thâm nhập thị trường và mức độ phát triển của lĩnh vực hydrogen càng lớn. Đồng thời, cũng thể hiện so sánh khả năng thâm nhập giữa 2 loại hydrogen sạch (Blue và Green hydrogen) để thấy được loại nào được đánh giá tốt hơn tại thời điểm lựa chọn. Thông tin sản phẩm mang lại không chỉ liên quan đến chỉ số hydrogen Việt Nam mà còn một số thông tin cơ bản khác như về thị trường, các dự án hydrogen Việt Nam, LCOH… Sản phẩm này có thể sử dụng cho nhiều khách hàng khác nhau như để tư vấn cho khách hang, nắm bắt được tình hình phát triển lĩnh vực hydrogen sạch ở Việt Nam và hỗ trợ đưa ra quyết định đầu tư lựa chọn đúng loại hydrogen sạch 

4  Tối ưu hóa (trực quan dữ liệu) dữ liệu hiện có tại phòng thí nghiệm; dự đoán xu hướng các thông số thể hiện độ giàu vật chất hữu cơ và mức độ trưởng thành nhiệt (TOC, S2, Tmax, Ro) cho các độ sâu mong muốn (đoàn viên Nguyễn Thị Thanh Ngà)  

Giải pháp này hỗ trợ cho lĩnh vực thăm dò trong công tác tự động đọc và phân tích dữ liệu đầu vào; xử lý tự động dữ liệu thô (độ sâu và địa tầng; kết quả phân tích thạch học và các chỉ tiêu địa hóa); dự báo xu hướng các thông số thể hiện độ giàu vật chất hữu cơ và mức độ trưởng thành nhiệt; biểu diễn dữ liệu bằng biểu đồ và hình ảnh mô phỏng thể hiện các thông số cho giếng khoan. Sau khi được xử lý sơ bộ bằng excel, dữ liệu sẽ được xử lý chuyên sâu bằng Python– Jupyter note bằng các thư viện Pandas, Numpy cho việc nạp và xử lý dữ liệu; Pandas_profiling để phân tích khám phá dữ liệu (EDA- Exploratory Data Analysis); Matplotlib, Seaborn nhằm trực quan hóa dữ liệu; xây dựng mô hình dự đoán bằng phương pháp xây dựng mô hình machine learning bằng Scikit-learn, Tensorflow để dự báo kết quả cho khu vực không lấy mẫu phân tích hoặc mẫu bị nhiễm bẩn nặng. Việc phân tích mẫu tại phòng thí nghiệm kết hợp việc sử dụng mô hình dự đoán để tăng tính chính xác và độ tin cậy trong dự đoán kết quả phân tích mẫu giếng khoan. Sản phẩm hiện đang được nghiên cứu cải thiện chức năng tự động hoá quá trình chọn lọc dữ liệu đầu vào và tối ưu hoá mô hình machine learning tăng độ tin cậy và giá trị sử dụng của mô hình. 

5  Bản đồ hóa các điểm dữ liệu (đoàn viên Trần Xuân Quý)  

Hiện nay, công tác phân tích, đánh giá động thái khai thác mỏ chủ yếu sử dụng bảng biểu và dạng hình vẽ đơn giản cho từng giếng khoan, do đó, việc xác định phân bố, xu hướng động thái khu vực gặp khó khăn. Sản phẩm này đã xây dựng được các bản đồ như bản đồ ngập nước (bản đồ độ bão hòa nước); bản đồ lưu lượng khai thác (dạng bọt). Trong thời gian tới, sản phẩm sẽ được bổ sung thêm các thông tin (lưu lượng nước, lưu lượng dầu), tích hợp bản đồ địa chất (fault, contour) để dễ theo dõi và quản lý cũng như nâng cao trải nghiệm người dùng với khả năng thao tác trực tiếp trên bản đồ. Bên cạnh đó, vị trí giếng khoan cũng sẽ tương ứng với vị trí bắt gặp tầng sản phẩm 

6  Xây dựng công cụ dự báo sự thay đổi về hiệu suất olefin nhẹ (S) ở quy mô phòng thí nghiệm trên cơ sở các thông số thay đổi về nhiệt độ, tỷ lệ C/O và tỷ lệ nguyên liệu sử dụng với độ chính xác khoảng 80% (đoàn viên Lương Ngọc Thủy)   

Khi thay đổi các thông số về nhiệt độ, tỷ lệ C/O, tỷ lệ nguyên liệu sẽ ảnh hưởng đến cơ cấu sản phẩm của quá trình cracking. Trong khi đó, phần mềm bản quyền FCC-SIM mô phỏng cho FCCU có chi phí cao, tiêu tốn tài nguyên cài đặt và vận hành. Do đó, tác giả xây dựng mô hình dự báo sự thay đổi về hiệu suất olefin nhẹ (S) ở quy mô phòng thí nghiệm thử nghiệm ứng dụng Python để tạo các thuật toán từ những dữ liệu đầu vào, kiểm tra các giá trị dị thường, ứng dụng các biểu đồ: heat map/biểu đồ cột… để đánh giá mối tương quan của các cặp thông số. Thông qua kết quả thử nghiệm trên mô hình Linear, Polynomial, randomForest, tác giả đã chọn mô hình Linear với kết quả huấn luyện khoảng 87%, kết quả mô hình test khoảng 78% để xây dựng mô hình các thông số (nhiệt độ, AR, CTO…) ảnh hưởng đến olefin. 

Việc áp dụng giải pháp này sẽ tiết kiệm được thời gian và chi phí khi không phải thực hiện nhiều thí nghiệm, tiêu tốn nhiều vật tư/hóa chất bằng cách có thể kiểm tra trước kết quả bằng mô hình và chỉ cần chạy lại 1 vài điểm thí nghiệm để kiểm chứng. 

7  Rockphysics smart tool (đoàn viên Nguyễn Hùng Sơn) 

Rock Physics Template là một công cụ rất quan trọng trong lĩnh vực quản lý dầu khí và tìm kiếm khai thác. Nó được sử dụng để tính toán các tham số rock physics từ dữ liệu seismic và well log, giúp xác định chất lượng và tính đồng bộ của các khoáng vật dầu. Với dữ liệu input bao gồm các đường log thu được dưới giếng khoan, sản phẩm có các chức năng hiển thị trực quan các đường log, phân tích dữ liệu phục vụ cho kỹ sư địa vật lý. Từ dữ liệu input công cụ giúp kỹ sư địa vật lý xây dựng được mô hình rockphysics template, chức năng lựa chọn mô hình, lựa chọn tham số sau đó xuất ra đường log mô phỏng từ mô hình rockphysics giúp QC mô hình một cách dễ dàng 

8  Dashboard dữ liệu sản phẩm chủ lực Tập đoàn (đoàn viên Nguyễn Đức Khương Duy) 

Mô hình xác định danh mục sản phẩm chủ lực của Tập đoàn, mô tả những dữ liệu về thị trường, mức đầu tư và chi phí sản xuất sản phẩm,… từ những dữ liệu được thu thập từ những công ty tư vấn và các tổ chức chính phủ uy tín trên thế giới. Dữ liệu trong báo cáo định hướng được trình bày theo chiều dọc: thế giới-khu vực-Việt Nam, tạo điều kiện thuận lợi cho việc xác định thị trường mục tiêu cho các sản phẩm mới và cả sản phẩm hiện hữu, hiện tại và tương lai đến 2050. Từ đó, xây dựng mô hình dữ liệu thích hợp cho nền tảng Power BI, trình bày dưới dạng dashboard dễ tương tác và mang lại những góc nhìn tổng thể nhằm xác định tiềm năng và khả năng phát triển của sản phẩm trong tương lai, giúp cho việc đưa ra quyết định kinh doanh nhanh chóng và dễ dàng hơn.  

9  Xây dựng công cụ dùng để dự báo các marker bị mất tại các giếng khoan từ đó xây dựng bộ marker cho khu vực (đoàn viên Lê Minh Triết) 

Từ những vấn đề bất cập trong việc minh giải tài liệu giếng khoan do thiếu các marker từ nhiều nguyên nhân khác nhau, các bộ marker không có sự thống nhất chung giữa các lô, các bể và các nhà thầu. Qua đó, tác giả đã xây dựng công cụ để phục vụ cho quá trình minh giải tài liệu địa vật lý giếng khoan tốt hơn tại những giếng bị thiếu hoặc không có marker. Công cụ dự đoán dựa vào việc học máy từ những model xây dựng từ những bộ marker chuẩn theo đánh giá từ các chuyên gia. Qua những thuật toán Python và training model, công cụ sẽ được học và dự báo các marker bị thiếu tại các giếng lân cận với các giếng đã được học từ model. Với việc dự báo marker, công cụ sẽ giúp đỡ cho nhà minh giải địa vật lý giếng khoan xác định lại đúng các hệ tầng, các vỉa sản phẩm tùy theo mục đích. Dự báo marker bằng AI và ML sẽ là một sản phẩm cần thiết cho việc xây dựng một bộ marker chuẩn sau này. 

10  Công cụ xử lý dữ liệu sản phẩm xuất nhập khẩu hải quan với Power Query, PowerBI (đoàn viên Đỗ Hồng Hạnh) 

Nguồn dữ liệu thô của sản phẩm xuất nhập khẩu hải quan được lưu trữ dưới nhiều dữ liệu gốc với từng loại sản phẩm riêng, mặc dù có cùng quy trình xử lý song đang gây mất nhiều thời gian và nhân lực để xử lý, dữ liệu xử lý xong cần được tổng hợp lại, logic xử lý số liệu không thống nhất, có thể gây khó khăn khi bàn giao. 

Do đó, tác giả đã xây dựng sản phẩm dữ liệu bao gồm quy trình xử lý số liệu thống nhất và file xử lý số liệu, kết hợp Power Query để xử lý tất cả dữ liệu đầu vào của sản phẩm xuất nhập khẩu và visual trực quan với PowerBI. Sản phẩm hỗ trợ tăng tính minh bạch, dễ hiểu cho quy trình, cho phép xử lý nhiều dữ liệu thô, sản phẩm đầu vào, thống nhất logic xử lý dữ liệu, các bước xử lý được lưu lại, thuận tiện cho việc bàn giao nếu có. Trong thời gian tới, tác giả sẽ tiếp tục hoàn thiện sản phẩm theo dạng template, hướng đến đa dạng hoá xử lý dữ liệu nếu có dữ liệu mới phát sinh, chỉnh sửa hoàn thiện logic xử lý để ngắn gọn, tối ưu. 

11  Trực quan hóa dữ liệu phân tích mẫu lõi và thạch học (đoàn viên Phan Ngọc Quốc) 

Việc tổng hợp dữ liệu phân tích và mối liên hệ của mẫu lõi và thạch học của đá chứa rất quan trọng cho việc đánh giá chất lượng tầng chứa của các vỉa chứa dầu khí. Tuy nhiên, các báo cáo phân tích mẫu lõi và thạch học thường trình bày riêng lẻ, thiếu liên kết. Do đó, giải pháp của tác giả là xây dựng một nền tảng có thể tổng hợp các kết quả phân tích này một cách trực quan và có tính liên kết với nhau, được trình bày theo cấu trúc cơ sở dữ liệu (CSDL). Đồng thời, từ bộ CSDL này kết hợp với dữ liệu Địa vật lý giếng khoan có thể đưa ra các mô hình dự đoán các tính chất vật lý thạch học còn thiếu như: độ thấm, độ bão hòa nước…Việc kết hợp các sản phẩm dữ liệu sẽ tối ưu hóa bộ dữ liệu phân tích mẫu lõi, thạch học hiện này tại Viện Dầu Khí Việt Nam.