Acta Informatica Pragensia 2014, 3(1), 44-56 | DOI: 10.18267/j.aip.355226
CADAQUES: Metodika pro komplexní řízení kvality dat a informací
- Katedra informačního a znalostního inženýrství, Fakulta informatiky a statistiky, Vysoká škola ekonomická v Praze, nám. W. Churchilla 4, 130 67 Praha 3
Dnešní doba je charakteristická stále se zvětšujícím množstvím pořizovaných a zpracovávaných dat. Cílem tohoto článku je poukázat na různorodost současně používaných datových zdrojů, ukázat jejich specifika z pohledu řízení kvality a představit vlastní metodiku, která umožňuje řízení kvality dat a informací napříč těmito zdroji. Hlavní součástí této metodiky je sada základních principů a činností, které je možné univerzálně aplikovat. Jedním z klíčových doporučení této metodiky je zaměření se na relativně malou sadu vlastností dat, kterou lze efektivně řídit. Součástí metodiky je rovněž model zralosti datového zdroje, který slouží pro zhodnocení míry rizika spojené s použitím konkrétního zdroje.
Keywords: Datová kvalita, Big Data, zdroje dat, Data Governance, Linked Data, CADAQUES
CADAQUES: The Methodology for Complex Data and Information Management
The present time is characterized by an ever-increasing amount of acquired and processed data. The aim of this article is to highlight the diversity of currently used data sources, to show their specifics in terms of quality control and introduce own methodology that allows data and information quality management across these sources. The main component of this methodology is a set of basic principles and actions that can be universally applied. One of the key recommendations of this methodology is to focus on a relatively small set of data characteristics, which is relatively easy to manage. Part of the methodology is also a Data Source Maturity Model which could be used to assess the risk associated with the use of a particular data source.
Keywords: Data Quality, Big Data, Data sources, Data Governance, Linked Data, CADAQUES
Received: October 19, 2013; Revised: February 13, 2014; Accepted: March 1, 2014; Published: June 20, 2014 Show citation
References
- Batini, C., Scannapieco, M. (2006). Data Quality: Concepts, Methodologies and Techniques. Berlin: Springer-Verlag.
- Cox, L. (2013) Metadata: 96 Most Asked Questions - What You Need To Know. Emereo Publishing.
- Doucek, P., Novák, L., Nedomová L., Svatá, V. (2011). Řízení bezpečnosti informací. Příbram: Professional Publishing.
- Dyché, J., Levy, E. (2006). Customer data integration: Reaching a Single Version of the Truth. New Jersey: Wiley & Sons.
- English, L. P. (1999). Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits. New Jersey: Wiley & Sons.
- Howard, P. (2008). The importance of a common data model. IT-Director.com. Retrieved from http://www.it-director.com/technology/applications/content.php?cid=10292.
- Hyland, H., Elliott, L. (2008). No Data Left Behind: Federal Student Aid A Case History. Retrieved from http://www.dama-ncr.org/Library/2008-03-11NoDataLeftBehind.ppt.
- Chappell, D. A. (2004). Enterprise Service Bus. Sebastopol: O'Reilly.
- Chaudhuri, S., Ganjam, K., Ganti, V., Motwani, R. (2003). Robust and Efficient Fuzzy Match for Online Data Cleaning. In: SIGMOD 2003. CA: San Diego.
Go to original source...
- Juran, J.M., Godfrey, A.B. (2010). Juran's Quality Handbook: The Complete Guide to Performance Excellence. New York: McGraw-Hill.
- King, E.J., Kutyniok, G., Lim, W. (2013). Image inpainting: Theoretical analysis and comparison of algorithms. In Wavelets and Sparsity XV: Proceedings of SPIE - The International Society for Optical Engineering 2013.
Go to original source...
- Král, J., Žemlička, M. (2006) Kvalita dat a informací - základní omezení IT ve veřejné správě. In Pour, J., Voříšek, J (Eds.) Systems Integration 2006 (pp. 215-222). Prague: University of Economics.
- Ladley, J. (2012). Data Governance: How to design, deploy and sustain an effective Data Governance program. Waltham: Morgan Kaufmann.
- Lee, Y. W., Pipino, L. L., Funk, J. D., Wang, R. Y. (2006). Journey to Data Quality. MA: MIT Press.
- Marwala, T. (2009). Computational Intelligence for Missing Data Imputation, Estimation, and Management: Knowledge Optimization Techniques. Hershey: Information Science Reference.
- McGilvray, D. (2008). Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information. Burlington: Morgan Kaufmann.
Go to original source...
- MediaBistro. (2010). Quality Indicators for Linked Data Datasets. Semanticweb.com. Retrieved from http://answers.semanticweb.com/questions/1072/quality-indicators-for-linked-data-datasets.
- Metadata Working Group. (2010). Guidelines for Handling Metadata. Retrieved from http://www.metadataworkinggroup.org/pdf/mwg_guidance.pdf.
- Olson, J. E. (2003). Data Quality: The Accuracy Dimension. Waltham: Morgan Kaufmann.
- Pejčoch, D. (2011). Vztah řízení dat k ostatním oblastem řízení informatiky. In Sborník prací účastníků vědeckého semináře doktorandského studia Fakulty informatiky a statistiky VŠE v Praze (pp. 3-13). Praha: Oeconomica.
- Pejčoch, D. (2012). Audit datové kvality podle IT Assurance Guide: Using COBIT - 3. díl. In Data Quality CZ. Retrieved from http://www.dataquality.cz/index.php?ID=5&ArtID=13&clanek=201203_DQA_IT_Assurance_Guide_3dil.
- Pipino, L., Lee, Y. W., Wang, R.Y. (2002). Data quality assessment. Communications of the ACM. 45(4), 211-218.
Go to original source...
- Redman, T. (2001). Data Quality: The Field Guide. Boston: Butterworth-Heinemann.
- SAS Institute. (2008). SAS Data Quality Server 9.2: Reference. Cary, NC: SAS Institute Inc.
- SDM. (2005). Definice pojmu data quality. Techtarget.com Retrieved from http://searchdatamanagement.techtarget.com/definition/data-quality.
- Soares, S. (2012). Big Data Governance: An Emerging Imperative. Boise: McPress.
- Strong, D.M., Lee, Y.W., Wang, R.Y. (1997). Data quality in context. Communications of the ACM. 40(5), 103-110.
Go to original source...
- Štumpf, J., Džmuráň, M. (2008). Datová integrace prostřednictvím společného datového modelu. In Proceedings of the 16th International Conference on Systems Integration. Praha: CSSI.
- Talend. (2013). Analyst Report: Magic Quadrant for Data Quality Tools. Talend.com Retrieved from https://info.talend.com/dataqualitytools.html.
- Voříšek J. a kol. (2008). Principy a modely řízení podnikové informatiky. Praha: Oeconomica.
- Wang, R.Y., Strong, D.M., Guarascio, L.M. (1996). Beyond Accuracy: What data quality means to data consumers. Journal of Management Systems. 12(4), 5-34.
Go to original source...
- Zaveri, A., Rula, A., Maurino, A. Pietrobon, R., Lehmann, J., Auer, S. (2012) Quality Assessment Methodologies for Linked Open Data. Semantic-web-journal.net. Retrieved from http://www.semantic-web-journal.net/content/quality-assessment-methodologies-linked-open-data.
This is an open access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC BY 4.0), which permits use, distribution, and reproduction in any medium, provided the original publication is properly cited. No use, distribution or reproduction is permitted which does not comply with these terms.