Wednesday, February 7, 2007

Reducing Information Redundancy with Principal Components Analysis

:-) Thank you to the University of Kansas, the Hexacoral project at for the use of the beautiful animated GIF which is a visualization of Principle Component Analysis . I copied it and I hope they don't mind. This animation shows how 12 clusters of data [the different colors] are reduced to 3 Principle Components. [the 3 orthogonal vectors (perpendicular to each other)] To see the animation, click on it to view it in a new window.

In a world where so much information is available, we must learn to manage information overload. When we have several data feed on the same subject, chances are that much of the information overlaps i.e. is redundant. Overlap, meaning that mathematically speaking, if you could and did draw circles representing the true information content of the each data set, the circles would overlap. This is important when we are trying to use the data to model some aspect of the real world.
For example, if we are trying to analyze and build a model of some aspect of the U.S. economy, and we look at the dozens of Economic Indicators churned out regularly by the various government agencies, by academic bodies and policy think-tanks as possible input into the model. If you arrange all the data as a matrix with columns for the variables, and rows for time period [i.e. each is a time series], and if you then calculate correlation between all the variables, you will find that there is a strong degree of correlation among all the variables in the covariance matrix. That means that much of the information content is redundant because it overlaps.
We can reduce the information load without losing much information content, if we can take away the area of overlap, leaving only the essential information. One of the techniques for doing this is Principal Components Analysis. "PCA is, at its essence, a rotation and scaling of a data set. The rotation is selected so that the axes are aligned with the directions of greatest variation in the data set. The scaling is selected so that distances along each axis are comparable in a statistical sense. Rotation and scaling are linear operations, so the PCA transformation maintains all linear relationships. It is designed to capture the variance in a dataset in terms of principle components. In effect, one is trying to reduce the dimensionality of the data to summarise the most important (i.e. defining) parts whilst simultaneously filtering out noise.
The rotation and scaling for PCA are given by the eigenvectors and eigenvalues of the covariance matrix. The covariance matrix contains the relationships (correlations) between the variables in the data set. One way to think about PCA is that it generates a set of directions, or vectors in the data space. The first vector shows you the direction of greatest variation in the data set; the second vector shows the next direction of greatest variation, and so on. The amount of variation represented by each subsequent vector decreases monotonically". **<---
Since I cannot articulate on PCA well without resort to mathematical equations [which this blog is not capable of producing], I took this description from Kansas University where they are using it to do a study on Hexacorals [Coral, Sea Anemones and their allies] to interface geospatial, taxonomic and environmental data on these creatures. PCA is well-suited for such a study as the data is from very diverse sources.

Here are some U.S. Economic Indicators in various categories.
Employment Rate
Non-Fram Payroll
Average Hourly Earnings
Labor Productivity
Employment Cost Index
Disposable Personal Income
Per Capita Income
Household Income
Household Wealth
Balance On Current Account
International Trade in Goods and Services
R&D Expenditures As Percentage of GDP
Net Oil Imports
Aggregate Money Supply
Bank Deposits
Interest Rates and Bond Yields
Aggergate Reserves
Consumer Index
Producer Price Index
Gross Domestic Product
Crude Oil Prices
Farm Prices
Housing Starts Building Permits
Durable Goods Manufacturer's Shipments, Inventory
Industrial Production
Capacity Utilization
Advance Order On Durable Goods
Monthly Sales Retail Services

Intuitively we know that there is a lot of information overlap between each data set as well as between data categories. In a Complex Adaptive System like the Economy, almost everything interacts with almost everything, in a non-linear, non-sequential way with feedback loops and exponential effects. Doing a Principle Components Analysis on this set of Economic Indicators will reduce it to a few Principle Components that explain the variance in 99% of the data. It should however be remembered that such a diverse set of Indicators from Employment, Income, Money, Output, Trade, Production will inevitably be presented in widely different formats. This will tempt us to pre-process the data to scale and normalize it for easier calculation of the PCA. However in PCA, pre-processing may take away some of the real information in the data sets, even before it is fed into the PCA alogorithm. Another problem with PCA especially for financial data is that PCA linearizes everything, which is a bad thing in an essentially non-linear world. In effect with PCA, we are forcing the data into fixed areas of the multidimensional data space and losing some information in the process. Therefore some hedge funds use Wavelets, although here we also have the problem of identifying the appropriate type of Wavelet to use. Lastly, although I am out of touch with the latest techniques for PCA, I believe there are generalized PCA algorithms which deal with the problem of linearity.

In Finance, PCA or any other dimension reduction and clustering method can be use to identify the extreme tails of the probability distribution in financial markets data, where the big money is to be made.

1 comment:

  1. Tìm hiểu các xu hướng trong thiết kế bao bì

    Việc sở hữu cho sản phẩm của công ty mình những mẫu bao bì sản phẩm luôn được các công ty quan tâm tói.Cho nên theo thời gian thì mỗi mẫu ma bao bì luôn có sự thay đổi nhằm đáp ứng thu hút được khách hàng với sản phẩm.Cho nên dịch vụ thiết kế bao bì chuyên nghiệp ra đòi nhằm tạo ra và luôn luôn update những mẫu bao bì mới nhất theo xu hướng thị trường bên ngoài.
    Để tìm hiểu rõ hơn những 5 xu hướng nổi bật sẽ hứa hẹn làm mưa làm gió trong năm 2016 ở chính khả năng kết nối và tương tác nổi bật trong thiết kế hãy cùng memilus theo dõi ngay bài viết dưới đây. Chắc chắn đây sẽ là những xu hướng tuyệt vời để bạn tham khảo và bắt đầu cho một năm sáng tạo đầy bất ngờ và thú vị.
    1. Tối giản trong các thương hiệu cao cấp
    Xu hướng thiết kế tối giản đang ngày càng phát triển và được ứng dụng rộng rãi trong các thiết kế có tính thương mại. Năm 2015 là năm mà sự tối giản trong thiết kế rất được ưa chuộng và lên ngôi trong mọi linh vực thiết kế từ bìa sách, web hay áp phích quảng cáo... Nhất là thông qua cuốn sách nghệ thuật đang rất được bán chạy của tác giả Marie Kondo có tên Tiếng Anh là The Life-Changing Magic of Tidying Up. Mọi người dường như thấy được sự tối giản trong nghệ thuật là rất cần thiết và làm tăng sự tinh tế hơn cho các thiết kế, sự đơn giản thường trường tồn với thời gian hơn là so với những thiết kế quá cầu kỳ bởi nó khiến mọi thứ trở nên đơn giản và sạch sẽ hơn về thẩm mỹ. Nổi bật nhất có thể kể đến thiết kế bao bì chiếc ly màu đỏ của Starbucks vô cùng tinh tế và hiện đại, hơn nữa lại không kém phần nổi bật và rất thích hợp với chủ đề - đây có thể coi là ví dụ nổi tiếng nhất của thiết kế tối giản trong năm 2015 vừa qua.
    >.>Bạn có thể tham khảo thêm một số mẫu thiết kế báo cáo thường niên chuyên nghiệp do công ty memilus thiết kế. Được nhiều khách hàng tin dùng và chọn lựa.
    Nhìn lướt qua kẹo trong cửa hàng rau quả lối đi, và bạn có thể nhìn thấy thanh Snickers dán nhãn "điên rồ" hoặc "kích thích". Các chiến quảng cáo của họ còn thú vị đến mức, trên các phương tiện trực tuyến họ cho phép mọi người chọn phiên bản của mình về cách họ phản ứng khi đang đói.
    Thiết kế bao bì tương tác có khả năng sẽ tiếp tục phát triển trong những năm tới. Một vài công ty đã tạo ra những vận động tương tác khá trục trặc và có phần sai hướng (Như một vài mục gây ra sự lúng túng trong chiến dịch tương tác cá nhân của Nutella), và việc tìm kiếm những cách thức mới để tiếp cận với cá nhân các khách hàng vẫn là điều cần phải thay đổi nhiều trong thời gian tới. Về mặt thiết kế, điều này có nghĩa là nhiều tên hay khẩu hiệu chiến dịch với các lời mời để chia sẻ trên phương tiện truyền thông xã hội sẽ ngày một quan trọng và sẽ xuất hiện ngày một nhiều hơn. Doanh nghiệp có thể tìm kiếm logo năng động hơn để khách hàng có thể lựa chọn và tạo ra sự tương tác linh hoạt nhất.
    Nếu có nhu cầu hãy liên hệ ngay với chúng tôi để được tư vấn và chọn phương án thiết kế tốt nhất. Chúng chuyên nhận thiết kế nhận diện thương hiệu cho công ty hay cá nhân với đội ngũ nhân viên tốt nhất nhiều năm kinh nghiệm trong lĩnh vực. Không những thế chúng tôi còn nhận thiết kế logo công ty chuyên nghiệp đối với công ty doanh nghiệp hay cửa hàng. Chúng tôi hy vọng được hợp tác với khách hàng và sẽ đem đến những thông tin và sản phẩm tốt nhất đến quý khách.