1000部丰满熟女富婆视频,托着奶头喂男人吃奶,厨房挺进朋友人妻,成 人 免费 黄 色 网站无毒下载

首頁(yè) > 文章中心 > 數(shù)據(jù)類型

數(shù)據(jù)類型

前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)類型范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。

數(shù)據(jù)類型范文第1篇

變體型是一種特殊的數(shù)據(jù)類型,除了定長(zhǎng)字符串?dāng)?shù)據(jù)及用戶定義類型外,可以包含任何種類的數(shù)據(jù)。變體型數(shù)據(jù),是一種可變的數(shù)據(jù)類型,它能夠表示所有系統(tǒng)定義類型的數(shù)據(jù)。變體型變量可以在程序執(zhí)行期間存放不同類型的數(shù)據(jù),VB會(huì)自動(dòng)完成任何必要的轉(zhuǎn)換。

VB的基本數(shù)據(jù)類型有:數(shù)值型數(shù)據(jù)、日期型、字節(jié)型、貨幣型、邏輯型、字符串型、對(duì)象型、變體型。

(來(lái)源:文章屋網(wǎng) )

數(shù)據(jù)類型范文第2篇

關(guān)鍵詞:C語(yǔ)言教材;格式轉(zhuǎn)換;printf()函數(shù);指針

How to print a pointer properly

HUANG Ying

(School of Computer and Software Engineering, Nanjing Institute of Industry Technology, Nanjing, Jiangsu, 210046)

Abstract:We discussed the output issue of the pointer type data in C Language.According to the national standard , we pointed out errors of the pointer output commonly existing in the textbooks about the C language programming.And we elucidated the proper method of the point output.

Key words:the textbooks of the C language;conversion specifacation;printf() function;pointer

1 引言

指針是C語(yǔ)言中的一種數(shù)據(jù)類型。國(guó)內(nèi)許多C語(yǔ)言教材在講解這種類型數(shù)據(jù)的輸出時(shí),都存在著若干錯(cuò)誤。例如,[4]第248頁(yè):

int a[3][4]={1,3,5,7,9,11,13,15,17,19,21,23};

printf("%d,%d\n",a,*a);

這里,作者用了“%d”格式轉(zhuǎn)換輸出a和*a這兩個(gè)指針類型表達(dá)式的值。

實(shí)際上,這種做法是錯(cuò)誤的。但是由于這種錯(cuò)誤相對(duì)于代碼語(yǔ)法錯(cuò)誤來(lái)說(shuō)不是那么直截了當(dāng)而是比較隱晦,所以往往容易被視而不見(jiàn),甚至被誤以為是正確的寫(xiě)法。

2 為什么用“%d”輸出指針是錯(cuò)誤的

除了使用“%d”這種錯(cuò)誤的格式輸出指針類型數(shù)據(jù),使用“%o”、 “%x”(或“%X”)及“%u”等幾種錯(cuò)誤轉(zhuǎn)換格式的情況也很常見(jiàn)。例如,[4]第224頁(yè):

printf("%o",p);

作者認(rèn)為這條語(yǔ)句的“作用是以八進(jìn)制形式輸出指針變量p的值”。

由于這幾種錯(cuò)誤的性質(zhì)類似,所以這里也一并討論。

首先,根據(jù)[1]、[2]、[3],“%d”這種格式只用于輸出int類型的數(shù)據(jù),輸出的結(jié)果為十進(jìn)制整數(shù)形式的字符序列――“[-]dd…d”,因此,在一定條件下將輸出一個(gè)負(fù)的十進(jìn)制整數(shù)。僅此一點(diǎn)就足以斷定用“%d”格式輸出指針是錯(cuò)誤的。因?yàn)橹羔様?shù)據(jù)類型并不等同于int數(shù)據(jù)類型;指針數(shù)據(jù)類型的值表示地址,然而地址不可能是負(fù)值。

既然地址不可能是負(fù)值,而“%o”、“%x”(或“%X”)、“%u”這幾種格式的輸出結(jié)果都不是負(fù)值,那么用這幾種格式輸出指針類型的值是否可以呢?同樣不可以。

根據(jù)[2]、[3],“%o”、“%x”(或“%X”)、“%u”這三種格式都只用于輸出unsigned類型的數(shù)據(jù)。unsigned數(shù)據(jù)類型和指針數(shù)據(jù)類型是截然不同的數(shù)據(jù)類型。C語(yǔ)言并沒(méi)有規(guī)定指針類型數(shù)據(jù)的內(nèi)部表示應(yīng)該和unsigned類型一致,甚至沒(méi)有規(guī)定這兩種類型數(shù)據(jù)在機(jī)器內(nèi)部應(yīng)該如何表示,而且這兩種數(shù)據(jù)的尺寸也未必相同。事實(shí)上,C語(yǔ)言自C89開(kāi)始,就要求編譯器應(yīng)提供“stddef.h”并在其中提供“ptrdiff_t”類型的定義。“ptrdiff_t”類型這種類型是兩個(gè)指針做減法運(yùn)算得到的結(jié)果的類型,這間接地說(shuō)明了指針數(shù)據(jù)類型并不必然等同于整數(shù)類型的尺寸。因此使用“%o”、 “%x”(或“%X”)及“%u”輸出指針毫無(wú)依據(jù)可言,因而是錯(cuò)誤的用法。

[3](§7.19.6.1,p280)為此特意指出,“If any argument is not the correct type for the corresponding conversion specification, the behavior is undefined.”。這表明使用“%d”、“%o”、“%x”(或“%X”)、“%u”輸出指針數(shù)據(jù)是一種未定義行為(undefined behavior)。未定義行為本質(zhì)上就是程序的一種錯(cuò)誤。因?yàn)榫幾g器此時(shí)有任意的處理方式,都不違背語(yǔ)言標(biāo)準(zhǔn)。從代碼的角度來(lái)說(shuō),使用“%d”、“%o”、“%x”(或“%X”)、“%u”都是沒(méi)有明確意義的代碼,沒(méi)有明確意義的代碼當(dāng)然是錯(cuò)誤的代碼。

許多使用“%d”、“%o”、 “%x”(或“%X”)及“%u”這幾種格式輸出指針的人往往有一個(gè)誤區(qū),這個(gè)誤區(qū)來(lái)自于經(jīng)驗(yàn),那就是使用這種格式輸出指針并沒(méi)有出現(xiàn)錯(cuò)誤,因而他們認(rèn)為可以使用這些格式輸出指針。

然而,這種想法是根本站不住腳的。仔細(xì)推敲一下就不難發(fā)現(xiàn),這種推理的基礎(chǔ)是基于使用個(gè)別編譯器的經(jīng)驗(yàn)而已。個(gè)別編譯器當(dāng)然不代表所有編譯器。這個(gè)道理就如同在某個(gè)編譯器上int類型的尺寸是2B,但絕不能說(shuō)C語(yǔ)言的int數(shù)據(jù)類型的大小就是2B一樣。

因此,在個(gè)別編譯器上,指針尺寸的大小和表示方法可能確實(shí)與某種整數(shù)類型相同,但這絕不能說(shuō)明在所有的編譯器上指針的大小和表示方法都和某種整數(shù)類型相同。

如果考察的范圍廣些,不難發(fā)現(xiàn),指針就其一般而言,和整數(shù)類型大小不同的例子很多。在這種情況下,[4]第248頁(yè)中的程序就會(huì)產(chǎn)生錯(cuò)誤。例如,在針對(duì)DOS操作系統(tǒng)的編譯器MSC 6和TC在以大內(nèi)存模式編譯時(shí),這段程序就會(huì)得到錯(cuò)誤的行為;此外,在不少64位機(jī)器環(huán)境下的編譯器中,以“%d”、“%o”、 “%x”(或“%X”)及“%u”這幾種格式輸出指針類型的值也顯然會(huì)發(fā)生錯(cuò)誤。原因就在于,錯(cuò)誤地假設(shè)了整數(shù)類型與指針類型具有相同的表示和尺寸。

3輸出指針正確的轉(zhuǎn)換說(shuō)明

由于由于在各種不同環(huán)境下,指針的尺寸未必和任何整數(shù)類型相同,因?yàn)閷?shí)現(xiàn)可能支持多種尺寸的指針。所以無(wú)論是K&R的經(jīng)典名著[1],還是國(guó)家標(biāo)準(zhǔn)C90[2],以至于目前最新的國(guó)際標(biāo)準(zhǔn)C99[3],都明確指出調(diào)用格式化函數(shù)(如printf()、fprintf()等)輸出指針類型數(shù)據(jù)的值應(yīng)該使用轉(zhuǎn)換說(shuō)明符p,此時(shí),對(duì)應(yīng)的“實(shí)參應(yīng)為指向void的指針。該指針的值將以實(shí)現(xiàn)定義的方式轉(zhuǎn)換為一系列可印刷字符”。具體的輸出的結(jié)果顯然和具體實(shí)現(xiàn)有關(guān)。

雖然格式化輸出函數(shù)只能輸出void *類型的指針,但由于printf()函數(shù)的函數(shù)原型為:

int printf ( const char* , ... ) ;

C語(yǔ)言規(guī)定,與“...”部分相對(duì)應(yīng)的指針類型的實(shí)參,在調(diào)用時(shí)都將被按照隱式類型轉(zhuǎn)換的規(guī)則一律轉(zhuǎn)換為“void *”類型的指針,因此,%p這種轉(zhuǎn)換輸出格式實(shí)際上同樣適合于輸出其他類型指針的值。

由此,不難得出結(jié)論,調(diào)用printf()函數(shù)輸出指針類型的值,應(yīng)該使用%p格式轉(zhuǎn)換聲明。所以,[4]第248頁(yè)的代碼,正確的寫(xiě)法分別應(yīng)該是:

printf("%p,%p\n",a,*a);

當(dāng)然,由于輸出的結(jié)果是“實(shí)現(xiàn)定義的”,所以在不同的實(shí)現(xiàn)中的輸出結(jié)果的形式可能并不相同。

4 結(jié)束語(yǔ)

根據(jù)前面的分析和討論,可以得到如下的結(jié)論:

1. 指針數(shù)據(jù)類型并不等同于任何整數(shù)類型。

2. 用“%d”、“%o”、 “%x”(或“%X”)及“%u”這幾種格式輸出指針類型的值是錯(cuò)誤的未定義行為。

3. 應(yīng)該用“%p”轉(zhuǎn)換格式輸出指針類型數(shù)據(jù)的值。

本文指出的錯(cuò)誤并非是今天才出現(xiàn)的,事實(shí)上二十年時(shí)間前出版的C語(yǔ)言教材[5]就已經(jīng)存在這兩種錯(cuò)誤。作為教材,應(yīng)該遵循標(biāo)準(zhǔn),教給學(xué)生具有一般性的通用性的知識(shí)。然而,近二十年間這個(gè)錯(cuò)誤竟然沒(méi)有得到改正,這是非常令人震驚的事情。在此期間,不少以[4]、[5]為參考編寫(xiě)的C語(yǔ)言教材或書(shū)籍中同樣也存在類似的錯(cuò)誤,可見(jiàn)這兩個(gè)錯(cuò)誤的影響之廣泛及深遠(yuǎn)。

為此本文正式指出這個(gè)錯(cuò)誤并予以更正,希望這個(gè)錯(cuò)誤不至于再以訛傳訛地流傳下去。

參考文獻(xiàn):

[1]. Brian W.Kernighan, Dennis M.Ritchie. C程序設(shè)計(jì)語(yǔ)言.清華大學(xué)出版社,1998

[2]. 國(guó)家技術(shù)監(jiān)督局,GB/T 15272-94 程序設(shè)計(jì)語(yǔ)言C,1994

[3]. International Organization for Standardization,ISO/IEC 9899:1999.[ISO]

數(shù)據(jù)類型范文第3篇

關(guān)鍵詞: ; SQL Server; 二進(jìn)制; 上傳與讀取

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2013)03-29-03

0 引言

在開(kāi)發(fā)系統(tǒng)軟件過(guò)程中,經(jīng)常會(huì)遇到需要存儲(chǔ)各種類型的數(shù)據(jù),如不同類型的文檔、圖片、音頻數(shù)據(jù)等。我們通常采用兩種方法來(lái)存儲(chǔ)這些不同類型數(shù)據(jù):把文件保存在服務(wù)器的文件系統(tǒng)中,而把文件名保存在數(shù)據(jù)庫(kù)字段中;或直接保存在數(shù)據(jù)庫(kù)的字段中。

如果把文件保存在服務(wù)器的文件系統(tǒng)中,而把文件名保存在數(shù)據(jù)庫(kù)字段中,這種方法比較簡(jiǎn)單;如果把文件名保存在數(shù)據(jù)庫(kù)中則會(huì)需要編寫(xiě)更多的代碼,這種方法修改數(shù)據(jù)不需要與數(shù)據(jù)庫(kù)打交道,可以直接更改文件。由于后者并沒(méi)有真正把數(shù)據(jù)保存在數(shù)據(jù)庫(kù)中字段中,使用中則會(huì)遇到很多問(wèn)題:有悖于數(shù)據(jù)的完整性規(guī)則,直接保存在硬盤上的文件容易被誤操作而刪除;另外,使用文件系統(tǒng),一旦操作系統(tǒng)被非法用戶訪問(wèn)就會(huì)不要授權(quán)而直接訪問(wèn)數(shù)據(jù)文件。如果把數(shù)據(jù)保存在數(shù)據(jù)庫(kù)中,通常對(duì)數(shù)據(jù)庫(kù)的安全性要求較高,對(duì)數(shù)據(jù)的訪問(wèn)和修改需要授權(quán)。

我們采用將數(shù)據(jù)保存在數(shù)據(jù)庫(kù)的字段中的方法。所采用的數(shù)據(jù)庫(kù)為SQL Server2000。SQL Server2000數(shù)據(jù)庫(kù)供了一種image的數(shù)據(jù)類型,可以用來(lái)存放大容量類型數(shù)據(jù),最大容量為2GB,能夠存放大量的不同類型數(shù)據(jù)。開(kāi)發(fā)平臺(tái)為2005,開(kāi)發(fā)工具使用,編程語(yǔ)言采用C#語(yǔ)言。本文介紹了基于和SQL Server2000情況下將數(shù)據(jù)直接存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi)的不同類型文件的上傳和讀取的具體實(shí)現(xiàn)過(guò)程。

1 數(shù)據(jù)庫(kù)設(shè)計(jì)

1.1 數(shù)據(jù)庫(kù)序列對(duì)象

為了實(shí)現(xiàn)ID的自動(dòng)增加,建立數(shù)據(jù)庫(kù)序列對(duì)象如下:

標(biāo)識(shí):是

標(biāo)識(shí)種子:1

標(biāo)識(shí)遞增量:1

1.2 表的設(shè)計(jì)

數(shù)據(jù)表的設(shè)計(jì)如表1所示。

2 文件的上傳

2.1 上傳界面

上傳界面如圖1所示。

2.2 文件的上傳

4 結(jié)束語(yǔ)

當(dāng)開(kāi)發(fā)系統(tǒng)軟件需要上傳和讀取二進(jìn)制數(shù)據(jù)時(shí),我們需要考慮采用何種方法保存數(shù)據(jù)。如果我們把文件存儲(chǔ)在數(shù)據(jù)庫(kù)中,那么就需要懂得更多的數(shù)據(jù)知識(shí)。在本文中,我們分析了基于和SQL Server 2000情況下將不同類型數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中,以及如何對(duì)其進(jìn)行讀取。

參考文獻(xiàn):

[1] 曹錳.C#與程序設(shè)計(jì)[M].西安交通大學(xué)出版社,2005.

[2] 歐立奇.Visual C#.NET案例開(kāi)發(fā)集錦[M].電子工業(yè)出版社,2005.

[3] 童愛(ài)紅.Visual C#.NET應(yīng)用教程[M].清華大學(xué)出版社,2004.

數(shù)據(jù)類型范文第4篇

數(shù)據(jù)挖掘 數(shù)據(jù)解析 網(wǎng)絡(luò)業(yè)務(wù)類型劃分 聚類算法

1 引言

21世紀(jì)信息和通信技術(shù)高速發(fā)展,技術(shù)的進(jìn)步給人們的日常生活帶來(lái)了諸多便利。通訊是社會(huì)交往中的重要紐帶,推動(dòng)著數(shù)字信息的發(fā)展。通信行業(yè)的大數(shù)據(jù)應(yīng)用,能夠優(yōu)化移動(dòng)通信網(wǎng)絡(luò),開(kāi)拓更豐富的服務(wù)業(yè)務(wù),為移動(dòng)用戶提供更精準(zhǔn)、更便捷的服務(wù)。

Gn數(shù)據(jù)是Gn口原始碼流解析得到的數(shù)據(jù),主要反映用戶使用各類數(shù)據(jù)業(yè)務(wù)的詳細(xì)情況。在傳統(tǒng)的Gn數(shù)據(jù)解析過(guò)程中,流量類型里“未識(shí)別TCP流量業(yè)務(wù)”、“未識(shí)別UDP流量業(yè)務(wù)”和“DNS解析流量業(yè)務(wù)”等類型均被劃為未知服務(wù)。這樣的計(jì)算模型會(huì)導(dǎo)致解析結(jié)果里未知服務(wù)的占比很高。

本文針對(duì)原始Gn數(shù)據(jù),提出了一種新的網(wǎng)絡(luò)業(yè)務(wù)分類方法:利用大數(shù)據(jù)并行計(jì)算模式解析DNS業(yè)務(wù)里的URL,解析結(jié)果通過(guò)挖掘算法(基于密度的聚類算法)模型處理,以確立新的網(wǎng)絡(luò)業(yè)務(wù)類型。

2 技術(shù)介紹

2.1 大數(shù)據(jù)處理步驟

大數(shù)據(jù)的飛速發(fā)展已經(jīng)影響到了各行各業(yè),其中信息、互聯(lián)網(wǎng)和通信行業(yè)受到的影響最大。大數(shù)據(jù)的到來(lái)恰逢通信行業(yè)的轉(zhuǎn)型過(guò)渡階段,給這個(gè)行業(yè)注入了新鮮的血液。

大數(shù)據(jù)處理方法通常為四步,分別是原始數(shù)據(jù)的采集、數(shù)據(jù)導(dǎo)入和預(yù)處理、數(shù)據(jù)的統(tǒng)計(jì)和分析以及數(shù)據(jù)挖掘。下面將按照這四個(gè)步驟的順序進(jìn)行闡述。

(1)數(shù)據(jù)采集

數(shù)據(jù)的采集階段是指用數(shù)據(jù)庫(kù)來(lái)接收以Web、App等形式傳送的數(shù)據(jù),在大數(shù)據(jù)的采集過(guò)程中,最主要的問(wèn)題是處理高并發(fā)數(shù),同一時(shí)間c可能會(huì)有上萬(wàn)條申請(qǐng)操作。而采集階段通常采用的優(yōu)化方式是在這些數(shù)據(jù)庫(kù)之間進(jìn)行分時(shí)分片管理和負(fù)載均衡。

(2)數(shù)據(jù)導(dǎo)入和預(yù)處理

數(shù)據(jù)導(dǎo)入指的是將原始數(shù)據(jù)導(dǎo)入到分布式存儲(chǔ)集群,并且在導(dǎo)入過(guò)程中,對(duì)數(shù)據(jù)做去除噪聲點(diǎn)、篩選特定條件等清洗工作。導(dǎo)入和預(yù)處理過(guò)程中面臨的主要效率瓶頸是網(wǎng)絡(luò)帶寬和磁盤IO。

(3)數(shù)據(jù)統(tǒng)計(jì)和分析

大數(shù)據(jù)場(chǎng)景下的統(tǒng)計(jì)與分析主要通過(guò)分布式計(jì)算集群來(lái)對(duì)數(shù)據(jù)進(jìn)行分析和分類匯總等,在這一階段,最常用的兩個(gè)計(jì)算框架是Hadoop和Spark。統(tǒng)計(jì)與分析遇到的主要問(wèn)題是,分析時(shí)所涉及的數(shù)據(jù)量通常很大,其對(duì)系統(tǒng)資源會(huì)造成極大的占用。

(4)數(shù)據(jù)挖掘

數(shù)據(jù)挖掘階段是一個(gè)知識(shí)發(fā)現(xiàn)的過(guò)程,一般沒(méi)有預(yù)先設(shè)定好的主題。比較典型的算法有用于聚類分析的K-means算法、用于統(tǒng)計(jì)學(xué)習(xí)的SVM算法和用于分類的Na?ve-Bayes算法。該過(guò)程的特點(diǎn)主要是用于挖掘的算法一般比較復(fù)雜,考慮到系統(tǒng)資源的開(kāi)銷,需要選擇合適的計(jì)算框架。

2.2 基于聚點(diǎn)密度和距離的高效聚類算法

把一個(gè)數(shù)據(jù)集分割成不同的類或簇,使得同簇內(nèi)數(shù)據(jù)對(duì)象的相似性盡可能大,不同簇中數(shù)據(jù)對(duì)象的差異性也盡可能地大,通常采用聚類算法。從傳統(tǒng)的聚類分析方法來(lái)看,在進(jìn)行聚類之前都需要先確定要聚類的類別數(shù)目,然而在現(xiàn)實(shí)運(yùn)營(yíng)數(shù)據(jù)的分析過(guò)程中,聚類的類別結(jié)果通常是未知的,一般要經(jīng)過(guò)多次實(shí)驗(yàn)來(lái)獲得相對(duì)合適的聚類數(shù)目。考慮到本文中要分析的數(shù)據(jù)是多維度的結(jié)構(gòu)化數(shù)據(jù),且聚類結(jié)果不需要人工干預(yù),可以參考Alex Rodriguez和Alessandro Laio提出的新的聚類算法,下面對(duì)此聚類算法做簡(jiǎn)要介紹。

該算法假設(shè)所確定的類簇中心點(diǎn)是由一些局部密度相對(duì)其較低的點(diǎn)所環(huán)繞,并且這些點(diǎn)與其他高局部密度點(diǎn)(其他類簇中心點(diǎn))的距離都比較大。首先定義兩個(gè)值:局部密度ρi以及到其他高局部密度點(diǎn)的距離δi。

ρi=Σj X(dij-dc) `(1)

(2)

公式中dc是一個(gè)臨界變量值,是一個(gè)預(yù)先設(shè)定的參數(shù)。從公式(1)和(2)可以得出,ρi相當(dāng)于和點(diǎn)i的距離差值小于dc的點(diǎn)的個(gè)數(shù)。由于該算法只對(duì)ρi的相對(duì)值敏感,所以面對(duì)大數(shù)據(jù)量時(shí),為了算法的健壯性,對(duì)dc的選擇最好使得平均每個(gè)點(diǎn)的鄰居數(shù)為所有點(diǎn)數(shù)量的1%~2%。

δi=minj:ρj>ρi (dij) (3)

根據(jù)公式(3),δi用來(lái)表示點(diǎn)i和點(diǎn)j直接的距離,其中ρj>ρi。對(duì)于ρ值最大的點(diǎn),設(shè)置其δi=maxj (dij)。

局部密度ρi和據(jù)其他中心點(diǎn)距離δi的值均很大的點(diǎn)被認(rèn)為是類簇的中心。局部密度較小但是δi較大的點(diǎn)則是異常點(diǎn)。在確定了類簇中心之后,非中心點(diǎn)屬于其距離最近的類簇中心所代表的類簇。

圖1是以ρ為橫坐標(biāo)、以δ為縱坐標(biāo)的決策圖。可以看到,1號(hào)和10號(hào)兩個(gè)點(diǎn)的ρi和δi都比較大,可以作為聚類焦點(diǎn)。11、12、13三個(gè)點(diǎn)的δi比較大,但是ρi較小(周圍點(diǎn)密度太小),所以是異常點(diǎn),在聚類過(guò)程中將被清洗掉。

3 服務(wù)類型劃分系統(tǒng)模型設(shè)計(jì)

傳統(tǒng)的Gn數(shù)據(jù)解析過(guò)程中,在流量類型字段里,將“未識(shí)別TCP流量業(yè)務(wù)”、“未識(shí)別UDP流量業(yè)務(wù)”和“DNS解析流量業(yè)務(wù)”劃為未知服務(wù)。這樣的計(jì)算模型導(dǎo)致Gn數(shù)據(jù)解析后,業(yè)務(wù)類型里會(huì)有很高占比的未知服務(wù)。解決大量的“未知服務(wù)”的分類結(jié)果,既可以最大化地利用原始數(shù)據(jù),又可以在多維度的情況下,細(xì)分用戶的網(wǎng)絡(luò)業(yè)務(wù)。系統(tǒng)采用分布式集群架構(gòu),如圖2所示,分為數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)解析、數(shù)據(jù)云存儲(chǔ)、數(shù)據(jù)模型挖掘、挖掘結(jié)果分析幾個(gè)步驟。

數(shù)據(jù)獲取階段,將Gn接口數(shù)據(jù)通過(guò)FTP的方式將數(shù)據(jù)傳送給數(shù)據(jù)清洗模塊。

數(shù)據(jù)清洗主要是完成無(wú)效字段的替換,將RNC解析流量對(duì)應(yīng)URL為空的記錄刪除,并完成目標(biāo)數(shù)據(jù)的選取,將Gn原始數(shù)據(jù)類型中流量類型為RNC解析流量的記錄截取出來(lái)。

數(shù)據(jù)解析,如圖3所示,所映射的URL包括查詢的域名及查詢類型。解析URL需要解析協(xié)議(如http、https)、域名或IP、端口號(hào)(如7001、8080)、Web上下文、URI,請(qǐng)求資源地址等。此處需要解析出域名,并將其存儲(chǔ)為一個(gè)新的字段。做一個(gè)URL映射表,將訪問(wèn)域名進(jìn)行歸類映射,例如SINA映射為新聞咨詢?yōu)g覽,tianya映射為討論類論壇,weibo映射為社交網(wǎng)絡(luò)等。

數(shù)據(jù)云存儲(chǔ)階段,將解析后的數(shù)據(jù)以Parquet文件塊的形式存儲(chǔ)在HDFS上,作為數(shù)據(jù)挖掘接入口。

數(shù)據(jù)挖掘模型采用2.2節(jié)介紹的基于聚點(diǎn)密度和距離的高效聚類算法。將解析后的數(shù)據(jù)作為輸入端,通過(guò)挖掘模型計(jì)算,自動(dòng)生成聚類結(jié)果。此處需要注意的是,由于算法中dc變量值(表示測(cè)量點(diǎn)臨界間距)需要事先設(shè)定好,所以為了得到合理的結(jié)果,需多次對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,找到一個(gè)符合業(yè)務(wù)分析需求的特定值。另外,根據(jù)用戶實(shí)際使用情況,同一種業(yè)務(wù)在不同時(shí)間段會(huì)產(chǎn)生不同的用戶體驗(yàn)需求,以及每個(gè)人會(huì)有不同的使用習(xí)慣等,將輸入?yún)?shù)定為業(yè)務(wù)發(fā)生時(shí)間、RNC解析URL域名、年齡這三個(gè)字段。

4 計(jì)算結(jié)果分析

經(jīng)過(guò)多次訓(xùn)練,得到聚類分析結(jié)果,分別為:

(1)深夜(22:00―24:00),年齡

(2)中午(11:00―13:00),26

傳統(tǒng)方式的Gn數(shù)據(jù)解析后,服務(wù)型分為流媒體業(yè)務(wù)、下載業(yè)務(wù)、即時(shí)通信、瀏覽業(yè)務(wù)和未知服務(wù)五類。結(jié)合聚類分析的結(jié)果可以初步判斷,在未知服務(wù)內(nèi)會(huì)有大部分人喜歡深夜使用社交網(wǎng)絡(luò)服務(wù),以及會(huì)有很多青年人會(huì)選擇在中午的時(shí)候?yàn)g覽新聞咨詢。可以嘗試在服務(wù)類型中將第五類未知服務(wù)新分出一類:社交網(wǎng)絡(luò)服務(wù),其確定的方法可以按照聚類的方式倒推,即匹配其解析后的URL。

5 結(jié)束語(yǔ)

本文對(duì)比傳統(tǒng)的Gn數(shù)據(jù)解析方式,提出了一種基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)業(yè)務(wù)類型劃分方法。在實(shí)際應(yīng)用中,該方法在處理大規(guī)模數(shù)據(jù)和高維數(shù)據(jù)時(shí)性能有待于提高。針對(duì)這種情況,有學(xué)者提出一種在高維空間挖掘映射聚類的方法PCKA,它能從多個(gè)維度中篩選出相關(guān)的維度,并根據(jù)相關(guān)維度進(jìn)行聚類。另一方面,如需要對(duì)全國(guó)范圍的Gn數(shù)據(jù)業(yè)務(wù)分類,應(yīng)使用更全面的數(shù)據(jù)進(jìn)行模型訓(xùn)練。

參考文獻(xiàn):

[1] 陳宇. 京廣高鐵GPRS業(yè)務(wù)Gn接口數(shù)據(jù)監(jiān)測(cè)的應(yīng)用[J]. 鄭鐵科技, 2013(1): 23.

[2] 韓宇. 基于數(shù)據(jù)挖掘的聯(lián)通運(yùn)營(yíng)監(jiān)控模塊的設(shè)計(jì)與實(shí)現(xiàn)[D]. 沈陽(yáng): 東北大學(xué), 2011.

[3] 陳平,郭蘭珂,方俊湘. 微信業(yè)務(wù)的識(shí)別方法研究[J]. 移動(dòng)通信, 2013,37(18): 80-83.

[4] 鄭桂鳳. 移動(dòng)互聯(lián)網(wǎng)的用戶行為分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京: 北京郵電大學(xué), 2010.

[5] 閆春榮,牟宏蕾,郝亞飛. 移動(dòng)通信大數(shù)據(jù)信息在決策分析平臺(tái)中的應(yīng)用方案研究[J]. 移動(dòng)通信, 2016,40(10): 24-28.

[6] 李玲俐. 數(shù)據(jù)挖掘中分類算法綜述[J]. 重慶師范大學(xué)學(xué)報(bào): 自然科學(xué)版, 2011(4): 44-47.

[7] 劉明吉,王秀峰. 數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 計(jì)算機(jī)科學(xué), 2000,27(4): 54-57.

[8] 胡志風(fēng). 大數(shù)據(jù)在職務(wù)犯罪偵查模式轉(zhuǎn)型中的應(yīng)用[J]. 國(guó)家檢察官學(xué)院學(xué)報(bào), 2016(4): 144-153.

[9] 鄭雅麗. 圖書(shū)館應(yīng)用大數(shù)據(jù)的策略研究[J]. 科技視界, 2015(12): 163-164.

數(shù)據(jù)類型范文第5篇

關(guān)鍵詞:刑事訴訟法 證據(jù) 電子數(shù)據(jù)

中圖分類號(hào):D9 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1008-925X(2012)O9-0058-01

電子數(shù)據(jù)(electronic data),是指基于計(jì)算機(jī)應(yīng)用、通信和現(xiàn)代管理技術(shù)等電子化技術(shù)手段形成包括文字、圖形符號(hào)、數(shù)字、字母等的客觀資料。2012年第十一屆人大五次會(huì)議,修改并通過(guò)了《中華人民共和國(guó)刑事訴訟法》,其中將“電子數(shù)據(jù)”作為了司法證據(jù)的一個(gè)種類,本文就是淺析電子數(shù)據(jù)在作為電子證據(jù)使用的一些問(wèn)題。

一、 電子數(shù)據(jù)在法律上的定位

電子數(shù)據(jù)作為一種新形式的證據(jù),其概念、范圍、采納、采信問(wèn)題已引起理論界和實(shí)務(wù)界的普遍關(guān)注。從現(xiàn)有的有關(guān)電子數(shù)據(jù)的立法文件來(lái)看,“電子數(shù)據(jù)”有廣義和狹義之分。前者認(rèn)為“數(shù)據(jù)信息”是通過(guò)電子學(xué)手段、光學(xué)手段或其他類似手段生成、發(fā)送、接受或存儲(chǔ)的信息,它包括但不限于電子數(shù)據(jù)交換、電子郵件、電報(bào)、電傳或傳真。而后者則認(rèn)為“電子數(shù)據(jù)”專指電子網(wǎng)絡(luò)信息。

在我國(guó),學(xué)界對(duì)電子數(shù)據(jù)的法律地位的探析雖然一直處于長(zhǎng)期的爭(zhēng)論狀態(tài),但是對(duì)電子數(shù)據(jù)能否作為法定證據(jù)這一問(wèn)題基本上能達(dá)成肯定的共識(shí),電子數(shù)據(jù)作為證據(jù)在司法實(shí)踐中也開(kāi)始以“模糊”形式被逐漸采用。因此,我國(guó)電子證據(jù)問(wèn)題在立法上缺乏完整和切實(shí)的法律規(guī)制的現(xiàn)狀,迫切需要得到立法領(lǐng)域的回應(yīng)。已不可避免地要面臨對(duì)刑事證據(jù)的具體法律調(diào)整問(wèn)題。此次新刑訴法第五章第四十八條就將電子數(shù)據(jù)作為證據(jù)的一種單列出來(lái)。

二、電子數(shù)據(jù)的范圍和特征

根據(jù)以往的司法實(shí)踐和計(jì)算機(jī)、網(wǎng)絡(luò)等技術(shù)的層面考慮,電子數(shù)據(jù)的范圍應(yīng)界定為能夠證明案件真實(shí)情況的,以物理方式存儲(chǔ)于計(jì)算機(jī)系統(tǒng)內(nèi)部及其各個(gè)層面(計(jì)算機(jī)網(wǎng)絡(luò)的應(yīng)用層、表示層、會(huì)話層、傳輸層、網(wǎng)絡(luò)層、數(shù)據(jù)鏈路層與物理層等)或電子設(shè)備、手機(jī)、等移動(dòng)存儲(chǔ)或非移動(dòng)存儲(chǔ)介質(zhì)(手機(jī)機(jī)身和SIM卡、電子芯片、內(nèi)存、光盤、硬盤、軟盤及輔助介質(zhì))當(dāng)中的指令和資料,包括計(jì)算機(jī)程序和程序運(yùn)行過(guò)程中所處理的信息資料(文本資料、運(yùn)算資料、圖形表格等)。其具有無(wú)形性、多樣性、易破壞性、反復(fù)重現(xiàn)性、較高的精密性、高科技性、易保管性、易利用性及更強(qiáng)的客觀真實(shí)性等特征。

三、電子數(shù)據(jù)的提取和勘驗(yàn)

電子數(shù)據(jù)由于自身的特征,往往對(duì)案件的偵辦起到?jīng)Q定性的作用,但是又極易破壞和污染,所以司法機(jī)關(guān)的技術(shù)部門提取和勘驗(yàn)電子數(shù)據(jù)就顯得至關(guān)緊要。其程序一般包括:現(xiàn)場(chǎng)勘驗(yàn)、發(fā)現(xiàn)預(yù)檢載體、提取電子數(shù)據(jù)、排除無(wú)用信息和保存電子數(shù)據(jù)幾個(gè)過(guò)程。基本要求為及時(shí)發(fā)現(xiàn)、規(guī)范操作和安全實(shí)施。過(guò)程一定要遵循以下原則:1、電子數(shù)據(jù)的客觀性。電子數(shù)據(jù)是客觀存在于各種存儲(chǔ)介質(zhì)中,如果不是人為的損毀是不會(huì)憑空消失的,那么就要求提取人員不能憑空一遭隨意篡改。2、電子數(shù)據(jù)的關(guān)聯(lián)性。看似電子數(shù)據(jù)存在的介質(zhì)比較多,但是各種數(shù)據(jù)之間應(yīng)該存在許多內(nèi)部的關(guān)聯(lián),那就要求提取人員善于發(fā)現(xiàn)和總結(jié),不放過(guò)任何有用的電子數(shù)據(jù)。3、提取的合法性。電子數(shù)據(jù)要作為證據(jù),其收集的主體必須為具有國(guó)家司法機(jī)關(guān)認(rèn)可的專業(yè)技術(shù)人員。另外電子數(shù)據(jù)的提取操作必須具有合法性,才能確保電子數(shù)據(jù)的合法性。

四、電子數(shù)據(jù)提取的主要技術(shù)手段和工具

1、電子數(shù)據(jù)信息搜索和過(guò)濾技術(shù)

面對(duì)雜亂的犯罪證據(jù),技術(shù)人員往往感到無(wú)從下手,全盤提取電子證據(jù)又費(fèi)時(shí)費(fèi)力,這種情況下,信息搜索和過(guò)濾技術(shù)就顯得尤為重要,通過(guò)特殊文件和字段的查找和多項(xiàng)電子數(shù)據(jù)的綜合比對(duì),可以快速找到關(guān)鍵的電子證據(jù),篩選、挖掘出指定目標(biāo)數(shù)據(jù)。

2、缺損電子設(shè)備存儲(chǔ)數(shù)據(jù)取證技術(shù)

面對(duì)缺損的電子數(shù)據(jù)存儲(chǔ)介質(zhì),則必須先修理存儲(chǔ)介質(zhì)再進(jìn)行數(shù)據(jù)取證,那就必須用到光盤修復(fù)、閃存修復(fù)、硬盤修復(fù)、芯片讀取、數(shù)據(jù)恢復(fù)等技術(shù)。

3、解密加密技術(shù)及口令獲取技術(shù)

在司法鑒定取證的電子證據(jù)提取過(guò)程中,常常會(huì)遇到數(shù)據(jù)被加密等情況,讓取證工作一度陷入困境。那么就需要一整套高速的密碼分析和密碼破解技術(shù)。能夠深入分析Microsoft公司的windows操作系統(tǒng)和office辦公辦案軟件加密機(jī)制的特點(diǎn),采用國(guó)際領(lǐng)先的“多態(tài)全域覆蓋”與“并行空間平衡”等技術(shù),從密碼數(shù)學(xué)層面大大縮短解密數(shù)值空間,同時(shí)進(jìn)行算法以及工程實(shí)現(xiàn)方面進(jìn)行優(yōu)化,加大解密的速度和準(zhǔn)確度。

4、源盤保護(hù)及電子證據(jù)固化技術(shù)

隨著硬盤技術(shù)的發(fā)展,硬盤的容量越來(lái)越大,取證花費(fèi)的時(shí)間變長(zhǎng),給電子證據(jù)的固化帶來(lái)了新的挑戰(zhàn)。硬盤高速克隆機(jī)、單向只讀訪問(wèn)接口等設(shè)備的出現(xiàn)就解決了這樣的難題,不光能支持多對(duì)多存儲(chǔ)介質(zhì)的克隆,且拷貝速度能達(dá)到18Gb/分鐘。以保證在電子證據(jù)的提取中也保證只讀不寫(xiě),不污染目標(biāo)證據(jù),最大程度的保護(hù)了源盤。

目前常用的取證工具和取證實(shí)驗(yàn)室設(shè)備主要有:1、計(jì)算機(jī)取證類,包括現(xiàn)場(chǎng)勘察箱、快速取證機(jī)、硬盤克隆機(jī)、只讀接口等;2、網(wǎng)絡(luò)取證類,包括移動(dòng)工作站、網(wǎng)絡(luò)取證儀和WLAN無(wú)線定位系統(tǒng)等;3、手機(jī)取證類,包括手機(jī)檢驗(yàn)包、手機(jī)信息和話單分析系統(tǒng)、SIM卡克隆機(jī)、小型數(shù)碼翻拍儀等、手機(jī)數(shù)碼設(shè)備信號(hào)屏蔽袋等;4、實(shí)驗(yàn)室類,主要包括預(yù)檢工作站、檢驗(yàn)工作站、密碼破解工作站等;5、其他工具類設(shè)備,主要包括各類綜合分析軟件。

相關(guān)期刊更多

數(shù)據(jù)

省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

北京市統(tǒng)計(jì)局

大數(shù)據(jù)

統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

工業(yè)和信息化部

數(shù)據(jù)通信

部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

信息產(chǎn)業(yè)部

主站蜘蛛池模板: 崇明县| 佛教| 漠河县| 丰原市| 新乐市| 株洲县| 齐齐哈尔市| 特克斯县| 万源市| 平凉市| 大安市| 册亨县| 万载县| 石屏县| 固阳县| 鱼台县| 吕梁市| 惠安县| 蓬安县| 乌苏市| 惠东县| 普定县| 乌什县| 崇文区| 陆丰市| 长寿区| 永寿县| 班玛县| 乌什县| 那曲县| 梅州市| 景德镇市| 中西区| 嵩明县| 宜君县| 那曲县| 遵义市| 遵化市| 邢台县| 河北区| 敦煌市|