电子商务安全(第2版)
上QQ阅读APP看书,第一时间看更新

2.2 电子商务安全相关技术

本节主要介绍电子商务安全技术中的密码学、网络安全、隐私保护、大数据、人工智能和区块链等。

2.2.1 密码学

密码学(Cryptology)起源于保密通信技术,是结合数学、计算机、信息论等学科的一门综合性、交叉性学科。密码学又分为密码编码学(Cryptography)和密码分析学(Cryptanalysis)两部分。密码编码学主要研究如何设计编码,使得信息编码后除指定接收者外的其他人都不能读懂。密码分析学主要研究如何攻击密码系统,实现加密消息的破译或消息的伪造。这两个分支既相互对立又相互依存,正是由于这种对立统一关系,才推动了密码学自身的发展。

密码体制是实现加密和解密功能的密码方案,密钥空间中不同密钥的个数称为密码体制的密钥量,它是衡量密码体制安全性的一个重要指标。同时,根据加、解密密钥的使用策略不同,又可将密码体制分为对称密码体制和非对称密码体制。

第3章将介绍密码学相关知识。

2.2.2 网络安全

互联网如同为电子商务铺设了四通八达的道路。因此,网络安全是电子商务安全的基础。网络安全从其本质上来讲就是网络上的信息安全,涉及的领域相当广泛,这是因为在目前的公用通信网络中存在各种各样的安全漏洞和威胁。凡是涉及网络上信息的保密性、完整性、可用性、真实性和可控性的相关技术和理论,都是网络安全所要研究的领域。严格地说,网络安全是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠、正常地运行,网络服务不中断。

网络所面临的安全威胁大体可分为两种:一是对网络本身的威胁,二是对网络中信息的威胁。对网络本身的威胁包括对网络设备和网络软件系统平台的威胁;对网络中信息的威胁除了包括对网络中数据的威胁外,还包括对处理这些数据的信息系统应用软件的威胁。

网络安全技术包括防火墙、入侵检测系统、访问控制、虚拟专用网、Web安全等。

(1)防火墙

防火墙作为网络安全防御体系中的第一道防线,通过一组软、硬件设备,在内部安全网络和外部不安全网络之间构建一道保护屏障,对二者之间的网络数据流量进行控制,阻止对信息资源的非法访问,做到御敌于外。简单地说,防火墙是位于两个或多个网络之间,实施访问控制策略的一组组件。

(2)入侵检测系统

入侵检测系统(Intrusion Detection System,IDS)是一种设备,通常是另一台独立的计算机,通过监视内部的活动来识别恶意的或可疑的事件。IDS是一种探测器,像烟雾探测器一样,如果发生了指定的事件就会触发警报。IDS采用实时(或近似实时)的运行方式,监视活动并及时向管理员报警,以便采取保护措施。

IDS是对网络安全极好的补充。防火墙通过封锁到达特定端口或地址的通信量,并限制使用某些协议来降低其影响。但根据定义,防火墙必须允许一些通信量进入一个受保护区域。而监视通信量在受保护区域内的真实活动则是IDS的工作。

(3)访问控制

访问控制包括的三个任务是:授权,即确定可给予哪些主体访问客体的权力;确定访问权限(读、写、执行、删除、追加等访问方式的组合);实施访问权限。代表性的有自主访问控制、强制访问控制和基于角色的访问控制等。

(4)虚拟专用网

防火墙可以对进出网络的信息和行为进行控制,将用户内部可信任网络和外部不可信任网络隔离。然而越来越多的企业在全国乃至世界各地建立分支机构开展业务。随着办公场地和分支机构的分散化,以及日渐庞大的移动办公大军的出现,分散在不同地点的机构,也需要考虑安全传输的问题。虚拟专用网(Virtual Private Network,VPN)技术应运而生,它既可以实现企业网络的全球化,又能最大限度地利用公共资源。VPN技术的核心是在互联网上实现保密通信。VPN的主要作用是要保证信息在传输中不被窃听、篡改、复制。

(5)Web安全

网上银行、网络购物等很多业务都依赖于互联网,基于Web环境的互联网应用越来越广泛。这也使得越来越多的用户关注应用层的安全问题,对Web应用安全的关注度也逐渐提高。很多恶意攻击者出于不良的目的对Web服务器进行攻击,想方设法通过各种手段获取他人的个人账户信息以谋取利益。正是因为这样,Web业务平台最容易遭受攻击。常见的有挂马、SQL注入、跨站脚本攻击等。

2.2.3 隐私保护

隐私是个人、机构等实体不愿意被外部世界知晓的信息。在具体数据应用中,隐私即数据所有者不愿意被披露的敏感信息,包括敏感数据以及数据所表征的特性,如用户的手机号、固定电话、位置信息等。一般来说,从隐私所有者的角度而言,隐私可以分为个人隐私和共同隐私。其中,个人隐私是指任何可以确认特定个人,或与可确认的个人相关但个人不愿被透漏的信息,都叫作个人隐私,如身份证号、就诊记录等。共同隐私不仅包含个人的隐私,还包含所有个人共同表现出但不愿被暴露的信息,如公司员工的平均薪资、社交网络群组成员的共同爱好等信息。

隐私保护技术主要解决如何保证数据应用过程中不泄露隐私,以及如何更有利于数据的应用。

隐私保护技术主要包括以下三类。

1.基于数据变换的隐私保护技术

所谓数据变换,简单地讲就是对敏感属性进行转换,使原始数据部分失真,但是同时保持某些数据或数据属性不变的保护方法。目前,该类技术主要包括随机化、数据交换、添加噪声等。一般来说,当进行分类器构建和关联规则挖掘,而数据所有者又不希望发布真实数据时,可以预先对原始数据进行扰动后再发布。

2.基于数据加密的隐私保护技术

采用对称或非对称加密技术在数据挖掘过程中隐藏敏感数据,多用于分布式应用环境中,如分布式数据挖掘、分布式安全查询、集合计算、科学计算等。

分布式应用一般采用两种模式存储数据:垂直划分和水平划分的数据模式。垂直划分数据是指分布式环境中每个站点只存储部分属性的数据,所有站点存储的数据不重复;水平划分数据是将数据记录存储到分布式环境中的多个站点,所有站点存储的数据不重复。

3.基于匿名化的隐私保护技术

匿名化是指根据具体情况有条件地发布数据,如不发布数据的某些域值、数据泛化等。限制发布即有选择地发布原始数据、不发布或者发布精度较低的敏感数据,以实现隐私保护。数据匿名化一般采用两种基本操作:抑制和泛化。抑制是指抑制某些数据项,即不发布该数据项;泛化是指对数据进行更概括、抽象的描述。

2.2.4 大数据

大数据是一种在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。其“5V”特征包括:

● 大体量(Volume),即可从数百TB到PB,甚至EB的规模。

● 多样性(Variety),即包括各种格式和形态的数据。

● 时效性(Velocity),即很多大数据需要在一定的时间限度内得到及时处理。

● 准确性(Veracity),即处理的结果要保证一定的准确性。

● 大价值(Value),即大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。

从大数据的生命周期来看,大数据技术包括四个方面:大数据采集、大数据预处理、大数据存储、大数据分析。

1.大数据采集

大数据采集是指对各种来源的结构化和非结构化海量数据所进行的采集,主要包括数据库采集、网络数据采集、文件采集。

2.大数据预处理

大数据预处理是指在进行数据分析之前,先对采集到的原始数据所进行的诸如清洗、填补、平滑、合并、规格化、一致性检验等一系列操作,旨在提高数据质量,为后期分析工作奠定基础。大数据预处理主要包括数据清理、数据集成、数据转换、数据规约。

3.大数据存储

大数据存储是指用存储器以数据库的形式存储采集到的数据的过程,包括基于MPP架构的新型数据库集群、基于Hadoop技术的扩展和封装、大数据一体机。

4.大数据分析

大数据分析是指对杂乱无章的数据进行萃取、提炼和分析的过程,包括可视化分析、数据挖掘、预测性分析、语义引擎、数据质量管理等。

2.2.5 人工智能

人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。其核心技术包括机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、虚拟现实/增强现实。

1.机器学习

机器学习研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能;重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法及算法的不同,机器学习存在不同的分类方法。根据学习模式,可以将机器学习分类为监督学习、无监督学习和强化学习;根据学习方法,可以将机器学习分为传统机器学习和深度学习;此外,机器学习还包括迁移学习、主动学习和演化学习等。

2.知识图谱

知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性值”对。不同实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点都表示现实世界的“实体”,每条边为实体与实体之间的“关系”。知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。知识图谱可用于反欺诈、不一致性验证、组团欺诈等领域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势。

3.自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。它主要包括机器翻译、语义理解和问答系统等。

4.人机交互

人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换。传统的人与计算机之间的信息交换主要依靠交互设备进行,如键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术。

5.计算机视觉

计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类的提取、处理、理解和分析图像及图像序列的能力。近年来随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。

6.生物特征识别

生物特征识别是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、扬声器对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到并存储相应的特征。识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务。辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及图像处理、计算机视觉、语音识别、机器学习等多项技术。目前,生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。

7.虚拟现实/增强现实

虚拟现实/增强现实是以计算机为核心的新型视听技术。它可以结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,再通过显示设备、跟踪定位设备、触觉交互设备、数据获取设备、专用芯片等实现。虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术、技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意数字化和模型化,其难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化的方法,其难点是内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模数字化内容的流通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换和版权管理技术;展示与交互技术重点研究符合人类习惯的数字内容的各种显示技术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的人机交互环境;技术标准与评价体系重点研究虚拟现实/增强现实的基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。虚拟现实/增强现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适化的发展趋势。

2.2.6 区块链

区块链是一个去中心化、分布式的共享账本,具有去中心化、不可篡改、全程留痕、可以追溯、集体维护、公开透明等特点。这些特点保证了区块链的“诚实”与“透明”,为区块链创造信任奠定了基础。而区块链丰富的应用场景,基本上都基于区块链能够解决信息不对称问题,以及它能够实现多个主体之间的协作信任与一致行动。

区块链的核心技术包括分布式账本、非对称加密、共识机制、智能合约。

1.分布式账本

分布式账本指的是交易记账由分布在不同地方的多个节点共同完成,而且每一个节点记录的都是完整的账目,因此它们都可以参与监督交易合法性,同时也可以共同为交易作证。跟传统的分布式存储有所不同,区块链的分布式存储的独特性主要体现在两个方面:①区块链每个节点都按照块链式结构存储完整的数据,传统分布式存储一般是将数据按照一定的规则分成多份进行存储的。②区块链每个节点存储都是独立的、地位等同的,依靠共识机制保证存储的一致性,而传统分布式存储一般是通过中心节点往其他备份节点同步数据的。没有任何一个节点可以单独记录账本数据,从而避免了单一记账人被控制或者被贿赂而记假账的可能性。也由于记账节点足够多,理论上讲,除非所有节点被破坏,否则账目就不会丢失,从而保证了账目数据的安全性。

2.非对称加密

存储在区块链上的交易信息是公开的,但是账户身份信息是高度加密的,只有在数据拥有者授权的情况下才能访问到,从而保证了数据的安全和个人的隐私。

3.共识机制

共识机制就是指所有记账节点之间如何达成共识、去认定一个记录的有效性,这既是认定的手段,也是防止篡改的手段。区块链提出了四种不同的共识机制,适用于不同的应用场景,以在效率和安全性之间取得平衡。区块链的共识机制具备“少数服从多数”以及“人人平等”的特点,其中“少数服从多数”并不完全是指节点个数,也可以是计算能力、股权数或者其他的计算机可以比较的特征量。“人人平等”是指当节点满足条件时,所有节点都有权优先提出共识结果、直接被其他节点认同后并最后有可能成为最终共识结果。以比特币为例,它采用的是工作量证明,只有在控制了全网超过51%的记账节点的情况下,才有可能伪造出一条不存在的记录。当加入区块链的节点足够多的时候,这基本上不可能,从而杜绝了造假的可能。

4.智能合约

智能合约是指基于这些可信的不可篡改的数据,可以自动化地执行一些预先定义好的规则和条款。以保险为例,如果每个人的信息(包括医疗信息和风险发生的信息)都是真实可信的,那么就很容易在一些标准化的保险产品中进行自动化理赔。